

2025年07月04日
GAIAとは何か?AIの「知能」を測る新しいベンチマーク
目次
執筆者の自己紹介
ソリューション開発部の代田です。
普段はお客様とのAIプロジェクトや最新AIに関する研究をマネジメントをしています。
前書き
※本記事は、2024年12月時点に執筆したものです。
皆さんは「知能が高い」と聞いて、どんな人物像を思い浮かべるでしょうか? 東大卒の人? 社長? メガネをかけている人? その基準は人によって異なりますが、実は「知能」を明確に定義することは意外と難しいものです。ましてや、それをどうやって「測るか」となると、さらに難解です。
今回は、そんな「知能」と、それをAIでどう評価するかに関する話題です。
特に、MetaとHugging Faceが共同で発表した新しいAIベンチマーク「GAIA」にフォーカスします。
ChatGPTをはじめとするLLM(大規模言語モデル)の急速な進化があります。これらのモデルは人間にますます近づきつつあり、GPT-4oやGemini、Phi-3といった最新モデルが次々と登場しています。その進化のスピードは驚異的で、止まる気配がありません。
しかし、この急速な進化には新たな課題も伴います。従来のAIベンチマーク(AIの性能を測るテスト)は、この進化速度を前提に設計されていないため、現代のAIを正しく評価することが難しくなってきたのです。
そこで注目されてきているのが、新しいベンチマークです。この新しいベンチマークは、AIが単に課題をクリアする能力を評価するだけでなく、「本質的な知能」を正確に測定できるものでなければなりません。GAIAは、そうした背景の中で生まれた、今注目のベンチマークです。
1. GAIAを簡単に説明すると
GAIAとは何か
GAIA(A Benchmark for General AI Assistants)は、2023年11月にMetaとHuggingFaceが共同で開発した新しいベンチマークです。このベンチマークには、以下の特徴があります。
- 実用的なシナリオに基づいたテスト
- 多段階の思考や、様々な種類の情報(テキスト、音声、画像、センサ情報など) が含まれる
- 事前準備をしにくい
- 総当たり的なアプローチでは解けない
要するに、「人間と同じ土俵で、公平に知能を測ろう」という試みです。
GAIAの例題とその意図
はじめに、GAIAの例題をお見せします。答えは記事の後半にあるので、時間がある人は一度考えてみて下さい。
このテストは、Web検索、その他ツールの使用、また、人に聞いたりすることもOKです。
※元のテストが英語だったため、Level1のみ日本語に翻訳したものを以下に掲載します。
Level 1 問題(出典元より翻訳)
NIHのウェブサイトに掲載されている、2018年1月~5月の異常性ざ瘡患者におけるピロリ菌に関する臨床試験の実際の登録者数は?

Mialon, G. et al. (2024). GAIA: A Benchmark for General AI Assistants.arXiv,
https://arxiv.org/abs/2311.12983
、、、なかなか難しいですよね。よくわからない専門用語や、見にくい画像が張られていて、途中で諦めたくなります。特に、「尋常性ざ瘡患者」はWeb検索を駆使しないと、ほとんどの人には意味がわかりません。
なぜ、このような質問を作るのか、出題者の意図が気になってきたと思います。
そこで、この後述の内容では、GAIAが生まれた背景から、そのテストの内容まで、詳しく説明していきたいと思います。
ちなみに、AIも我々と同じようにWeb検索OKな環境で、自主的に調べながら回答を考えることになります。本当に人間とAIのガチンコ勝負ですね。
2. GAIAの背景
① より未来を見据えた指標の必要性
AIの進化は非常に急速で、かつて遠い未来の技術とされていたものが、今や当たり前になりつつあります。その進化の速さを象徴する1つの例が、動画生成技術の発展です。1年前の2023年の年末には動画生成が「まだまだ不可能」と言われていました。あるテレビ番組で、司会者がAI研究者に「画像生成ができるなら、動画生成もできちゃうんですか?」と尋ねたことを鮮明に覚えています。その際、研究者は「あと5~6年はかかるだろう」と説明し、画像生成とは別のアプローチが必要だと尤もらしい理由も挙げていました。
しかし、その予想を覆すように、2024年の年明け早々に動画生成AI「Sora」が登場しました。今では誰もが動画生成サービスを手軽に利用できる時代となっています。この急速な進化は、研究者の予測すら追いつかない状況です。現状のAI業界は、トップの研究者ですら数ヶ月先の技術発展を予測できない、とういことです。この状況の中で、従来の様に「出来るだろうな」程度の指標を設定すると、すぐに達成されかねません。また、後追い的に新たな指標を設定する為、粗雑な指標になるリスクがあるのです。こう言った理由から、今の技術発展のスピードを考慮し、「本当にできるの?」と思う様な、より未来を見据えた指標が必要なのです。
② そもそも「知能」とは
「知能(Intelligence)」とは何か。「知能」という言葉には、科学的に合意された明確な定義が存在しません。この曖昧さゆえに、これまでの研究では慣習的に用いられていた定義や、それに伴う誤解が多く存在していました。
こうした背景を踏まえ、AI研究の分野では「知能」を統一的に定義する試みが行われています。その中で、2007年に2人の研究者が、過去の70件以上の文献を基に「知能」を1つの文章に集約しています。
知能とは、様々な環境において目標を達成するエージェントの能力を測るものである。
“Intelligence measures an agent’s ability to achieve goals in a wide range of environments.”
(※エージェント:与えられた目的を達成するために自らの判断で行動するもの)
この定義は、かなりシンプルです。
しかし、この一文にはAI研究における重要な2つの視点が含まれています。
- 特定のタスクを達成する能力(「目標を達成する」)に重点を置く視点
- 一般性や適応性(「様々な環境において」)を評価する視点
この2つの視点が、知的なエージェントの特徴なのです。つまり、「多様なタスクで高い能力を発揮する存在」です。言い換えれば、スペシャリストであり、かつ、同時にジェネラリストでもある存在が「真に知的」とされるのです。GAIAは、この 「多様なタスクで高い能力を発揮できるか」 という視点でテストの内容が作り込まれています。
ところで、このような特性を持つ存在を何と呼ぶのか気になり調べたところ、「ポリマス(Polymath)」というらしいです。
③ 知能評価の歴史と課題
では、これまで研究者たちはどのように知能を評価してきたのでしょうか。実は、これまでの知能評価の視点は、先ほどの定義のうち「特定タスクへの適応能力(1つ目の視点)」に偏っています。また、その評価方法も統一されていません。以下は、これまでに用いられてきた主な方法です。
- 人間のレビュー
人間の審査員がシステムの入出力を観察し、主観的に採点する方法(例: チューリングテスト)。- 長所: 人間の直感的な判断を取り入れられる
- 短所: 高コスト・自動化が不可能・主観的
- ホワイトボックス分析
開発者がシステムの内部構造を解析し、意図通りに動作するかを確認する方法(例: 巡回セールスマン問題)。- 長所: 内部構造の把握が可能
- 短所: 特定の問題に限定され、汎用性に欠ける
- 対戦評価
他のAIや人間と競わせ、その結果を評価する方法(例: 将棋AI)。- 長所: 相対的な実力が明確
- 短所: 対戦相手や環境に依存する
- ベンチマーク評価
既知のテストセットを用い、システムが生成する出力をスコア化する方法。- 長所: 再現性が高く、公平で柔軟性がある
- 短所: 単一の測定基準に特化する傾向にある
特に、最後の項目の「ベンチマーク」は設定が簡単で、スケーラブルであり、AI研究の進歩を牽引してきたとも言えます。学校のテストも、このベンチマークの一例です。一方で、便利である反面、次のような課題があります。
- 単一の測定基準への最適化
特定の基準に最適化することで、他の重要な要素が評価されないまま放置される問題です。 - 抜け穴の存在
ベンチマークの構造上の隙間を利用し、本来の目的から外れた方法で高いスコアを得る可能性があります。 - 達成方法に条件を課さない
システムが目標を達成する過程を評価しないため、不正確な手法でタスクを解決するAIが増える問題があります。
学校のテストに例えると、1は「勉強だけできる人」、2は「過去問や裏金の利用」、3は「不正を防ぐ試験官の不在」に相当します。AIの世界でも同様に、「与えたテストデータだけに強いAI」や、「テストデータを知っているAI」、さらには「不正を許してしまうデータサイエンティスト」が存在します。
このような背景から、人間の心理として「AIはタスクは達成しているが、人間らしい知能は感じられない」という現象が生じてしまいます。人間が認める条件下で、知能の高さを証明する必要があるのです。
これらベンチマークの課題を回避し、人間が納得できる方法で、知能を測ることが求められているのです。
3. GAIAの構成
基本構成
GAIAには、合計466問の課題が用意されており、AIが実際の作業環境でどう振る舞うかを試す内容となっています。
まず、基本構成は以下になります。
- 現実的なタスク(Web検索、ファイル処理、コーディング等)
- マルチモーダル対応(テキスト、画像、音声など)
- 回答の簡潔さ(数値や単語の短い形式)
難易度分類
さらに、上記466個の質問は、以下の3つの難易度に分かれています。
▼質問の難易度レベル
レベル1:ツール使用は最大1つ、ステップは5以下
レベル2:複数ツールを使用し、5~10のステップが必要
レベル3:高度な推論、無制限のツール使用、長いステップを要する
では改めて、先程の例題を見返してみましょう。

Levelが上がるほど最終的な回答を見つけるまでに、いろいろなツールをつかったり、よく考える必要がありますね。また、今までの背景を考慮した内容が確かに盛り込まれています。
- 数年で簡単クリアされないように、より将来を見据えた難しいものを作りたい
すぐにはクリアできそういない難しさですよね。こちらは後述しますが、現状のChatGPTもそれほど高い成果は出せてません。
- 「多様なタスクで高い能力を発揮できる」ことをテストしたい
かなり横断的なタスクが含まれています。例えば、先ほどのWeb検索に加え、ファイル処理、コーディング、音声認識、表計算などなど。これだけ多様なタスクができることとなれば、今の社会人としては普通に働けるレベルだと思います。
- ベンチマークテストの抜け穴に対する対策するを盛り込む必要がある
データリーク(カンニング的なもの)への対策として、質問内容は、AIの訓練データに含まれない内容を意識して作成されています。例えば、必要な情報を複数のソースから組み合わせて生成していたり、過去のデータセットで使われていないような新しい質問を設計したりといった工夫です。また、多肢選択式ではなくユニークな回答を必要とする質問形式を採用することで、記憶ベースで解答する不正を防止しているようです。
この様に、背景を知った上で改めて見ると、なぜこの様なテストになったのが理解できますね。ただ意味の分からない言葉や画像を並べたテストでは無いということがわかりました。
実際のデータセットは以下のリンクから確認できます。466問解いてみたい方はぜひチャレンジしてみて下さい。
4. GAIAの結果
それでは最後に、GAIAの結果について解説しようと思います。これは、論文発表時点(2023/11)での結果となります。
本論文の中では、人間、GPT-4(プラグインなし)、GPT-4(プラグインあり)、AutoGPT-4、Web検索の5つの対象に関して、それぞれGAIAのテストを実施しています。
人間とWeb検索について、違いが少しわかりずらいので補足しておきます。
- 人間
- Web検索だけでなく、ツールや外部リソースを組み合わせて解決
- 必要に応じて文脈を解釈し、欠落している情報を補完する推論が可能
- Web検索
- 検索結果が制限されており、検索エンジンに表示される情報に依存
- 検索エンジンが提供するスニペットやリストから、答えを推測することが主な方法
といった手段の違いかあります。
また、その他の項目(GPT-4(プラグインなし)、GPT-4(プラグインあり)、AutoGPT-4)についてのテスト方法についても補足しておきます。
- テスト形式
- ゼロショット形式:トレーニングデータに依存せず、事前知識なしで回答を生成
- フォーマット指定:回答のフォーマット(数値、文字列、リストなど)が指定され、フォーマットの適合性も評価
- テストプロセス
- 質問と関連する情報(ファイルやリンクなど)をGPT-4に提示
- システムプロンプトで、回答フォーマットや期待される動作を明示
GAIA Question: The attached Excel file contains the sales of menu items for a local fast-food chain. What were the total sales that the chain made from food (not including drinks)? Express your answer in USD with two decimal places.
System prompt: You are a general AI assistant. Report your thoughts, and finish your answer with the following template: FINAL ANSWER: [YOUR FINAL ANSWER].
このように、GPTモデルに対してテストを行っているようです。
肝心の結果ですが、以下のようになりました。
モデル別スコア

Mialon, G. et al. (2024). GAIA: A Benchmark for General AI Assistants.arXiv,
https://arxiv.org/abs/2311.12983
こちらの様に、人間が最も優れた能力を発揮していることがわかります。つまり、現時点では、「AIよりも人間の方が知能が高い」ということが言えそうですね。
GPT-4について、論文の中で言及されていた課題点として以下があります。
- 複数ステップの推論が苦手
- 各ステップでの中間結果を次のステップに正確に反映する能力が不十分
- ステップ間での推論が曖昧になりやすい
例えば、以下の様な質問に対して、回答できていないようです。
質問:「NASAのある宇宙飛行士が属するグループの中で、宇宙滞在時間が最も短い人物は誰か、またその滞在時間は?」
これを解くためには、恐らく以下のステップを踏む必要があります。
- 「NASAのある宇宙飛行士が属するグループ」を認識
- そのグループにおける宇宙滞在時間の情報を収集
- 宇宙滞在時間が最も短い人物を特定
- 回答を作成
大体4ステップくらい必要になりますね。このようにステップ数を踏んで試行する必要がある場合は、当時のAIには厳しいようです。
- ツール使用なしでのマルチモーダル能力の不足
- プラグインがない状態では、外部ツールを使用する能力が制限され、ファイル(ExcelやPDF)や画像の処理が難しい
- マルチモーダルな入力(例: 画像や音声データ)に対して、限られた処理能力しか持たない
こちらも例としては以下です。
質問:「添付されたExcelファイルから、飲み物を除いた総売上を計算せよ。」
これはさすがに、GPT-4には厳しいですね。なにせ、テキスト入力を想定して作られたAIなので、このような表形式データの認識や、画像についての内容を聞かれても困ってしまうだろうなと思います。ただ、ツール(プラグイン)を使用しても、タスクの統合処理に難があったようです。
以下はGPTに関する Level 1 の質問のタスク別の結果になります。この結果からも、ツール(プラグイン)を使わないと、ほとんど何も対応できてないことがわかりますね。

Mialon, G. et al. (2024). GAIA: A Benchmark for General AI Assistants.arXiv,
https://arxiv.org/abs/2311.12983
最後に、最新(2024.12)のGAIAの結果についても、確認しておきました。その結果がこちらになります。

Hugging Face gaia-benchmarkのリーダーボードはこちら
上から順に、AIモデルのトップスコアが掲載されています。なんと、この 1 年で Level2 までが 50% 台となっています。まだ人間までは到達していないが、本当に大丈夫だろうか、と心配になってしまう結果ですね。
この結果は、リーダーボードから見られるので皆さんもぜひご確認ください。
5. 最後に
ここまで、GAIAという新しいAIベンチマークの背景、設計思想、そして各モデルの結果について紹介してきました。GAIAが他のベンチマークと決定的に異なるのは、単なるスコアの比較ではなく、AIが現実世界で「どのように考え、行動できるか」という視点から評価しようとしている点にあります。Web検索や表計算、画像・音声といった複数の情報を統合して課題を解決する力は、実際にAIが現場で使われるうえで欠かせないスキルです。
こうした現実的で複雑な課題に対し、AIがどこまで対応できるのかを明らかにするGAIAは、次世代のAI評価の出発点ともいえるでしょう。
今後、GAIAで人間と肩を並べるAIが登場するのか。そして、その先にどのような“知能の評価軸”が生まれてくるのか。私たち自身も、その変化を受け止めながら、AIとの関わり方を考え続けていく必要があるのではないでしょうか。
執筆者:代田 隆起(ソリューション開発部)
参考文献・出典
- François Chollet(Google)(2019),“On the Measure of Intelligence”, arXiv,
https://arxiv.org/abs/1911.01547 - Grégoire Mialon(FAIR, Meta)(2024),“GAIA: A Benchmark for General AI Assistants”, arXiv,
https://arxiv.org/pdf/2311.12983(November 23, 2023) - Hugging Face GAIA Benchmark Dataset,
https://huggingface.co/datasets/GAIA-benchmark/GAIA - Hugging Face GAIA Leaderboard,
https://huggingface.co/spaces/gaia-benchmark/leaderboard