618ZXW

スタンフォード大学フェイフェイ・リー教授のチーム:2024年人工知能開発報告書の概要

データホエール

データホエールの共有

著者: Li Feifei のチーム;出典: AI ダオシャン

スタンフォード大学フェイフェイ・リー教授のチームによる2024年AI開発レポートの要約。

1. コア情報

2024 年には人工知能 (AI) の分野で大きな進歩が遂げられましたが、課題も残っています。

AIは画像分類や言語理解などの特定のタスクでは人間を上回っていますが、より複雑なタスクではまだ限界があります。

産業界は、AI研究、特に機械学習モデルの作成において主導的な役割を果たしてきました。

大規模 AI モデルのトレーニング コストは増加し続けています。たとえば、GPT-4 は約 7,800 万ドル、Gemini は約 1 億 9,100 万ドルのコストがかかっています。

AI モデルの主な貢献国は米国、中国、ヨーロッパであり、AI 特許では中国がリードしています。

AIモデルの信頼性を評価する統一基準の欠如、生成AIへの投資の急増、AIによる労働者の効率と質の向上、科学と医学の進歩の加速、米国で発行されるAI関連規制の急増、AIの潜在的な影響に対する世界的な認識の高まりなどが、緊張の高まりにつながっています。

2. AI研究開発

2.1 要点

AI研究は依然として産業界主導であり、公開モデルの増加と学習コストの上昇が続いています。大規模AIモデルの開発は、米国、中国、欧州が主導権を握っています。中国はAI特許において主導的な地位を占めており、GitHubで公開されるAI研究リソースと関連論文の数も増加し続けています。

2.2 コア比較情報

2010年から2022年にかけて、AI関連の論文発表数は年々増加しており、優れた機械学習モデルの発表数では米国が世界トップの地位を維持しています。

2.3 モデルはデータを使い尽くしますか?

AIモデルの開発には膨大な量のデータが必要ですが、コンピューター科学者が高品質なデータをすぐに枯渇させてしまうのではないかという懸念があります。合成データはこの問題を軽減できる一方で、合成データを用いて学習したモデルはパフォーマンスが低下する可能性があります。

2.4 基本モデルの開発

ベースモデルは幅広いデータセットで学習されており、汎用性が高く、多くのダウンストリームアプリケーションに適しています。これらのモデルは実世界のシナリオでますます導入されており、リリースされるベースモデルの数は国や組織によって異なります。

2.5 トレーニングモデルのコスト

大規模AIモデルの学習コストは上昇を続け、数千万ドル、あるいは数億ドルに達することもあります。これは、AI分野へのリソース投資が増加していることを示しています。

3. 技術的パフォーマンス

3.1 要点

AIは特定のタスクにおいて人間を凌駕しており、GoogleのGeminiやOpenAIのGPT-4といったマルチモーダルAIモデルの登場は、画像やテキスト情報の処理能力を実証しています。SWE-benchやHEIMといった新たなベンチマーク評価セットの登場や、チャットボットアリーナのリーダーボードといった人間による評価の導入は、AI技術の性能向上を反映しています。

3.2 重要なモデルのリリース状況

2023 年には、Anthropic の Claude、OpenAI の GPT-4、Stability AI の Stable Diffusion v2 など、複数のベンチマークで人間のパフォーマンスを上回ったいくつかの重要な AI モデルがリリースされました。

3.3 AIパフォーマンス

AIは画像分類、英語理解、自然言語推論などのタスクでは人間を上回っていますが、競技数学、多言語理解、視覚的常識推論などのタスクではまだ限界があります。

3.4 多分野にわたる高難易度の評価セット(MMMU、GPQA、ARC)

MMMU、GPQA、ARCといった新たな評価基準の登場は、AIの学際的推論能力と抽象帰納的思考能力を評価することを目的としています。AIモデルはこれらの評価において一定の成果を上げていますが、依然として人間の専門家には及ばない状況です。

3.5 エージェント

大規模言語モデルに基づく AI エージェントは、AgentBench によって評価された 25 個の LLM ベースのエージェントなど、特定のシナリオでタスクを自動的に処理する能力が向上しています。

3.6 RLHFとRLAIF

RLHFとRLAIFは、AIモデルを人間の好みや反応により適合させるように訓練するために使用される、強化学習ベースの2つの手法です。RLAIFは、無害な対話タスクの生成においてRLHFよりも優れた性能を発揮します。

3.7 LLM反復効果の経時的比較

LLMの有効性は時間の経過とともに変化してきました。一部の研究では、新しいデータやユーザーからのフィードバックが取り入れられると、特定のタスクの有効性が低下する可能性があることが示唆されています。

3.8 LLMパフォーマンスを向上させるテクニック

LLMのパフォーマンスを向上させるために、プロンプティング、OPRO、ファインチューニングといった様々な手法が用いられてきました。これらの手法は、タスクを自然言語で記述したり、メモリ要件を削減したりするなど、様々な方法でモデルのパフォーマンスを最適化します。

3.9 AIシステムの訓練による環境への影響

大規模なAIモデルの学習には膨大なリソースが消費され、二酸化炭素が排出されるため、環境への影響が生じます。しかし、AIシステムは都市の大気質を予測し、エネルギー使用を最適化するためにも活用できるため、環境にプラスの影響を与えることができます。

4. AIの信頼性

AIの信頼性評価には、プライバシー、データガバナンス、透明性と説明可能性、セキュリティ、公平性など、複数の側面が関係します。現在、LLMの包括的な標準評価には欠陥があり、政治的に捏造されたコンテンツの生成と検出が問題となっており、ChatGPTの政治的偏向も懸念を引き起こしています。

4.1 AIの信頼性の定義

AI の信頼性は、データ ガバナンス、説明可能性、公平性、プライバシー、セキュリティ、透明性など、複数の側面から定義および評価されます。

5. AIが経済に与える影響

AIの経済的影響は多面的であり、生産性の向上、雇用市場の変化、投資動向などが含まれます。生成型AIへの投資は急速に増加しており、AI関連の雇用数は減少していますが、AIは企業の支出を削減し、利益を増加させています。中国は産業用ロボット分野で優位に立っており、AIは労働者の生産性と効率性を向上させています。フォーチュン500企業では、人工知能、特に生成型AIに関する議論がますます活発になっています。

5.1 主要なAIニュース

2023年、AI分野では、BioNTechによるAI企業InstaDeepの買収、MicrosoftによるOpenAIへの投資、GitHub Copilotのリリース、Einstein GPTとMicrosoft Officeの統合、Bloombergによる金融データ分析へのLLMの活用など、いくつかの大きなニュースがありました。

5.2 作品情報

雇用市場におけるAI関連職種の割合が変化しています。米国ではAIスキルの需要が低下していますが、香港ではAI人材に対する需要が比較的高くなっています。また、世界的に新規設立されるAI企業の数は増加し続けています。

5.3 開発者によるAIツールの利用

開発者による AI ツールの使用状況を見ると、GitHub Copilot と ChatGPT が最も頻繁に使用されており、クラウド サービス プラットフォームも広く使用されていることがわかります。

6. 医療と教育におけるAIの進歩

ヘルスケアと教育分野におけるAIの応用は、目覚ましい進歩を遂げています。AlphaDevやGNoMEの応用例からもわかるように、AIは技術革新を加速させています。医療分野では、EVEscapeやAlphaMissenceといったAIシステムの登場により、疾患予測や遺伝子分類の効率が向上しました。FDA(米国食品医薬品局)の承認を受けるAI関連医療機器の数は増加しており、AI関連の学位プログラムも国際的に急速に増加しています。

いい(3件のいいね!)↓