|
推論時間のスケーリングを目標とした DeepMind の新しい進化的検索戦略が大きな話題になっています。 提案された「Mind Evolution」は、計画と推論における大規模言語モデル (LLM) の応答を最適化できます。 この大幅な改善により、Reddit では多くの議論が巻き起こりました。 遺伝的アルゴリズムを組み込むことで、Mind Evolution は Gemini 1.5 Flash タスクの成功率を約 5% から 90 パーセント ポイントまで高めることができます。 さらに、コストの面では、このパフォーマンスに最も近い従来の方法である Sequential-Revision+ と比較して、使用するトークンの数はほんのわずかです。 応答性が向上し、コストが低くなり、微調整が不要になります。 このおなじみのレシピが、またしても多くのネットユーザーを魅了した。 同時に、Mind Evolution には、広く賞賛されているもう一つの大きな利点があります。 従来の方法のように、タスクの問題をさらに形式化する(つまり、実際の問題をアルゴリズムで処理できる正確な数学的または論理的形式に変換する)必要がなく、自然言語の問題を直接処理できます。 つまり、ソリューションが正しいかどうかを最終的に確認するために必要な評価者は 1 人だけであり、タスクの形式化は不要になります。 問題を形式化するには、記号的に表現する必要があるすべての主要な要素とそれらの関係を特定するために、広範なドメイン専門知識と問題の徹底的な理解が必要であり、これにより推論時間のスケーリングの適用性が大幅に制限されます。 要するに、ネットユーザーが説明したように、この研究はクレジットカードの限度額まで使い切ることなく、大規模な言語モデルの脳をアップグレードするようなものだ。すごい、すごい、すごい!! どのように行われるかを詳しく見てみましょう。 これは、進化的検索の原理と LLM の自然言語機能を組み合わせたものです。まず、OpenAI の o1 シリーズ モデルは推論時間スケーリングの概念の先駆者となり、思考連鎖推論プロセスの長さを増やすことで、数学、プログラミング、科学的推論などのタスクのパフォーマンスを大幅に向上させました。 つまり、モデルにもっと深く考えさせることで、その応答はどんどん良くなるということです。 推論時間の拡張をより有効に活用するために、これまでの研究では、自己一貫性、フィードバックベースの順序修正(Sequential-Revision+など)、補助的な検証器や評価器によって誘導される検索(Best-of-Nなど)も提案されています。 同じ目的で、DeepMind は LLM 向けの新しい進化的検索戦略であるMind Evolutionを提案しました。 進化的探索の原理と LLM の自然言語機能を組み合わせることで、可能な解決策の広範な探索と、有望な候補の徹底的な絞り込みの両方が可能になります。 具体的には、Mind Evolution は、検索アルゴリズムと遺伝的アルゴリズムという 2 つの主要コンポーネントに依存しています。 検索アルゴリズムは非常に一般的であり、通常は LLM が最適なソリューションを得るための最善の推論パスを見つけるのに役立ちます。一方、遺伝的アルゴリズムは、大規模な言語モデルと組み合わせることで、自然言語処理タスクにおける候補ソリューションを反復的に最適化し、タスクの目的をより適切に満たすことができます。 たとえば、上の画像に示すようなタスクに直面しているとします。 シアトルからロサンゼルス、サウスダコタへの5日間の旅行を800ドルの予算で計画してください。夕食は少なくとも一度は日本食を楽しみたいです。ホテルの個室に宿泊できればと思っています。 Mind Evolution の全体的な処理フローは次のとおりです (遺伝的アルゴリズムに似ています)。
ここで特に注目すべきは、改善プロセスです。選択とは、評価フィードバックに基づいて改善される可能性の高い解を選択することを指します。交叉とは、異なる解の一部を組み合わせ、生物学的遺伝子組み換えに似た効果を実現し、新たな候補解を生成することを指します。突然変異とは、より多くの可能性のある解を探索するために、集団の多様性を高めるためにランダムに解を調整することを指します。 最終的には、アルゴリズムが最適なソリューションに到達するか、事前に設定された反復回数に達するまで、評価、選択、および再編成のサイクルが継続されます。 言及する価値のあるもう 1 つの点は、Mind Evolution が「適応度関数」を通じてタスクの形式化の問題を具体的に排除していることです。 簡単に言えば、適応関数は自然言語計画タスクに適応され、ソリューションは自然言語で提示されます。 このように、手順型ソリューション評価機能がある場合、システムは問題の形式化を回避でき、数値スコアの提供に加えて、LLM が特定の問題を理解してターゲットを絞った最適化を実行するのに役立つテキスト フィードバックも提供できます。 さらに、Mind Evolution では、多様な探索を確実にするために「アイランド」アプローチを採用しています。 各段階で、アルゴリズムは独立して進化する独自の解集合を作成します。そして、最適な解をある集合から別の集合へと「移行」させ、組み合わせて新しい解を作成します。 それで、Mind Evolution は実際にはどのように機能するのでしょうか? 計画のパフォーマンスは他のベースライン方法よりも優れていました。実験段階では、研究者はそれを他の基準と比較しました。
遺伝的アルゴリズムの要素が欠けているにもかかわらず、Sequential Revisions+ は旅行計画において Mind Evolution に最も近い成功率を持っていることがわかります。 しかし、タスクの複雑さが左から右へと増すにつれて、Mind Evolution と他の方法との差は広がり、その利点がますます顕著になっていきます。 全体的に、 Mind Evolution はすべてのテストにおいてベースラインを大幅に上回り、特にタスクがより困難になったときに顕著でした。 TravelPlanner(旅行計画の評価)とNatural Plan(会議計画の評価)の2つのベンチマークテストでは、 Mind EvolutionなしのGemini 1.5 Flashの成功率はそれぞれ5.6%と20.8%でしたが、 Mind Evolutionを使用すると成功率はそれぞれ95.6%と85.0%に向上しました。 さらに、Gemini 1.5 Flash の未解決の問題を 1.5Pro に引き継ぐと、成功率は100% と 98.4%に上昇します。 コストの面では、従来の方法である Sequential-Revision+ と比較して、ほんの一部のトークンしか使用せず、前述のパフォーマンスに最も近いものになります。 さらに、研究者らは新しいテストタスク「 StegPoet」を導入しました。 創造的な文章にステガノグラフィ情報を埋め込むことは、自然言語計画タスクのカテゴリに分類されます。 簡単に言えば、創造的なテキストコンテンツを作成する際に、ステガノグラフィーを用いて特定の情報を巧みに組み込むことが求められます。これは論理的推論能力だけでなく、法学修士(LLM)の創造的な表現能力にも高い要求を課します。 そして、関連する実験から判断すると、Mind Evolution はこの複雑なタスクのテストに耐えました。 全体として、この研究では、広範な検索 (ランダム探索) と深い検索 (LLM を使用してソリューションを改良) を組み合わせることで、計画と推論におけるモデルの応答がさらに改善されます。 詳細は原論文をご参照ください。 論文: https://arxiv.org/abs/2501.09891 |
DeepMind の遺伝的アルゴリズムに関する新しい研究は大きな注目を集めており、推論モデル計画タスクの成功率は 5% から 95% に向上しました。
関連するおすすめ記事
-
生物学分野初のAGI実現を目指す!医療AI企業Owkinが世界最大級のがん空間オミクスデータセットを構築。
-
ユニツリーロボットがサイバー神戸に!NVIDIAのCMU新研究:バスケットボールスターのシュート模倣、コードと論文は完全オープンソース
-
アジェンダ紹介 | クラウドネイティブ オープンソースフォーラム
-
今年もインテリジェントドライビングを取り巻く状況は大きく変化しています。VLAテクノロジーがレースのルールを塗り替え、NVIDIA Thorが量産され、車両に搭載されるようになりました。固定点測位よりも、大ヒット製品が重要なのです。
-
イーロン・マスクがテスラのリソースを犠牲にしてOpenAIに挑戦する新しい大規模モデルを発表。直接テストがここにあります。
-
2024年のトップ10スマートカー