618ZXW

新しいオープンソースの大規模モデルは GPT-4o を上回り、新しいテクノロジーは自身の幻覚を修正することができ、数学のスコア 99.2 がテスト セットを支配しました。

オープンソースの大規模モデルの王座が、驚くべきことに小さなスタートアップ チームから突然手渡され、業界に瞬く間に活気を与えました。

Reflection 70Bと名付けられたこの新しいモデルは、推論プロセス中にAIが自身の誤りや錯覚を修正するように教える新しいトレーニング手法を使用しています。

たとえば、最近人気の r テストでは、最初はほとんどのモデルと同じ間違いを犯しましたが、 <Reflection> タグで積極的に修正されました。

公式評価では、70B モデルは、最強のオープンソースである Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro を総合的に上回り、特に数学的ベンチマーク GSM8K では99.2% のスコアで完全に上回っています。

この結果は、OpenAIの科学者でありポーカーAIの父であるNoam Brown氏にも熱く語ってもらうきっかけとなった。

GSM8Kスコア99%!これは、このベンチマークを正式に廃止できるという意味でしょうか?

このモデルは非常に人気があり、デモを求めるユーザーからのリクエストが殺到したため、Meta は積極的に追加の計算能力を提供することになりました。

ユーザー テストでは、Reflection 70B は、GSM8K データセットで誤って回答された質問に答えることができました。

私は、GSM8K で「ground_truth」自体が正しくない 5 つの問題をモデルに提供しました。

モデルはデータセット内で誤った回答を繰り返さず、すべて正しく回答しました。これは非常に印象的で、 99.2% の精度がメモリ テスト セットから得られたものではないことを示しています

彼はあらゆる種類の r を簡単に数えることができ、新語「drirrrngrrrrrrnnn」の r の数も正確に数えることができます。

ネットユーザーは、小規模チームのオープンソース作業がトップのクローズドソース プロジェクトを上回り、最も強力なオープンソース モデルがローカルで実行できることに驚嘆しました。

鍵となる 70B はほんの始まりに過ぎません。公式発表によれば、さらに大型のReflection 405B が来週リリースされる予定です。

405B は Sonnet や GPT-4o を大幅に上回る性能を発揮すると予想されます。

Reflection 70B ウェイトは公開されており、API アクセスは本日中に Hyperbolic Labs から利用可能になります。

モデルは自己反省し、間違いを修正することができます。

Reflection 70B の詳細については、次のとおりです。

Reflection 70B の性能向上の鍵は、Reflection-Tuningと呼ばれるトレーニング手法の採用にあります。この手法により、モデルは生成したテキストを振り返り、推論における誤りを検出・修正してから、最終的な応答を決定します。

トレーニング データは、GlaiveAI プラットフォームを使用して生成された合成データから取得されます。

Reflection 70B は Llama 3.1 70B 命令に基づいており、他の Llama モデルと同じコード、パイプラインなどを使用して Reflection Llama-3.1 70B からサンプリングできます。

標準の Llama 3.1 チャット形式も使用します。

ただし、Reflection 70B では、いくつかの特殊なトークンと構造化された出力プロセスが導入されています。

以下の例に示すように、計画プロセスを個別のステップに分割すると、CoT のパフォーマンスが向上し、出力が簡潔になります。

モデルはそして出力の推論はラベル内で始まります。推論に満足したら、次のようになります...そしてタグ内に最終的な回答を出力します。

したがって、内部の思考と推論を最終的な答えから切り離すことができます。

存在する場合によっては、モデルは 1 つ以上の... を出力することがあります。このラベルは、モデルが推論でエラーを検出し、最終的な答えを提供する前にそのエラーを修正しようとすることを示します。

システムは次のことを要求します。

あなたは世界クラスのAIシステムであり、複雑な推論と考察が可能です。タグ内のクエリを推論し、最終的な回答をタグ内に入力してください。

タグ。推論に間違いがあったことに気づいたら、タグ内で訂正してください。(あなたは複雑な推論と反省が可能な世界クラスのAIシステムです。タグ内で推論してください。)

最終的な回答はタグ内に記入してください。もしご自身の推論が間違っていることに気づいた場合は、タグ内で訂正してください。

さらに、ベンチマーク テストでは、すべてのベンチマークで LMSys の LLM Decontaminator を使用して汚染チェックが行われ、汚染物質が効果的に分離されたことも特筆に値します。部分、そしてこの部分を個別にテストします。

Reflection 70B を使用する際のヒントは、公式 Web サイトでもいくつか紹介されています。

  • 初期推奨パラメータは、温度 .7 および top_p .95 です。
  • 正確性を高めるには、プロンプトの最後に「慎重に考えてください。」を追加するのが最適です。

公式声明では、モデルのトレーニングプロセスと結果を詳述した報告書が来週発表されることも示唆された。

エージェントスタートアップチーム

Reflection 70B の背後には、HyperWriteAI の CEO であるMutt Shumerが率いる小規模なチームがあります。

LinkedInによると、マット・シューマー氏は連続起業家であり、シラキュース大学を卒業し、現在はOthersideAIの共同設立者兼CEOを務めている。

OthersideAI は、大規模な AI システムを通じて世界で最も先進的なオートコンプリート ツールの開発に特化した AI アプリケーション企業であり、HyperWrite を開発した企業でもあります。

HyperWrite は、Google Chrome を人間のように操作して、ピザの注文などさまざまなタスクを完了できるようにするブラウザ操作エージェントです。

gpt-llm-trainer と同様に、目標を言葉で説明するだけで、手順がリストされ、実行されます。

最初にリリースされたとき、「AutoGPT よりも優れている」と宣伝されました。

HyperWrite は、Google 拡張機能を通じてインストールすることもできます。

さらに、Mutt Shumer は高校在学中に Visos を設立し、医療用途の次世代バーチャル リアリティ ソフトウェアの開発に専念しました。

彼はまた、高性能な製品を開発し適正な価格で販売することでスポーツ用品業界に革命を起こすことを目指す会社、FURI を設立しました。

Meta のサポートがあるにもかかわらず、デモには現在アクセスできません。

ご興味のある方はこのページをブックマークしてください!

https://reflection-playground...

参考リンク:[1]https://huggingface.co/mattsh... [2]https://x.com/mattshumer\_/status/1831767014341538166 [3]https://x.com/polynoamial/sta... [4]https://x.com/degeneratoor/st... [5]https://x.com/kimmonismus/sta...

- 以上-

Toutiaoの子会社であるQbitAIは、量子ビット技術の契約プラットフォームです。

最先端技術に関する最新ニュースを入手するには、ぜひフォローしてください。