|
オープンソースの大規模モデルの王座が、驚くべきことに小さなスタートアップ チームから突然手渡され、業界に瞬く間に活気を与えました。 Reflection 70Bと名付けられたこの新しいモデルは、推論プロセス中にAIが自身の誤りや錯覚を修正するように教える新しいトレーニング手法を使用しています。 たとえば、最近人気の r テストでは、最初はほとんどのモデルと同じ間違いを犯しましたが、 <Reflection> タグで積極的に修正されました。 公式評価では、70B モデルは、最強のオープンソースである Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro を総合的に上回り、特に数学的ベンチマーク GSM8K では99.2% のスコアで完全に上回っています。 この結果は、OpenAIの科学者でありポーカーAIの父であるNoam Brown氏にも熱く語ってもらうきっかけとなった。 GSM8Kスコア99%!これは、このベンチマークを正式に廃止できるという意味でしょうか? このモデルは非常に人気があり、デモを求めるユーザーからのリクエストが殺到したため、Meta は積極的に追加の計算能力を提供することになりました。 ユーザー テストでは、Reflection 70B は、GSM8K データセットで誤って回答された質問に答えることができました。
彼はあらゆる種類の r を簡単に数えることができ、新語「drirrrngrrrrrrnnn」の r の数も正確に数えることができます。 ネットユーザーは、小規模チームのオープンソース作業がトップのクローズドソース プロジェクトを上回り、最も強力なオープンソース モデルがローカルで実行できることに驚嘆しました。 鍵となる 70B はほんの始まりに過ぎません。公式発表によれば、さらに大型のReflection 405B が来週リリースされる予定です。 405B は Sonnet や GPT-4o を大幅に上回る性能を発揮すると予想されます。 Reflection 70B ウェイトは公開されており、API アクセスは本日中に Hyperbolic Labs から利用可能になります。 モデルは自己反省し、間違いを修正することができます。Reflection 70B の詳細については、次のとおりです。 Reflection 70B の性能向上の鍵は、Reflection-Tuningと呼ばれるトレーニング手法の採用にあります。この手法により、モデルは生成したテキストを振り返り、推論における誤りを検出・修正してから、最終的な応答を決定します。 トレーニング データは、GlaiveAI プラットフォームを使用して生成された合成データから取得されます。 Reflection 70B は Llama 3.1 70B 命令に基づいており、他の Llama モデルと同じコード、パイプラインなどを使用して Reflection Llama-3.1 70B からサンプリングできます。 標準の Llama 3.1 チャット形式も使用します。 ただし、Reflection 70B では、いくつかの特殊なトークンと構造化された出力プロセスが導入されています。 以下の例に示すように、計画プロセスを個別のステップに分割すると、CoT のパフォーマンスが向上し、出力が簡潔になります。 モデルは したがって、内部の思考と推論を最終的な答えから切り離すことができます。 存在する システムは次のことを要求します。
さらに、ベンチマーク テストでは、すべてのベンチマークで LMSys の LLM Decontaminator を使用して汚染チェックが行われ、汚染物質が効果的に分離されたことも特筆に値します。 Reflection 70B を使用する際のヒントは、公式 Web サイトでもいくつか紹介されています。
公式声明では、モデルのトレーニングプロセスと結果を詳述した報告書が来週発表されることも示唆された。 エージェントスタートアップチームReflection 70B の背後には、HyperWriteAI の CEO であるMutt Shumerが率いる小規模なチームがあります。 LinkedInによると、マット・シューマー氏は連続起業家であり、シラキュース大学を卒業し、現在はOthersideAIの共同設立者兼CEOを務めている。 OthersideAI は、大規模な AI システムを通じて世界で最も先進的なオートコンプリート ツールの開発に特化した AI アプリケーション企業であり、HyperWrite を開発した企業でもあります。 HyperWrite は、Google Chrome を人間のように操作して、ピザの注文などさまざまなタスクを完了できるようにするブラウザ操作エージェントです。 gpt-llm-trainer と同様に、目標を言葉で説明するだけで、手順がリストされ、実行されます。 最初にリリースされたとき、「AutoGPT よりも優れている」と宣伝されました。 HyperWrite は、Google 拡張機能を通じてインストールすることもできます。 さらに、Mutt Shumer は高校在学中に Visos を設立し、医療用途の次世代バーチャル リアリティ ソフトウェアの開発に専念しました。 彼はまた、高性能な製品を開発し適正な価格で販売することでスポーツ用品業界に革命を起こすことを目指す会社、FURI を設立しました。 Meta のサポートがあるにもかかわらず、デモには現在アクセスできません。 ご興味のある方はこのページをブックマークしてください! https://reflection-playground... 参考リンク:[1]https://huggingface.co/mattsh... [2]https://x.com/mattshumer\_/status/1831767014341538166 [3]https://x.com/polynoamial/sta... [4]https://x.com/degeneratoor/st... [5]https://x.com/kimmonismus/sta... - 以上- Toutiaoの子会社であるQbitAIは、量子ビット技術の契約プラットフォームです。 最先端技術に関する最新ニュースを入手するには、ぜひフォローしてください。 |
新しいオープンソースの大規模モデルは GPT-4o を上回り、新しいテクノロジーは自身の幻覚を修正することができ、数学のスコア 99.2 がテスト セットを支配しました。
関連するおすすめ記事
-
卓球AIロボットが人間に勝利!フォアハンドとバックハンドをシームレスに切り替え、ネットボールやハイロブも打ち返せる。プロのコーチによると、中級者レベルに到達したとのこと。
-
ChatGPTがついにAI検索エンジンになりました!Web、モバイル、デスクトップ版が同時にリリースされ、まもなく誰でも利用できるようになります。
-
中国組織のオープンソース参加に関する調査
-
3 つの大型モデルがチームを組んで O1 に挑戦しました。実際のテストでは、360 を超えるモデルが協力してプロンプト ワード プロジェクトを排除しました。
-
数十億ドルの資産を持つバッテリー大手が倒産!1400億元の資金が消え、残ったのは1週間の生活費程度。主要スポンサーのフォルクスワーゲンですら救済できなかった。
-
Qwen 2.5と比較する勇気もなく、ミストラルの最強の小型モデルは論争に巻き込まれ、OpenAI Europeは開店しなくなりました。