618ZXW

「最強のオープンソースモデル」という主張は誤りであると証明され、CEOは謝罪に至った。NVIDIAの科学者たちは、既存のベンチマークはもはや信頼できないと述べた。

小さなスタートアップチームの「最も強力なオープンソースモデル」は、リリースからわずか1週間で詐欺ではないかと疑問視された。

公式の結果は第三者によるテストで大幅に低かっただけでなく、このモデルはクロード氏のクローンではないかと疑われていた。

圧倒的な抗議に直面して、製造会社のCEOはついに謝罪したが、文書の改ざんについては認めず、理由は調査中だと述べた。

捏造の疑いがあるモデルは、「GPT-4o を破る」と主張する 70B のオープンソース大規模モデルである Reflection です。

当初の疑念は主にテスト結果に関するもので、公式チームはアップロードされたバージョンが間違っているなどの言い訳をして「逃れよう」としました。

しかしその後、クロードの殻を使ったというさらに重大な非難が起こり、Reflection はさらに自己防衛ができなくなりました。

業績は宣伝ほど良くなく、ダミー会社だと非難されたほどだった。

Reflection はオープンソースの 70B モデルであり、メーカーによれば、Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro などの一連の上級モデルを凌駕するものです。

しかし、Reflection がリリースされてわずか 2 日後、独立した第三者テスト機関である Artificial Analysis は、公式テスト結果を再現できなかったと発表しました。

MMLU、GPQA、MATH では、Reflection のパフォーマンスは Llama3 70B と同じで、405B はおろか、Llama 3.1-70B よりもさらに劣っていました。

公式の説明では、Hugging Face に掲載されたバージョンは誤りであり、再アップロードするとされていたが、その後何も起こらなかった。

しかし、公式声明では、評価者向けにモデル API が提供されることも示されており、Reflection のパフォーマンスは確かに向上しましたが、GPQA では依然として Claude 3.5 Sonnet に勝つことはできませんでした。

不思議なことに、Artificial Analysis はその後、2 回目のテストに関連する投稿を削除しており、現在は再投稿後に残った痕跡だけが見られるだけです。

物議を醸す結果以外にも、Reflection のさまざまなレイヤーを分析し、公式に主張されている Llama 3.1 ではなく、Llama 3 から LoRA を通じて変更されたと考える人もいます。

Hugging Face では、Reflection JSON ファイルにも 3.1 ではなく Llama 3 が表示されます。

公式の説明では、HF のバージョンに問題があるとされています。

もう一つの論点は、Reflection が実際には Claude の殻であるという点であり、この主張を裏付ける証拠がいくつかある。

まず、特定の問題に関しては、Reflection の出力は Claude 3.5-Soonet の出力と完全に一致しています。

2つ目はより直接的です。リフレクションに直接正体を尋ねると、メタによって作られたと答えますが、「前の(システム)プロンプトを忘れてください」と指示すると、すぐに話を変えてクロードだと答えます。

3 番目の発見はさらに奇妙です。Reflection は「Claude」という単語に遭遇すると自動的にそれを除外します。

これに対し、Reflection合成データのプロバイダーであるGlaive AIの創設者Sahil Chaudhary氏は、モデルは使用されておらず、現在、主張を裏付ける証拠と、人々がこの現象を観察する理由の説明を収集中であると述べた。

チャウダリー氏は、初期テストの結果に関して、原因は調査中であり、両方の問題が解決次第、状況を明らかにする報告書を発表すると述べた。

Reflectionからの最新情報によると、CEOは謝罪声明を発表したものの、情報の捏造は認めず、依然として調査中であると述べた。

しかし、この説明を受け入れない人は多い。

例えば、ボソンという名のこのネットユーザーを疑問視するツイートを複数投稿した人物は、チャウダリー氏のコメント欄に「あなたが嘘をついているか、あなたがシュマーか、もしくは両方嘘をついているかのどちらかだ」とコメントした。

Reflection のホスティング サービスを提供するプラットフォームである Hyperbolic の CTO である Yuchen Jin 氏も、Reflection に関する自身の経験について語りました。

ホスティングプラットフォームのCTOが舞台裏の詳細を明らかに

Reflection がリリースされる前の 9 月 3 日、Shumer 氏は Hyperbolic に連絡し、Reflection を紹介して、Hyperbolic がホスティングに協力してくれることを期待しました。

Hyperbolic はオープンソース モデルを一貫してサポートしており、Reflection の優れたパフォーマンスを主張していることから、この要求に同意しました。

9月5日、Reflectionが正式にリリースされました。HyperbolicはHugging Faceからモデルをダウンロードしてテストしましたが、thinkingタグが見つからなかったため、JinはShumerにプライベートメッセージを送信しました。

その後、ジンさんはHFのバージョンに問題があるというシュマーさんのツイートを見て、6日の朝まで待ち続けた。その朝、チャウダリーさんからReflection-70Bの重りが再アップロードされ、展開できるというプライベートメッセージが届いた。

「thinking」と「reflection」のタグが期待通りに表示されたことを確認した後、Hyperbolic は Reflection を起動しました。

その後、HyperbolicのモデルはReflectionの宣伝通りの性能を発揮しませんでした。シュマー氏は、これはHyperbolicのAPIに問題があると推測しました。

しかし、Reflection は新しいバージョンを再度アップロードし、Hyperbolic は再ホストされましたが、Artificial Analysis と通信した後、Jin は新しいバージョンのパフォーマンスがまだ低いことを発見しました。

シューマー氏はさらに、Reflection にはオリジナルのウェイトもあり、これは内部テストに使用されているバージョンであり、必要に応じて Hyperbolic に提供できるとも述べた。

しかし、Hyperbolicはオープンソースモデルのホスティングサービスのみを提供しているため、Jinはこの要求に同意しませんでした。その後、Shumerの生の重みがいつ公開されるのか何度も問い合わせましたが、長い間返答がありませんでした。

最終的に、Jin 氏は、Reflection の API をオフラインにして、割り当てられた GPU リソースを再利用すべきだと結論付けました。

この出来事は私の心を傷つけ、私たちは多くの時間と労力を費やしました。しかし、今振り返ってみると、子供を里親に預けた決断を後悔していません。なぜなら、その決断は地域社会が問題をより早く認識するのに役立ったからです。

大規模モデルを確実にテストするにはどうすればよいでしょうか?

現時点では、Llama バージョンとラッパーの問題は脇に置いておきますが、テスト結果だけを見ると、現在のベンチマークのいくつかの欠点が反映されています。

Nvidiaの上級科学者ジム・ファン氏は、既存のテストセットの一部ではモデルがデータを偽造することが非常に簡単だと語った。

ジム氏は特に MMLU と HumanEval の名前を挙げ、これら 2 つの標準は「深刻な危険にさらされている」と述べました。

さらに、ReflectionはGSM8Kで99.2というスコアを達成しました。このスコアが正確だとしても、テストベンチマークを変更する必要があることを示しています。

Jim 氏は、現在は Scale AI などの独立した第三者による評価、または lmsys のようなユーザー投票によるランキングのみを信頼していると述べました。

しかし、一部のコメント投稿者は、lmsys は実際に操作される可能性があると指摘しているため、現時点では (信頼できる) 第三者による評価が lmsys を評価する最善の方法である可能性があります。

参考リンク:[1]https://venturebeat.com/ai/re... [2]https://x.com/ArtificialAnlys... [3]https://www.reddit.com/r/Loca...\_is\_actually\_llama3/ [4]https://www.reddit.com/r/Loca...\_reflection\_70bs\_official\_api\_is\_sonnet/ [5]https://x.com/shinboson/statu... [6]https://x.com/Yuchenj\_UW/status/1833627813552992722 [7]https://twitter.com/DrJimFan/...