618ZXW

O3の数学試験で、大規模な不正スキャンダルが発生!試験機関は実際の試験問題を事前に提供していたため、60人以上の優秀な数学の受験生は、全く情報に接していませんでした。

OpenAI o3 はまだリリースもされていないのに、その数学のスコアが不正行為によって得られたものだとすでに暴露されている?

ベンチマーク出版組織の内部関係者は、OpenAIが彼らに資金援助を提供していたことを明らかにした。

問題の作成に関わったテレンス・タオ氏を含む60人以上の数学者にも、ニュースが報じられるまで一般大衆と同様、何も知らされていなかった

このニュースはO3のローンチまで公表されませんでした。つまり、OpenAIは極秘の質問を事前に入手していたことになります。

FrontierMathと呼ばれるこのデータセットには、テレンス・タオ氏を含む 60 人以上の権威ある数学者によって作成された非常に難しい問題が含まれています。

テレンス・タオは、これらの問題はAIにとって数年間の課題となるだろうと述べ、1998年のフィールズ賞受賞者であるフィルス=ブリジット・ガワーズも、これらの問題の1つを解決することさえ現在の能力を超えていると述べました。

まさにこのテストベンチマークで大きなリードを獲得したことにより、o3 の能力がさらに認められました。

Epoch.aiの共同設立者であるタメイ・ベシログル氏はこれに反応し、秘密裏にスポンサーがつき、OpenAIが事前に質問を入手したという噂は認めたが、OpenAIが不正行為をするために質問を利用したという噂は否定した

しかし、一部のネットユーザーは納得せず、「OpenAIがこの情報を使用しないのであれば、なぜアクセス権限が必要なのか?」と述べ、訓練に利用されるのではないかと推測した。

専門家らは厳重な秘密保持を指示されていたが、OpenAIは質問を入手することができた。

Epoch.aiという組織はFrontierMathと呼ばれる数学ベンチマークを開発し、その論文の最初のプレプリントが昨年11月7日(UTC、北京時間11月8日早朝)に公開された。

FrontierMathの論文は最初のバージョンを含めて約2か月にわたって5つのバージョンで発表されたが、 OpenAIの資金提供は12月20日の第5バージョンまで明らかにされなかった

しかし、これはベンチマークの構築を支援してくれた OpenAI に感謝する脚注の中でのみ言及されていました

さらに、12月20日はOpenAIがo3をリリースした日であり、ベシログル氏は、以前に発表されなかった理由はOpenAIの機密保持要件によるものだとも明らかにした。

o3のローンチ前は、パートナーシップの開示が制限されていました。今にして思えば、ベンチマークへの貢献者の方々とできるだけ早く透明性を維持できるよう、もっと綿密に交渉すべきでした。

OpenAI 論争を無視すれば、FrontierMath は教授、IMO 問題設定者、フィールズ賞受賞者など世界中の 60 人以上の数学者によって開発された非常に価値のあるベンチマークであり、その中には Terence Tao のような著名人も含まれています。

さらに、非常に難しく、非常に難しい数学的問題が数百個あり、 O3 より前のモデルでは解決率が 2% 未満です

たとえO3が本当に不正行為をしたとしても、得点は20点強にしかならなかったでしょう。

次の問題は、FrontierMath の中で最も簡単な問題の 1 つと考えられています。

通常、FrontierMathの問題と解答は厳重に機密扱いされます。問題を作成した数学者であっても、秘密保持契約に署名することが義務付けられており、Overleaf、Colab、またはメールを使用して問題に関する情報を送信することはできません。

皮肉なことに、この「極秘」の質問はOpenAIによって入手されたが、質問を立てた専門家はOpenAIの状況について全く知らなかった。

スタンフォード大学の博士号とMITのローズ奨学生であるカリーナ・ホン氏は、少なくとも6人の専門家がこれを確認できたが、そのほとんどは、もし知っていたら貢献することを選んだかどうかわからないと述べている(OpenAIの独占アクセス)。

彼女は後に、(質問作成者との)秘密保持契約はデータの汚染を防ぐためのものであり、OpenAIの動機については推測しないと述べた。

共同創設者は間違いを認めたが、OpenAIが不正行為を行ったことは否定した。

内部情報漏洩と外部からの監視が続く中、Epoch.ai の共同設立者であるベシログル氏はOpenAI との秘密協定を認め、透明性の欠如はまさに「間違い」だったと述べた。

しかし、Epoch.aiは、OpenAIがすべてのデータを入手したわけではないこと、また、入手したデータはモデルのトレーニングには使用しないと口頭で約束していたことを理由に、OpenAIが不正行為を行ったという主張を否定した

ベシログル氏の全回答は以下の通り(中国語のテキストは機械翻訳)。

ベシログル氏が「口頭での約束」に言及したことに関して、一部のネットユーザーは、少なくとも書面による合意は必要だが、OpenAIはそれを提供する意思がないのではないかと推測している。また、書面があったとしても、実施状況の監督は難しいだろうと指摘する者もいる。

しかし、これまでのところ、回答はすべてEpoch.aiからのものであり、OpenAIはまだ説明を提供していない。

さらに、Epoch.aiの主任​​数学者Ellot Glazer氏は、受け取った資金についての詳細を後日提供すると約束した。

o3の結果に関して、エロット氏は、Epoch.aiはいかなる約束もできないと述べたが、OpenAIには「嘘をつく動機がなかった」ため、個人的にはOpenAIの報告は正確だと信じていた。

同氏はまた、Epoch.ai はテスト前に OpenAI がアクセスできないようにする予約済みデータセットを開発中であると述べた。

しかし、一部のネットユーザーは「動機がない」という主張に疑問を呈し、エロット氏も、OpenAIは自ら足を撃つほど愚かではないと釈明した。

一方、O3はまだブラックボックスです。その名にふさわしい製品なのか、それとも単なる宣伝文句なのかは、発売日に明らかになるでしょう。

参考リンク: [1]https://www.lesswrong.com/pos... [2]https://techcrunch.com/2025/0... [3]https://www.reddit.com/r/sing...\_is\_so\_disappointing\_epoch\_ai\_the\_startup/ [4]https://x.com/CarinaLHong/sta...