618ZXW

Terence Tao は、o1 のフルパワー バージョンを事前にテストしました。大学院生として使用するには十分な性能です。

うらやましいですね!なんと、Terence Tao 氏は8月にはすでに OpenAI o1 を使用していたのです。

もう誰も使っていないフルパワー版です(思わず涙が流れました)。

早期入学ラウンドのトッププレイヤーはどのようにして最新の上限に到達するのでしょうか?

彼は、O1 モデルに対して漠然とした数学的な質問を投げかけ、それがクラメールの定理をうまく特定できることを発見しました

そしてその答えは「完全に満足できる」種類の答えです。

もちろん、Terence Tao は他のテストもいくつか実施しており、実際にテストした後の全体的な体験は次のとおりです。

以前のモデルよりも優れており、プロンプトが増えるとパフォーマンスもかなり良くなりますが、それでも間違いが多く、独創的なアイデアは生成されません。

テレンス・タオは次のように説明しました。

この気持ちは、平凡だがある程度有能な大学院生にアドバイスをしているようなものだ

しかし、これは、能力のない大学院生の能力をより正確に把握していた以前のモデルよりも改善されています。

しかし、既存のモデルにコンピュータ代数パッケージや証明補助などの支援を追加し、1 つまたは 2 つの改善を加えると、さらに反復して「有能な大学院生」に変えることができます。

テレンス・タオ氏によるユーザーエクスペリエンスに関する注目すべきアナロジーは、Hacker News を含む複数のプラットフォームで白熱した議論を巻き起こしました。

一部のネットユーザーは怒ってこう叫んだ。「GPTって一体何だ?」LLMはコードを書くのに非常に役立つことは認めますが、実際には、コードスニペット、テンプレート、コードジェネレーターなど、この問題を解決するのに役立つ非常に優れたツールがいくつかあります。

ある人はテレンス・タオの言葉を引用して彼に返答した。

「プログラミングで生計を立てられるほど賢い人なら、平均的ではあるがある程度有能な数学の大学院生になれるほどのIQを持っています。」

テレンス・タオによるChatGPTとo1の実際のテスト

テレンス・タオは独自の3ラウンドテストを披露した。

第 1 ラウンドでは、昨年 3 月に実施された ChatGPT テストの質問が使用され、文献から適切な定理 (クレムスの定理) を見つけることで解決できる、漠然と表現された数学的な質問に大規模なモデルが回答することが求められました。

閉包(サポート)が何らかのコンパクト凸集合Sである正測度があるとします。これをn回畳み込み、nS上の測度を得ます。nでスケールダウンし、対数を取り、nで割り、極限をとることで、S上の丸められたものを得ます。これは元の測度に依存しますか?

ChatGPTは一見もっともらしい回答を提供し、非常に関連性の高い用語である「対数モーメント生成関数」に言及し、具体的な例を挙げて回答していました。しかし、その詳細は誤解を招くものでした。すべては錯覚であり、回答は最終的に間違っていました。

今回は、同様によく整理されていましたが、より構造化されていました(より長く、別々の見出しと小見出しがありました)。

最も重要なことは、o1 が Cramer の定理をうまく発見し、完全に満足のいく答えを提供したことです。

P.S. 記録によると、テレンス・タオは8月からO1を使い始めていた。

第 2 ラウンドは、複雑性分析に関する大学院課程の問題を扱うため、少し難易度が高くなります。

(彼は以前、GPT-4 をテストするためにこれを使用しており、証明の作成を手伝うように依頼されました。)

その結果、テレンス・タオ氏は、今回のGPT-4は以前のGPT-4よりも優れていると結論付けましたが、それでもややがっかりしたそうです。

十分なヒントと励ましがあれば、新しいモデルは独自の努力で正しい(そしてよく書かれた)解決策に到達できますが、重要な概念的なアイデアは生成されず、いくつかの重大な間違いを犯します。

数回のプロンプトとやり取りだけを見ると、確かに少し不満を感じます。

テレンス・タオが、O1 のトレーニングを、平凡だがまったく無能ではない大学院生を教えることに例え、自分自身をその役割に投影したのも不思議ではありません。

3 回目のテストでは、素数定理の 1 つの形式を、証明を提供せずに複数のサブ問題に分割して個別に記述することにより、Lean の定理形式に変換する必要があります。

モデルはタスクを適切に理解し、適切な初期分解を実行しましたが、コードにはいくつかの小さなエラーがありました。

テレンス・タオ氏は、これはトレーニング中に Lean とその数学ライブラリに関する最新情報が不足していたためだと説明しました。

また、Lean と Mathlib を特別に微調整して IDE に統合できれば、定型的なプロジェクトに非常に役立つだろうとも述べました。

研究における数学の実用的応用が増加しています。

研究に大規模モデルを使用することは、実際には一般的になっています。

ユーザー名 wenc のユーザーが、研究のために大規模なモデルを使用した経験を共有しました。

Wenc はオペレーションズ リサーチに取り組んでおり、OpenAI のモデルは GPT 4o から始まり、多くの非常に有用な混合整数計画法 (MIP) 式を出力するのに十分なオペレーションズ リサーチ データを吸収しています。

例えば:

4o に「スコアに基づいて i 個のアイテムを n 個のバケットに入れる必要があるが、各バケットを順番に埋めたい」などの論理問題を与えると、4o は非常に便利な数式を出力します。

ほとんどの場合、問題を完全に解決するには、数式を少し調整するだけで十分です

さらに、 4O は、一部のプロンプトが弱すぎる場合に警告を発します。これにより、満足のいく出力が得られない可能性がありますが、これは無効な回答を回避するのに非常に役立つと言えます。

大規模なモデルが必要なかった時代を振り返ると、従来の方法では、MIP 最適化問題の完璧な公式を見つけるために、全員が週末に頭を悩ませる必要がありました。

直感的でない質問の場合、これは大きな頭痛の種となることがよくあります。

Wenc 氏は、 ChatGPT から毎月得られる価値は 20 ドル (月額サブスクリプション料金) をはるかに上回ると断言しました。

GPT が Python の場合と同様に Lean 上でさらに調整されると、数学レベルでの実用性が向上すると期待しています。

Wenc 氏はまた、Claude と最新の GPT モデルが使用できないと感じたネットユーザーからの苦情も分析しました。

  • 大規模なモデルを使用するときに自分の強みを最大限に生かす方法がわかりません。
  • 彼らは、この大きな模型が万能であると想像し、「これがすべての問題の万能薬である」と期待しました。
  • 大規模なモデルは確かにその分野には適用できません。

ウェンク氏は最後に弱々しくこう付け加えた。「実際、苦情を言う人の多くは最初の2つのカテゴリーに該当します。」

テレンス・タオが論争に反応

ほとんどのネットユーザーは大規模モデルによって多くの労力を節約できると感じていましたが、一部の人々は「大規模モデルのトレーニングは信頼できない大学院生のトレーニングに似ている」というテレンス・タオ氏の発言に対して依然として疑問と混乱を抱いていました。

あるネットユーザーが、テレンス・タオの「mathstodon」の投稿にコメントを残した。

ねえ、「大学院生」の部分について詳しく説明してもらえますか?
理解させてください。O1の前に、大規模モデルをLeanを使って微調整し、計算代数パッケージと組み合わせることで、大学院レベルのパフォーマンスに匹敵する出力が得られるということですか?簡単に言うと、この場合、大規模モデルは新たに発見された重要な問題を解くことができるということですか?

テレンス・タオ氏はこのコメントに非常に迅速に反応した。

彼は、特定の評価基準を検討していると述べました。それは、専門の数学者の指導の下、アシスタントが複雑な数学研究プロジェクトにおける 1 つ以上の特定のタスクの完了をどの程度支援できるかという評価基準です。

有能な大学院生はこのようなプロジェクトに貢献することができ、この貢献は単に「学生にプロジェクトのスピードを上げさせ、彼らがどれだけ努力したかを監視する」ことよりも価値があります。

しかし、最新のツールを使っても、大規模なモデルに正確で有用な回答を出力させることは、正確なプロンプトを入力して結果を検証することよりも実際にははるかに困難です。もちろん、その差はそれほど大きくなく、前者の方が約 2 ~ 5 倍難しいです。

テレンス・タオ氏は、この差は今後数年で 1 未満に縮まると信じるに足る理由があると述べています (実際、セマンティック検索、データフォーマット、数学研究を支援するデジタルコードの生成など、いくつかの特定のサブタスクでは、この比率はすでに 1 未満です)。

彼は、この差が 100% 未満に縮まった時点が、数学の分野でこれらの技術がより広く採用される転換点になると考えている。

「大学院レベル」については

テレンス・タオは、誰もが理解しやすいようにするためにこのように言っただけだと説明しました。

大規模モデルは研究者が現在のプロジェクトを完了するのに役立ちますが、大学院生のトレーニングの目的は、次世代に向けてより独立した研究者を育成することです。

「大学院研究のさまざまな側面と AI 支援数学のさまざまな側面の間に 1 対 1 の対応関係があるということを示唆するつもりはありません。」

もう一つ

最後に、テレンス・タオに関してネットユーザーの間で非常に人気があるとわかった結論を共有したいと思います。

大規模なモデルの使い方を学ぶことでどれだけの時間が節約されるかを正確に数値化することは困難ですが、個人のプロンプトワードエンジニアリングのスキルが向上するにつれて、誰もがより短時間でより良い結果を達成できるようになります。

しかし!

大型モデルの価値は人によって異なり、各個人のキューワードの熟練度にほぼ完全に依存することは明らかです。

えっと、恥ずかしいです…

もう十分でしょう。中秋節のことは忘れて、プロンプトのスキルを磨くことに戻りましょう。

参考リンク:
[1]https://mathstodon.xyz/@tao/1... [2]https://news.ycombinator.com/... [3]https://mathstodon.xyz/@tao/1...