618ZXW

O1の礎となる論文は広く流布しており、イリヤは依然として重要な人物です!清華大学と北京大学の卒業生がコアプロジェクトで活躍しています。

Ilya Sutskever氏の名前がOpenAI o1の背後にあるチームのリストに登場して以来、o1における彼の役割は多くのネットユーザーの注目を集めています。

ちょうど今、機械学習エンジニアの Rohan Paul が、昨年 5 月に Ilya が共同執筆した論文を見逃してはならないと投稿しました。

この論文のタイトルは「ステップごとに検証してみましょう」です。

Ilya だけでなく、その著者の多くも OpenAI o1 の貢献者です。

一部のネットユーザーは、この論文を「Attention is all you need」に次いでAI分野で2番目に有名な論文だとさえ呼んでいます。

さらに、OpenAI o1 の背後にあるチームについての白熱した議論が続く中、OpenAI の科学者 Noam Brown 氏は最近、自分が Strawberry/OpenAI o1 を率いていなかったと明言する投稿をしました。

しかし、O1プロジェクトは長年の研究の成果であり、昨年10月以降、その開発が本格的に加速していることも明らかになった。

この観点からすると、Ilya Sutskever 氏が OpenAI o1 の「基礎的な貢献者」となるのは驚くことではありません。

次に、「Let's Verify Step by Step」という論文と、OpenAI o1 の貢献者について詳しく見てみましょう。

O1におけるイリヤの役割

OpenAI o1は、一般的な推論と複雑な推論の両方に対応するように設計されています。答えを出力する前に、モデルの能力を高めるために長い思考プロセスを生成します。

Ilya が以前共著した論文では、主に大規模言語モデルの多段階推論能力を向上させる方法が検討されていました。

彼らは主に、報酬モデルのトレーニングにおける結果の監督とプロセスの監督の有効性を比較しました。

結果の監視は、モデルの最終出力の正確性に重点を置きます。

一方、プロセス監視は、モデルの推論プロセスの各ステップの正確性に焦点を当て、回答のどの特定のステップが間違っているかを指摘できます。

チームは GPT-4 ベースモデルを使用して MATH データセットで実験を実施しました。

プロセスの監視を自動化する簡単な方法はないため、モデル生成ソリューションの各ステップの正確さをマークするには、人間のデータ注釈者に頼るしかありません。

彼らは大量の人間のフィードバックデータを収集し、800,000 のステップレベルラベルを含む PRM800K データセットを作成しました。

実験は大規模と小規模の 2 つのシステムに分かれており、それぞれに利点があり、異なる視点を提供します。

研究では、プロセスの監督は結果の監督よりも大幅に優れており、より信頼性の高い報酬モデルをトレーニングできることがわかりました。

プロセス監督を使用してトレーニングされた最良のモデルは、MATH テスト セットの代表的なサブセットで問題の78.2%を解決し、結果監督モデル (72.4%) および多数決ベースライン (69.6%) を大幅に上回りました。

この研究では、大規模な報酬モデルが、小規模な報酬モデルに対する人間の監督の影響を確実に近似できること、また、大規模なデータ収集でアブレーション分析を効率的に実行できることも実証されました。

アクティブラーニングにより、プロセス監視のデータ効率も約 2.6 倍と大幅に向上します。

チームは、プロセス監視のいくつかの主要な利点についても議論しました。

まず、より正確なフィードバックが提供され、功績の帰属が容易になります。次に、AIとの連携という点では、プロセス監視によって解釈可能な推論が生成される可能性が高くなります。

モデルの一般化能力を評価するために、チームは AP 物理、AP 微積分、AP 化学、AMC 試験問題でもテストしました。

結果は、プロセス教師ありトレーニング モデルがこれらの新しい問題でも依然として良好なパフォーマンスを示し、中程度の分布シフトに対する堅牢性を実証していることを示しています。

大規模モデルが急速に発展してから1年が経過したが、一部の学者はこの論文には新しいアイデアがあまり含まれていないと指摘している。

重要なアイデアは、最終結果だけでなく、各ステップまたはトークンを個別に評価できるプロセス報酬モデルです。

しかし、ネットユーザーが言っているように、この論文は最終的には OpenAI o1 に向けた一歩となります。

o1 は、答えを暗記することから推論を暗記することへのパラダイムシフトを表しています。

清華大学・北京大学同窓会O1-Mini責任者

イリヤ・スツケヴェル以外にも、o1の背後にあるチームも大きな注目を集めています。

公式サイトの全リストは、推論研究と推論技術セキュリティの2つのセクションに分かれており、一見するとすでに100人をはるかに超えています。(わあ、こんなにたくさんの人がいるなんて!GIF画像)

この研究分野を中心に見ていきましょう。

  • 基本貢献者: 21; リーダーシップ: 7;
  • コア貢献者: 46 人;
  • 寄稿者: 82;
  • プロジェクトマネージャー: 2 名
  • 経営幹部: 8 人
  • サポートリーダー:8名。

寄稿者の中には、馴染みのある顔や中国人も多数見られました。

OpenAIの研究者であるジェイソン・ウェイ氏は、以前はGoogle Brainに勤務していました。彼はMindChainの創始者であり、大規模モデルの創発能力やGPT-4の研究にも参加しています。

Shengjia Zhaoは清華大学で学士号を取得し、その後スタンフォード大学で博士号を取得しました。2022年に卒業後、OpenAIに入社しました。彼の自己紹介によると、大規模モデルの学習に情熱を注いでおり、ChatGPT、GPT-4、GPT-4o miniのコア著者の一人です。

任宏宇は2018年に北京大学を卒業し、その後スタンフォード大学でコンピュータサイエンスの博士号を取得し、大規模言語モデルを専門としています。OpenAI入社前は、Microsoft、Nvidia、Google、Appleといった大手IT企業で勤務していました。彼はGPT-4oのコアコントリビューターであり、GPT-4o miniのリーダーでもあります。彼は主に、モデルに、より速く、より深く、より鋭敏に考える方法を教えています。

このモデルが最初に発売されたとき、彼は o1-mini が自分のお気に入りのモデルだと述べました。

清華大学と北京大学の卒業生であるこの二人が、間違いなく o1-mini の主担当である。

フランシス・ソンは、イェール大学で学士号、ハーバード大学で博士号を取得しています。以前はニューヨーク大学で計算神経科学を専門とする研究助手として勤務していました。DeepMindで4年間勤務した後、2022年にOpenAIに入社しました。

ウェンダ・ゾウはケンブリッジ大学で学士号を取得し、コロンビア大学で博士号を取得しました。OpenAI入社前は、サイモンズ・アンド・ニューヨーク大学で研究員を務めていました。昨年OpenAIに入社しました。

ケビン・ユーはカリフォルニア大学バークレー校を卒業し、以前はNASAで働いていました。

指導的立場にも中国人がいた。

マーク・チェンは現在、OpenAIの研究担当副社長を務めています。彼はMITで数学とコンピュータサイエンスを学び、以前はIntegral Technologyで定量研究パートナーを務めていました。

ウルトラマン:今後数年間の主導権を握る

そういえば、ウルトラマンは数日前にまた公開インタビューを受けて、最新モデルについて語っていました。

彼は、O1モデルはIOIやIMOのような競技で優れた成績を収めることができるものの、AIが試験で優秀な成績を収める能力に焦点を当てるべきではないと述べた。むしろ、新素材の発見を迅速化したり、病気の治療法を発見したりするなど、研究者を支援する能力に重点を置くべきだ。

これは新しいパラダイムの始まりであり、非常に初期段階ですが非常に重要です。

彼は将来のビジョンについて語り、知性とエネルギーという2つの基本的な商品があると述べました。知性とエネルギーとは創造力を発揮し、知的労働を行う能力であり、エネルギーとは世界でこれらの目標を達成する能力です。

大型モデルの進捗については、減速していないだけでなく、今後数年間に向けて主導権を握っていると述べた。

参考リンク: [1]https://arxiv.org/abs/2305.20050 [2]https://openai.com/openai-o1-... [3]https://x.com/rohanpaul_ai/status/1835427161370738983?s=46&t=iTysI4vQLQqCNJjSmBODPw [4]https://x.com/EarningsNugget/...