618ZXW

最も優秀なAIプログラマーが職を失いつつある。彼は84秒でコードを実行し、人間のように考えることができるのだ!彼のチームはたった5人しかいない。

デビンに続いて、別のAI ソフトウェア エンジニアがオンラインで話題になっています。

その名はジーニー地球最強と言われ、すでに人間のように考え、行動することができる!

では、この「地球最強」はどれほど強いのでしょうか?

まずは評価スコアを見てみましょう。

権威ある SWE-Bench ランキングでは、Genie が問題解決率30.07%でトップにランクされました。

(SWE-Bench は、現実世界のソフトウェア問題を解決するための大規模モデルを評価するために使用されるベンチマークです。)

この結果は、2位に対して19.27%という大きなリードとなり、 SOTAへの最大ブーストである57%を獲得しました。

Genie の実際の効果については、チームの言葉で次のように述べています。

人間のエンジニアと同じように、現実のソフトウェアの問題を解決できます。

まず、プロンプトワード、GitHub の問題、リニア チケット、または API の 4 つの方法で Genie を動作させることができます。

GitHub の問題の解決を例にとると、まず Genie にリポジトリへのリンクを与えると、自動的に問題の解析が開始されます

Genie は、満足のいく解決策が見つかるまで、自動的に反復して問題を解決するために必要なファイルを検討します

次に、問題の自動反復分析を実行します。

すると、Genie は「シューッ」という音とともに自動的にコードを記述して実行し始めました。

コード実行中にバグが発生した場合、Genie は問題のある領域のみに焦点を当てて、コードを分析し、再度実行するというプロセスを、正常に実行されるまで繰り返します。

全体のプロセスにはわずか84 秒しかかかりませんでした。

チームの言葉:

Genie は、人間のプログラマーがソフトウェアの問題をいかに解決するかを何百万回も観察し、学習してきました。

これは人間のプログラマーが一生かけても達成できない数字です。

しかし、さらに驚くべきことは、Genie の背後にあるチームであるCosine のメンバーがわずか 5 人だということです。

さらに、CEOのアリスター氏もOpenAIに感謝のメッセージを投稿した。

皆さんがいなかったら、Genie を作ることはできなかったでしょう。

では、Cosine チームは具体的にどのようにして Genie を作成したのでしょうか?

最高の AI エンジニアはどのようにして育成されるのでしょうか?

Genie の主な特徴は、人間のエンジニアの認知プロセス、ロジック、ワークフローを模倣できることです。

これを実現するために、Genie チームは、過去 1 年間にわたる実際の人間のプログラマーの開発活動を含むデータセットを収集したことを明らかにしました。

このアプローチでは、結果分析、静的分析、セルフプレイ、段階的検証といった手法を採用するだけでなく、大量のラベル付きデータで学習したAIモデルも活用しました。その利点は、基盤となるモデルの能力が向上するにつれて、抽出できるデータの品質もそれに応じて向上することです。

最終的に、Genie はこの独自のデータをトレーニングに使用しました

データセットには、ソフトウェア エンジニアの実際の作業事例に基づいた完全な情報追跡、段階的な知識発見、段階的な意思決定など、人間の推論プロセス全体が集中的にエンコードされています。

Genieの推論プロセスは、計画、検索、コード記述、コード実行という4つの主要なステップで構成されています。Genieは、基本モデルの上にWebブラウザやコードインタープリターなどの追加ツールを追加することに依存する他のAIエンジニアの限界を打ち破り、人間のように多様で文脈依存度が高く、前例のない問題を処理できます。

このトレーニング方法は、ネットユーザーたちに、以前カルパシー氏が提案した同様のアイデアをすぐに思い出させた。

LLMにとって理想的なトレーニングデータは、あなたが書いたコンテンツそのものではなく、執筆中の思考プロセス全体と編集作業のすべてです。しかし、私たちにできるのは、利用可能なリソースを最大限に活用することだけです。

さらに、Genie トレーニングに自己改善のメカニズムが導入されました。

初期のトレーニングデータは主にエラーのない動作可能なコードで構成されていたため、Genieはエラーが発生しやすい状況に対応できませんでした。この問題に対処するため、チームはGenieの初期バージョンを使用してエラーを含む合成データを生成し、このデータを用いて次のバージョンのモデルをトレーニングしました。

具体的には、Genie の古いバージョンを使用して解決策を提案し、その解決策が正しくない場合は、タスクの既知の最終状態を使用して、現在の状態から正しい状態に到達するように教えます。

このプロセスを繰り返すことで、Genie の最初のソリューションは徐々に正確になり、ほとんどの場合に正しい答えを提供するようになり、間違っていた場合でもデータセットにわずかな修正を加えるだけで済むようになりました。

Genie の強化された機能のもう 1 つの鍵は、OpenAI が提供する大規模なモデルのサポートにあります。

開発チームによると、Genieの開発当初は、微調整のために16,000~32,000トークンの範囲のショートコンテキストモデルしか利用できなかったという。彼らはこれらのモデルを初期開発の多くで使用し、1億トークンを超えるデータでモデルを学習させた。設計されたアーキテクチャには一定の利点があることが判明したものの、モデルが一定時間内に処理できる情報量によって根本的に制限されていた。

さまざまな圧縮/ブロッキング方法を試した結果、唯一の解決策は、より大きなコンテキストを持つモデルを使用することです。

OpenAI はロングコンテキスト モデルのサポートを提供し、最新バージョンの Genie は数十億のトークンのデータでトレーニングされています。

チームは、ハイパーパラメータの調整やデータ量よりもデータ品質の方が重要だと考えています。そのため、言語、タスクの種類、タスクの長さなど、複数の側面を考慮したデータ混合に関する広範な実験を実施しました。以下は、Genieで異なるプログラミング言語を用いて学習されたデータの割合です。

さまざまなタイプのインスタンスのデータの割合もあります。

わずか5人のチーム

前述のとおり、Cosine のスタートアップ チームは現在 5 人だけで構成されています。

彼らの公式ウェブサイトの紹介では、彼らは自分たちを次のように非常に率直に表現しています。

小さいけれど力強い。
小さくてもパワフル。

紹介文から判断すると、メンバーの中にはユニコーン企業出身者や、グローバルチームのマネジメント経験者、さらには8歳でプログラミングを始めた人もいるようです。

しかし、Cosine が最初に設立されたとき、メンバーはわずか 3 名で、彼らの目標は人間の推論を理解することでした。

チームメンバーの1人が、2021年にフォーブス誌の「30 Under 30」に選ばれたCosineの共同創業者である中国人のヤン・リー氏であることは特筆に値します。

さらに、Genie自体に関して、CEOのアリスター氏は次のように述べています。

私たちは2022年にGenieの構想を始めましたが、当時は技術的に実現不可能でした。

Genie が現実のものとなったのは、この 6 か月、大型モデルが徐々に成熟していったおかげです。

そうですね、大型モデルがまた素晴らしい仕事をしたと言わざるを得ません。

Genie は現在、順番待ちの申し込みを受け付けています。ご興味のある読者は、この記事の末尾にあるリンクをクリックしてください。

順番待ちリストの住所:
https://cosine.sh/register

参考リンク:
[1]https://x.com/alistairpullen/…
[2]https://cosine.sh/blog/genie-...
[3]https://cosine.sh/blog/state-...
[4]https://x.com/AlistairPullen/…
[5]https://x.com/yangli_