618ZXW

楊志林がキミの新モデルを発表:数学はO1をベンチマークし、中学校、大学入試、大学院入試でトップの成績を達成。

Kimiの全面オープン1周年を記念して、創業者の楊志林氏が自ら新モデルを発表した。

数学モデル k0-math は OpenAI o1 シリーズに匹敵し、深い思考に重点を置いています。

4 つのベンチマーク数学テスト (MATH、中学校入試、大学入試、大学院入試) において、k0-math は o1-mini および o1-preview よりも優れた成績を収めました。

デモでは k0-math の思考プロセスが十分に紹介されており、解決プロセスはかなり長くなる可能性があります。

常にさまざまなアプローチを試みながら、「行き詰まった」と独り言を言います。

次の AIME 競争問題を例にとると、k0-math は 8 つまたは 9 つの異なるアプローチを探索して試し、最終的に正しい結果に到達しました。

楊志林氏は、非常に簡単な質問であっても、時には繰り返し検討する必要があると、その場で率直に述べた。

たとえば、「 1+1 はいくらになるか」のような簡単な質問に直面したとき、1+1=2 という最終的な答えに自信を持って到達する前に、「まずそれを視覚化し」、「もう一度確認し」、「数学的に確認し」、「別の方法を使用して検証する」必要があります。

たとえば、4046/476 とは何でしょうか? 答えは当初示されていましたが、熟考と一連の検証を経て、8.5 と推測されました。

楊志林氏は、これは機会であると同時に限界でもあると考えています。彼は、モデルの反復処理の次の段階でこの問題を徐々に改善し、より深い思考が必要なタイミングをモデルが認識できるようになることを期待しています。

k0-math のリリースは、Dark Side of the Moon の現在の焦点、つまり強化学習に基づくモデルの深い思考能力とスケーリング則の改善を反映しています。

ヤン・ジーリン氏は、最近のキミ・エクスプローラー・エディションも強化学習技術を利用して検索エクスペリエンスを革新し、意図強化、ソース分析、チェーン思考という3つの主要な推論機能を強化したと述べた。

k0-math モデルと、より強力な Kimi Explorer Edition は、今後数週間以内に Kimi Web バージョンと Kimi Smart Assistant APP で一括リリースされる予定です。

楊志林氏は新製品のほか、今後の研究開発の焦点、マルチモーダル開発に関する見解、事前トレーニングの状況など、聴衆が関心を示した多くの質問にも答えました。

キミの探索バージョンは推論能力が向上します。

Kimi Explorer の拡張意図とは、抽象的な質問や漠然とした概念を具体化し、ユーザーの真の検索意図を拡大する機能を指します。

たとえば、インターネット製品マネージャーが製品に対するユーザー ロイヤルティを調査する場合、Kimi Explorer Edition は、ユーザーが「ロイヤルティ」を検索するときは基本的にデータ分析を行い、ロイヤルティを反映できるディメンションを見つけたいと考え、このやや漠然とした抽象的な概念を「アクティビティ レベル、保持率、使用頻度、使用期間」などのより具体的なキーワードに変換します。

そして、機械が得意とする大規模な並列検索を通じて、より包括的かつ正確な答えを見つけることができます。

Kimi Explorer Edition では、ソース分析機能も強化されており、大量の検索結果から、より権威があり信頼性の高いソースを分析してフィルタリングできます。

回答にはソース リンクも提供されるようになり、1 回のクリックで段落レベルまで正確な情報ソースを特定できるようになり、すべての情報が追跡可能になりました。

最後に、強化されたチェーン思考能力とは、チェーン推論に基づいて製品、企業、業界に関する調査の質問をより適切に処理する Kimi Explorer の能力を指します。

たとえば、プログラマーがテクノロジーの選択をするとき、「React ではどのような状態管理ライブラリが利用可能で、どれが最も使用に適しているか」を知りたいと思うでしょう。

Kimiはまず問題を分解し、Reactで利用可能な状態管理ライブラリを特定します。次に、各ライブラリのメリットとデメリット、ユースケース、そして推奨理由を探ります。最後に、発見された質の高い情報をすべて分析・要約し、ほとんどの状況に最適な状態管理ライブラリを推奨し、その理由を説明します。

「思考がモデルの上限を決定する」

Q: 強化学習では、データ、計算能力、アルゴリズムのバランスをどのように取るのでしょうか?

A: AI の発展は、ブランコに乗って 2 つの状態を交互に切り替えるようなものだと私は思います。

一つのシナリオは、アルゴリズムとデータは完璧に準備されているものの、計算能力が不足している場合です。そのため、継続的な改善を可能にするために、インフラストラクチャを改善するためのエンジニアリングをさらに進める必要があります。

Transformerの誕生からGPT-4に至るまで、最大の矛盾はいかにスケールさせるかということだったと思うのですが、アルゴリズムやデータに関しては根本的な問題はないのかもしれません。

規模がほぼ完成した今日、コンピューティング能力を追加しても必ずしも問題が直接解決するわけではないことに気づくでしょう。根本的な理由は、高品質なデータが不足していることです。数十ギガバイトのトークンは、人類のインターネットが20年間で蓄積してきた上限です。

現時点での課題は、このコンポーネントがボトルネックにならないようにアルゴリズムを変更することです。これは私たちが直面している問題、あるいは業界全体が直面している問題と捉えることができます。単にカードを追加しても、すぐに改善が見られるとは限りません。そのため、その潜在能力を最大限に引き出すには、アプローチを変える必要があります。

すべての優れたアルゴリズムはスケーリングと相性が良いです。アルゴリズムがスケーリングの可能性を最大限に引き出すことができれば、アルゴリズムはさらに改善されていきます。

強化学習は以前から取り組んできましたが、これは今後非常に重要なトレンドになると考えています。目的関数と学習手法を変更することで、継続的にスケールさせることができます。

Q: トランスフォーマーを使わない方法でこの問題は解決できますか?

A:いいえ、それは学習アルゴリズムの問​​題であり、学習目標がないためです。

Q: 1~2週間後にKimi Explorer Editionがリリースされた場合、ユーザーは使用の有無を選択できるのでしょうか?それともユーザーのフィードバックに基づいて使用回数を割り当てるのでしょうか?各モードでは、一定期間内に各ユーザーが何回使用できますか?また、現在、Kimiの主な収益は有料サブスクリプションではなく、チップによるものです。コストバランスはどのように考えていますか?

A:次のバージョンでは、おそらくユーザーが自分で選択できるようになるでしょう。

初期段階では、この方法により、より適切な割り当てやユーザーの期待へのより適切な対応が可能になりました。1+1が何になるかを考えるのに多くの時間を費やしたくなかったのです。

したがって、このアプローチは初期段階で使用される可能性があると思います。

しかし、これは結局のところ技術的な問題に帰着すると思います。重要なポイントは2つあります。1つは、最適な計算能力を動的に割り当てる能力です。モデルが十分にインテリジェントであれば、人間が1+1について長時間考えないように、様々な種類の問題にどれくらいの時間をかけて検討すればよいかを把握できるはずです。

ある程度、より単純な問題では思考時間が短くなることが既に確認されていますが、これは必ずしも最適ではない可能性があります。アルゴリズムの反復を通じて、この点を改善し続けていきます。

長期的には、2つ目のポイントはコストも着実に減少しているということです。例えば、昨年のGPT-4モデルのレベルに到達したい場合、パラメータは昨年は100バイト以上必要だったのに対し、今年は10バイト程度で済むかもしれません。

Q: 事前トレーニングの現状はどうですか?スケーリング則を強調されていましたが、あなたほど頭の良い人でもスケーリング則の制限を受ける可能性があるのでしょうか?

A:最初の質問にお答えします。事前学習には、半世代モデルから第一世代モデルに至るまで、まだ改善の余地があると考えています。この可能性は来年実現するでしょう。その年には、主要なモデルが事前学習の限界に挑戦するでしょう。例えば、現在見られる最高のモデルでさえ、まださらに進化させる余地があります。

しかし、今後最も重要なのは強化学習のパラダイムシフトだと考えています。スケーリングは依然として重要ですが、スケーリングが完全に放棄されるわけではなく、スケーリングのために異なる手法が用いられるようになるということです。これが私たちの見解です。

スケーリング則が天井または上限になり得るかどうかを尋ねましたが、それについては私は比較的楽観的です。

根本的な問題は、これまで静的なデータセットを使用していたことです。これは、データセットの使い方としてはかなり単純で粗雑なものでした。強化学習では、多くの場合、プロセスに人が関与しますが、大量のデータにラベルを付けることは不可能であり、それぞれの問題に対する具体的なアイデアにラベルを付けることは不可能です。つまり、実際にはAIを人材にテコ入れするために使用しているのです。

例えば、100個のデータポイントにラベルを付ける場合、残りのデータは個別に処理されるため、大きな影響を与える可能性があります。これは、問題を解決する際に最もよく使われる方法だと思います。

具体的な方法論については、確実性はかなり高いと考えています。多くの場合、実際に動かしていく過程ですから、この方法で実現できる可能性は高いと思いますし、そのポテンシャルは非常に高いと考えています。

Q: マルチモーダル開発についてお聞きしたいのですが、「SORA」はもうすぐリリースされると思います。

A:私たちもそれを行っています。いくつかのマルチモーダル機能が社内テスト中です。

私の見解はこうです。AIにとって今後最も重要な能力は、思考とインタラクションだと考えています。思考はインタラクションよりもはるかに重要です。これはインタラクションが重要ではないと言っているわけではありません。思考が限界を決めると考えています。一方、インタラクションは必須条件です。例えば、視覚能力は極めて重要であり、視覚能力がなければインタラクションは不可能です。

ですから、この2つは全く違うと思います。それはラベル付けの難易度によって決まります。ラベル付けには博士号が必要なのか、それとも誰でもラベル付けできるのか。どちらがそのような人材を見つけるのが難しいでしょうか。それがAIの限界です。

したがって、マルチモーダルは絶対に必要だと思いますが、その上限は考え方次第で決まるのではないかと思います。