|
オリジナルChangqin Datawhale Datawhaleのヒント 著者: Changqin、Datawhaleメンバー この記事は、2025 iFLYTEK Developer TALK 杭州駅における「DeepSeek 深層技術分析」プレゼンテーションの記録です。時間的な制約により、実際のプレゼンテーションはこの記事の簡略版となりました。本文は、プレゼンテーションの招待状を受け取ってから2週間かけて蓄積した読書メモと考察をまとめたものです(幸いにも、ある程度の事前知識があったので、そうでなければかなり苦労したでしょう)。 プレゼンテーションPPT: https://github.com/datawhalec... 2022 年末に ChatGPT がリリースされて LLM 時代の幕開けを告げてからわずか 2 年余り、DeepSeek-R1 は 2025 年を迎えるにあたり、LLM を真に深い思考の時代へと推進しました。 過去2年間の急速な発展は、前例のない毎週のイテレーションを経て、今ではほとんど非現実的に感じられます。2023年はLLMが最も急速に成長した年であり、「LLMゼロ年」と呼ばれ、新たな開発パラダイム(興味のある方はHuggingLLM(https://github.com/datawhalec...)をフォローしてください)の出現と全国的なAIブームを伴いました。2024年には、LLMベースのアプリケーションが成熟し始め、エージェントが繁栄し、ゼロ年が始まりました。さまざまなアプリケーションが次々と登場し、個人企業が可能になりました。 LLMが「応用」に向けて着実に進化していくと思っていた矢先、R1が登場しました。OpenAI-o1を起源としながらも、それを凌駕する存在となりました。o1に関しては、OpenAIの元最高研究責任者であるボブ氏の見解と私の見解は一致しています。o1の目標は複雑な問題の解決であり、ほとんどの人が日常業務でo1を必要とすることはないでしょう(最先端AIに関する考察(https://yam.gift/2024/12/20/N...)を参照)。しかし、R1はLLMの全体的な機能を強化し、モデルが推論中に真に自己を反映し、検証することを可能にします。これは複雑な問題に適用できることはもちろんですが、日常業務の多くのシナリオにも役立ち、AIをより人間らしくします。これはR1が業界全体に貢献した点であり、その影響はChatGPTのリリースに劣らないほど大きいと私は考えています。 DeepSeek-R1: LLMは深い思考の時代へまず、R1論文を分析してみましょう。論文自体は複雑ではなく、構成も非常に明確です。核となる内容は、R1-Zero、R1、そして蒸留の3つの部分に要約でき、それぞれの部分は一文で要約できます。
これは、「データが上限を決定し、アルゴリズムがその上限に近づく」ということを改めて証明するものであり、「高品質なデータ」の意味を再定義するものでもあります。 R1-Zero: RLの可能性純粋な RL、ルールベース、教師ありデータなし。 GRPO 通常は政策モデルと同じサイズの批評モデルを使用する代わりに、ベースラインは母集団スコアから推定されます。具体的には、GRPOは各qについて、古い政策からの出力セットをサンプリングし、以下の目的関数を用いて政策を最適化します。 ここで、𝜀と𝛽はハイパーパラメータであり、Aiは次のようにアドバンテージです。 GRPO は PPO よりもシンプルですが、さらに重要なのは、効果的であることです。 RM ルールに基づいているので、ORM や PRM はありません。正確性報酬とフォーマット報酬(思考プロセスを これは本当にエキサイティングな発見です!私は強化学習(そしてルールベース学習)に長年(2018年まで遡る)魅了され、これまで何度も言及してきました(付録1の関連記事を参照)。私も何度か試みましたが、あまりうまくいきませんでした。R1の論文を見た時の第一印象は「無理!」でした。しかし、自分で再現してみて、本当に驚きました。本当に素晴らしい結果です。 データ構築 トレーニング データは次のテンプレートに基づいて構築されます。 ここでのプロンプトは、対応する問題を指します。この構造形式には、コンテンツ固有のバイアス(例えば、反射的推論の強制や特定の問題解決戦略の促進など)を回避するために、意図的に制約が設けられており、強化学習中のモデルの自然な進行を正確に観察できるようにします。 上記のテンプレートはベース モデルであり、Instruct モデルも同様です。 結果 素晴らしい曲線、素晴らしいパフォーマンスですね!さらに、赤い曲線で示されているように、実際には多数決によってパフォーマンスをさらに向上させることができます。 自己進化 さらに、このプロセスには自己進化が見られます。その中で最も顕著な特徴の一つは、推論中の計算量が増加するにつれて複雑な行動が出現することです。これらの行動には、リフレクション(過去のステップの再検討と再評価)や、問題解決のための代替アプローチの探索などが含まれます。これらの行動は、明示的にプログラムされ、外部から調整されたプロセスの結果ではなく、モデルと強化学習環境との相互作用の結果として自発的に発生します。 アハ体験 次に、よく議論される「アハモーメント」についてです。これは本質的に、モデルが再評価、確認、検証を自動的に学習することを意味します。これは自己反省とエラー修正のプロセスであり、「アハ」体験に似ています。これは強化学習の魔法を実証しています。モデルに問題の解決方法を明示的に指示するのではなく、適切なインセンティブを提供することで、モデルが高度な問題解決戦略を自律的に構築できるようにします。 アハモーメントとは、モデルの「推論しながら考える」という行為と捉えることができ、これは「確認する」「再確認する」「評価する」「検証する」といった言葉の出現や、回答の長さの増加といった形で表れます。下の図をご覧ください。 ただし、次の点に留意する価値があります。
この点については別の研究の結論を後で議論するので、ここでは繰り返さないことにします。 R1-Zeroがなぜこのような結果を達成できるのかというと、モデル自体がこの能力を備えているからだと思います。強化学習は単にこの能力を解放したり、誘導したりするだけです。後ほど、少量のSFTデータでもこれがどのように達成できるかを説明します。 R1-Zeroには主に2つの問題があります。可読性の低さと言語の混在です。しかし、実際に再現してみると、1つ目の問題は対処可能だと感じましたが、2つ目の問題は確かに存在し、かなり目立ちました。とはいえ、結果が正しい限り、プロセスが人間にとって読みやすいかどうかはそれほど大きな問題ではないように思えませんか?(doge) 最後に、純粋なルールベースの強化学習を使用してこのような結果を達成できる R1-Zero の能力は本当に素晴らしいと付け加えておきたいと思います。 R1: LLMが再び進化次はR1です。これはR1-Zeroの改良版であり、自然な拡張です。R1-Zeroの直後には2つの問題が存在します。
コールドスタート R1の最初のステップはコールドスタートです。少量(数千個)の高品質なCoTデータを収集し、強化学習の開始点(初期アクター)となるモデルを微調整します。
R1-Zeroと比較したコールドスタートデータの利点:
推論指向RL 次のステップは、R1-Zero (大規模 RL) と同様に、特に推論集約型のタスクにおけるモデルの推論機能を向上させることを目的としています。
棄却標本抽出とSFT 前のステップで収束した後、主な焦点はSFTデータの収集に移ります。言い換えれば、これまでの作業はすべてデータ取得のためでした。主に推論に焦点を当てた初期のコールドスタートデータとは異なり、この段階では他のドメインからのデータを統合し、ライティング、ロールプレイング、その他の一般的なタスクにおけるモデルの能力を強化します。 これは、生成されたデータを用いてDeepSeek-V3-Base上でSFTを実行することを意味します。これは基本的に標準的なSFTですが、使用するデータのみが異なります。
全シーンRL アライメントフェーズでは、推論能力を維持しながら、有用性と無害性を向上させることを目的としています。ここでは、ハイブリッドアプローチを用いてアライメントを行いました。
有用性に関しては、最終的な要約に焦点を当て、評価では、基礎となる推論プロセスへの干渉を最小限に抑えながら、ユーザーに対する応答の実用性と関連性を強調するようにしてください。 無害性については、推論プロセスと結論を含むモデルの応答全体を評価します。 これら4つのステップを経て、R1は完成します。ご覧のとおり、最初の2つのステップは主にデータ処理、具体的には思考プロセスを反映するデータです。もちろん、最後の2つのステップも、トレーニングとアライメントのために2種類のデータを組み合わせるなど、改良されています。 これは「高品質なデータ」と「新しいトレーニングパラダイム」を再定義するものでしょうか?答えがどうであれ、今後のLLMはすべて「R1」評価を受ける可能性が高いと思います。 蒸留:優れた機能を備えた小型モデル最後に蒸留があります。これは、より小さなモデルに推論能力を与えることを意味します。具体的には、先行する80万個のデータポイントを用いてQwenとLLaMAを微調整することを意味します。この蒸留手法はブラックボックス蒸留と呼ばれます。 ここで注目すべきは、RLはここで継続されなかったということです(RLを統合することでモデルのパフォーマンスが大幅に向上する可能性があるにもかかわらず)。彼らはそれをコミュニティに委ねました。その後、DeepScaleRが登場しました(これについては後述します)。これは、このフォローアップを補完する役割を果たしました。 R1に関する研究このセクションでは、R1 に関連する興味深い研究をいくつか紹介します。 オートゼロまず、オートゼロについて見てみましょう。その関連コンテンツは次のとおりです。
主な結論は次のとおりです。
要約すると、これは2つの文にまとめられます。ベースモデルも肯定的な結果を達成する可能性がありますが、これは強化学習が肯定的な結果を達成することを妨げるものではありません。強化学習はベースモデルの表面的な自己反省を効果的な自己反省に変換できますが、必ずしもその長さが長くなるわけではありません。この結論は理にかなっていると思います。ベースモデルは単に能力を持っているだけで、それが活性化されていないのに対し、強化学習はその能力を活性化するのです。 ディープスケールR次は、前述の「蒸留」のセクションで触れたDeepScaleRです。関連する内容は以下の通りです。
このアプローチでは 背景として、R1の再現には32K以上のコンテキストと約8000ステップの計算コストがかかるため、1.5Bモデルでも70,000 A100時間を要することが挙げられます。この問題に対処するため、本論文では蒸留モデルを採用し、反復的な長さ増加法を導入します。計算リソースは3800 A100時間にまで削減されます。 この論文では主に、RL を通じてカスタム推論モデルを開発することがスケーラブルかつコスト効率に優れていることを示します。 データ処理フローは以下のとおりです。
ORM 設計:
対話型のコンテキスト長増分スキーム: 短いものから長いものへ。
なぜ2段階の学習が必要なのでしょうか?それは、学習前のモデル評価で、誤答の長さが正答の3倍であることがわかったためです。これは、長い応答はしばしば誤った結果につながることを示しており、長いコンテキストウィンドウを用いて直接学習を行うと、ほとんどのトークンが無駄になるため、非効率的になる可能性があります。 以下に実際の結果を見てみましょう。
ステップ1 ステップ2 ステップ2 - 追加 コンテキストの長さ 8k 16k 24k レスポンスの長さ 5500→3500 3500→5500 クリップ比率 4.2%→6.5% 2% 褒美 46%→58% 62.5% AIMEアカウント 33.9% 38% 43.1% 要約すると、結論は次のようになります。
LIMOとS1どちらの研究も、少量の高品質データにSFTを適用し、モデルの推論能力を活性化しています。関連する内容は以下のとおりです。
LIMO は次のような仮説を提唱しています。モデルが豊富な推論知識と十分な計算スペースを備えている場合、推論能力を活性化するには、長期的な思考を促す少数の高品質のトレーニング サンプルのみが必要になる可能性があります。 そして、非常に少量の高品質データ(817データポイント、全データの1/100)から複雑な数学的推論能力を効果的に導き出せるという仮説を検証しました(絶対的な性能向上率は40.5%)。さらに、このモデルは分布外問題にも一般的に適用可能であり、このモデルが単純なパターンマッチングではなく、真の推論能力を獲得していることを示唆しています。 この発見は、複雑な推論タスクには膨大な量のデータが必要であるという仮定に疑問を投げかけるだけでなく、教師ありの微調整は主に一般化ではなく記憶につながるという一般的な見解にも疑問を投げかけます。 s1 と同様に、1000 個の高品質データ ポイントが 59k のデータを超えました。 LIMO と s1 の発見は、知識の獲得から知識の活性化まで、知識の基盤における革命を意味します。 どちらの研究でも、高品質なデータが言及されています。LIMOでは、データの品質は次の2つの要素によって決定されます。
S1 は粒度が比較的粗く、主に全体的な品質 (フォーマットの問題なし)、難易度、多様性を考慮しています。 質問は通常、既存のデータセットから選択され、回答では公式のソリューションを使用することも、モデルを使用してさまざまなソリューションを生成し、最適なものを選択することもできます。 論理的推論の実験今回の実験は主にR1-Zeroに焦点を当てており、上記の点のいくつかを検証しただけでなく、私自身のアイデアもいくつか生まれました。予備的な結論を以下にまとめます。 R1-Zero の開始点は重要ではありません。 ここまでの基礎知識を踏まえれば、結論は明らかです。理論的には、BaseモデルとInstructionモデル、そして通常モデルとMathモデルの両方でR1-Zeroの効果を実現できるはずです。R1-Zeroは期待通りの効果を実現し、同様のパフォーマンスを示しているため、暫定的にR1-Zeroの再現と見なすことができます。 図に示すように、緑色は また、Base モデルはほぼゼロから始まりますが、Instruct モデルはそうではないことも注目に値します。2 行目の右端の図に示すように、Instruct モデルは最初から一定レベルの精度を備えています。 モデルが新しいほど、効果は良くなります。 OODを最小化するためにQwen 2.5以降にリリースされたデータセットを使用しましたが、事前学習時に類似のデータがモデルに含まれていたかどうかは依然として不明でした。当初、実験にはQwen 1を使用する予定でしたが、コードの変更がやや複雑だったため、比較対象としてQwen-1.5-7Bを選択しました。 図に示すように、 モデルが大きいほど、効果は高くなります。 当たり前のことのように思えるかもしれませんが、それでも私たちは、どれだけ改善されたのか、そして具体的にどこでパフォーマンスが不足しているのかを知りたかったのです。残念ながら、1.5Bのベースモデルでは結果を再現できませんでした。報酬、フォーマットエラー、全体的な精度、テストセットの精度は以前のパフォーマンスと一致していましたが、応答の長さは収束するまで着実に減少し、増加は見られませんでした。しかし、プロセス中は依然としてアハ現象が観察されました。最終的に、1.5BモデルのMathバージョンである ご覧のとおり、パフォーマンスの差はかなり大きく、Mathモデルを使用した場合でも7Bとの差は依然として大きくなっています。また、3Bモデルもテストしましたが、若干の改善は見られたものの、応答長の増加はそれほど大きくありませんでした。 インタラクティブな長さの増加は効果的 このセクションでは、DeepScaleRと同様に、主にマルチステージ(難易度別)強化学習を検証します。2つのステージの傾向は似ていますが、第2ステージの応答長は大幅に長くなり、指標にも若干の改善が見られます。 報酬は非常に重要です。 報酬はモデル学習の方向を示し、その設計は収束速度と最終結果に影響を与えます。タスクに応じて適切に設定する必要があります。 上記の結論のより詳細な説明は、後日公開の技術レポートで発表します。なお、私は個人的に拡張の側面にのみ関心があるため、ここでは検証のごく一部しか行っておりません。LIMO、s1、R1、蒸留など、他の側面に興味のある読者は、ぜひ実際に試してみてください。 R1: 新しいパラダイム、新しい時代ここまでお読みいただいた方は、R1とその影響についてご理解いただけたかと思います。実際、R1は多くの革新をもたらし、LLMのほぼすべての段階に影響を与えてきました。ここでは、事前学習、事後学習、そして推論という3つの観点から考察していきます。 事前トレーニングR1の中核は、実は「データ取得」であり、「高品質データ」を再定義するものです。このデータは事前学習に利用できるのでしょうか?答えは自明です。しかし、データ品質が向上した場合、事前学習の上限は上がるのでしょうか?実験的な検証が必要になるかもしれません。 トレーニングプロセスはどうでしょうか? 元々は既存データの収集が中心でした。では、より良い、あるいはより適切なデータを生成する方法を検討すべきではないでしょうか? これは動的な反復プロセスになるでしょうか? これは新しいトレーニングパラダイムになる可能性があると思うので、今は事前トレーニングの範疇に入れておきましょう。 トレーニング後同様に、生成されたデータを用いてSFTの小規模モデル(論文で言及されている蒸留)を再構築し、その後に強化学習(R1-Zero)を応用することができます。さらに、強化学習は段階的に進化させ、難易度を上げたり、応答時間を長くしたりすることも可能です(考えてみてください)。 さらに、後半2段階のSFTとアライメントのステップは、既存の学習後手法と手順自体は同じですが、プロセスは大きく異なります。最大の違いは、R1が各段階で推論関連データと一般データの両方を考慮する必要があることです。この点については、さらに検討する価値のある点がいくつかあります。まず、推論データと一般データの比率は3:1です。この比率が変化するとどうなるでしょうか?次に、いくつかの簡単な質問(挨拶など)に対して、R1はCoT(長鎖推論)を使用して回答しません。ここで「単純」とはどのようにして識別されるのでしょうか?異なるコンテキスト(ユーザーの背景知識を区別するため)に応じて異なる回答をすることは可能でしょうか?最後に、アライメント段階では、R1は推論質問に対して純粋なルールベースの報酬と、人間の好みに対して比較的直感的な手法であるRMの両方を使用します。より優れたRMは見つかるでしょうか?他のルールも組み込んで、人間のように様々なスタイルのLLMを学習させ、生来の「個性」を身につけさせる可能性はあるでしょうか?これらの点は非常に興味深いと思います。 上記の3点は、新しい学習パラダイムを構成するものと言えるでしょうか?意見は様々でしょうが、R1の革新性と貢献は紛れもない事実です。ChatGPTのリリースに劣らず重要な意味を持つと言っても過言ではありません。 推論前述の通り、R1の主な革新性は学習後の段階にあります。推論における特定の特性は、R1やO1のようなモデルに自然に備わっています。O1については、私の記事「AIの最前線に関する考察」で論じました。 私はずっと、O1は複雑な問題を解決することを目的としているため、限られたシナリオにしか適していないと考えてきました。実際、ボブ(OpenAIの元最高研究責任者)もそう考えており、プログラマーを除けば、ほとんどの人は日常業務でO1が必要になることはないと言っています。 推論時間スケーリング(ITS)に関して、最も初期の(ただし、これが最初の研究かどうかは定かではない)代表的な研究の一つは、DeepMindの「LLMテスト時間計算の最適なスケーリングは、モデルパラメータのスケーリングよりも効果的である可能性がある」という論文です。この論文は主に、「LLMが一定量(ただし無視できない量)の推論時間計算を許容する場合、挑戦的なヒントを用いることでどの程度のパフォーマンス向上が達成できるのか」という疑問に答えています。この論文には、推論時間計算が比較的大きいことと、問題が挑戦的であることという2つの重要な前提があります。この論文は主に、Best-of-N(文字通り、N個の出力をバッチサンプリングし、バリデータまたは報酬モデル(RM)に基づいて最高スコアを選択する)、ランダムサンプリングなどのTTS(テスト時間探索)手法、そしてツリー探索(MCTSなど)といった当時のいくつかのスケーリング手法の有効性を検討しています。主な結論(非常に興味深い)は、推論時間計算と事前学習計算は必ずしも1対1で互換性があるわけではないということです。
この結論は、モデル自体の能力が極めて重要であることを示しています。推論は欠点を補うことしかできず、欠点を排除することはできません。現時点では、報酬モデル(RM)は依然としてモデルであり、ルールではありません。RMは主に、結果に基づいて報酬を与える客観的報酬モデル(ORM)とプロセスに基づいて報酬を与えるプロセス報酬モデル(PRM)で構成されています。PRMの適用に関しては、R1のリリース直前に行われた2つの優れた研究、MicrosoftのrStar-MathとPRIME-RLのPrimeは一読の価値があります。 ITS アプリケーションの成功例としては、OpenAI の o1: Learning to Reason with LLMs | OpenAI が挙げられます。そこには次のように書かれています。 人間が難しい質問に答える前に長い時間をかけて考えるのと同じように、O1は問題解決を試みる際に思考の連鎖を活用します。強化学習を通じて、O1は思考の連鎖を洗練させ、使用する戦略を改善していきます。誤りを特定して修正する方法を学習します。複雑なステップをより単純なステップに分解する方法を学習します。現在の方法がうまくいかない場合は、異なるアプローチを試す方法を学習します。このプロセスにより、モデルの推論能力は大幅に向上します。 現在私たちが目にするR1アルゴリズムはこの説明に非常に似ており、多くのオープンソースの再現可能なもの(私自身の実験も含む)で実際にこの現象が観察されています。O1アルゴリズムの重要な特徴は「長い思考時間」であり、生成されるデータが比較的長くなることを意味します。実用上、その「長い時間」は時に真に「非常に長い」場合もあり、これはスケーリング手法と見なすことができます。前述のS1論文におけるBudget Forcing法は、スケーリングの一種、すなわちSequential Scalingです。これは、前述のBest-of-NやTree SearchなどのParallel Scaling手法に対応します。 O1がどのようにそれを実現したかは不明です。コミュニティではMCTSを使用した、あるいは少なくとも採用したと推測されていますが、詳細は不明です。しかし、純粋なルールベース強化学習をLLMに適用することに初めて成功したR1については分かっています。さらに重要なのは、R1は(O1と比較して)はるかに高速だったことです。さらに重要なのは、タスクの範囲を複雑なタスクからあらゆるタスクに拡張したことです。これがR1の最も印象的な特徴です。O1は複雑なタスクでは遅いため、ユースケースが限られているように見えますが、R1はあらゆるタスクで高速であり、LLMを新たなレベルに引き上げました。さらに、R1はオープンソースです。 总的来说,R1给LLM在推理方面带来了极大的变革,这是他在后训练上创新体现出来的结果,这种边推理边思考边优化的方式使得LLM离“人”更近了一步。R1之前,LLM有人的能力,但用的时候还是个模型;R1之后,LLM不但有人的能力,用起来也更像人。 其他影响最后简单谈谈对从业者和行业的影响。我在《ChatGPT原理与应用开发》、《ChatGPT 开发指南:Hugging LLM Hugging Future | Yam》、《ChatGPT 影响冲击:职业、行业与产业| Yam》等等文章以及很多分享中多次提到过相关内容。对于整个开发范式,确实影响不大,甚至会进一步深化,毕竟LLM能力进一步得到了提升。对于NLP算法这个职位也依然是类似观点,但稍微有点不一样了,主要是R1这波给的太多了,给算法指明了新的路径。其实现在的所谓LLM工程师基本来自两波:一大波之前的NLP算法工程师,LLM新技术出现后跟进的;一大波转行或新加入的。不过真正搞算法底层研发的职位注定会越来越少,大部分人还是得老老实实搞应用,包括我本人。但是搞应用的门槛慢慢降下来了,没办法,太火了,人太多了,相关的研究、工具如雨后春笋,虽然质量参差不齐,但行业整体确实欣欣向荣,大浪淘沙,自然而然会有优质内容慢慢浮现。对算法工程师,尤其是LLM相关的算法工程师来说,只懂算法怕是难以应付以后得局面;退一步说,算法工程师你不也得先是个工程师么。LLM以前,只懂一点算法,能跑个模型还可以吃到红利,LLM之后这样的红利怕是会逐步消失殆尽。既是坏事,也是好事,看你怎么理解了。 要約本文比较详细地介绍了DeepSeek R1及其相关的技术,我们深刻感受到了RL的力量和魅力,更深刻感受到了R1的创新和强大。也难怪ai.com会把链接指向DeepSeek,人家不光有详细的技术报告,还把模型都开源出去了。真的很了不起。 说起来,本文还有个背景,最近偶尔在网上看到有一些行外人士说R1是蒸馏的ChatGPT,还煞有介事的做了LLM的科普视频。看完之后发现视频做的不错,但其中很多观点其实是错误的。令人意外的是,评论区大部分人都是无脑追捧,居然说是全网最好的科普。当然也不乏部分行业人士评论作者的偏颇之处,不过压根没人理会。无论是尬吹还是尬黑,我个人都比较反感。所以本文既是一篇R1相关的技术总结文章,也姑且可以算是一篇(稍有难度的)科普文章。我相信即便有读者无法读懂全部内容,但至少一部分内容还是可以看明白的,我想这就够了。当然,个人能力所限,文章也可能有不准确、不完善的地方,也欢迎读者指正。 最后,我写的很爽,希望你也能读的爽。我们就用分享时最后的个人观点来结束本文:R1发迹于OpenAI-o1,但超越了o1。他提升了LLM的整体能力,让模型真正在推理时进行自我反思和验证,这当然适用于复杂问题,但很多日常普通场景也能受益,AI更加像人。这是R1对整个行业的贡献,其作用不亚于ChatGPT的发布。 付録付録1笔者曾提到强化学习的相关文章,有些内容可能很幼稚甚至不对,还望读者海涵。
博客仓库:https://yam.gift/,以上文章均可在里面找到。 いいね! (3件のいいね!)↓ |
過去 2 か月間の徹底的な検討に基づいた、DeepSeek R1 の包括的な概要です。
関連するおすすめ記事
-
謎の「レッサーパンダ」モデルが一夜にして話題に:ランキングでFluxとMidjourneyを上回る
-
トップ AI カンファレンス ICML が、アルゴリズムも実験もない論文を受理しました。
-
マルチモーダルDeepSeek-R1:ベンチマークでGPT-4oを上回り、モーダルペネトレーションによりテキスト推論能力を強化!北京大学と香港科技大学によって開発され、オープンソース化されました。
-
完全ガイド: DeepSeek を効果的に使用する方法 – すべてが 1 つの記事にまとめられています!
-
ファーウェイの元幹部である蘇静氏がホライゾン・ロボティクスに登場し、4年ぶりに再びこう語った。「自動運転は宣伝文句だけでは生き残れない。」
-
Natureのサブジャーナルに掲載されました!華中師範大学は、AIを活用して分子断片を正確に分割し、44種類の薬物/農薬分子を生成するDigFragを提案しました。