618ZXW

DeepSeek の O1 バージョンはセンセーションを巻き起こしており、その数学コードは OpenAI のコードを上回っており、1 日あたり 50 回の無料トライアルが提供されており、後でオープンソース化する計画もあります。

DeepSeek バージョン o1 が登場しました!リリース済みなので、すぐにプレイできます!

このモデルはDeepSeek-R1-Liteと名付けられています。プレビュー版はo1-previewを上回り、より高度な数学およびコーディングタスクにおいてGPT-4oを大幅に上回る性能を発揮します。

DeepSeek-R1-Lite はトレーニングに強化学習を使用し、その推論には新しいスケーリング法則に従った大量の反映と検証が含まれることが分かっています。

推論が長ければ長いほど、パフォーマンスは強くなります。

以下に示すように、AIME ベンチマークでは、計算時間が長くなるにつれてスコアが着実に増加します。

公式声明では、このモデルがまだ開発中であることも言及されています。継続的な改良を経て、 DeepSeek-R1モデルの正式版は、技術レポートの公開やAPIの提供を含め、完全にオープンソース化される予定です

ネットユーザーはこれに不満を抱き、皆自分の投稿をブックマークしてテストし始めた。

ユーザーテストの結果はここにあります。

公式サイトにログインし、 DeepSeekボタンをオンにして、DeepSeek-R1-Liteプレビュー版を体験してください。

デフォルトでは 1 日あたり50 回まで無料で使用できます。

下の人物はモデルを使って次のパスワードを解読しました:

9 2 8 5 (1つの数字は正しいが、位置が間違っている)

1 9 3 7 (2つの数字は正しいですが、位置が間違っています)

5 2 0 1 (1つの数字は正しく、正しい位置にあります)

6 5 0 7 (正しい番号はありません)

8 5 24 (2つの数字は正しいが、位置が間違っている)

予想外に、OpenAI o1-preview はこのテストで誤った回答 (3289) を出しましたが、DeepSeek-R1-Lite-Preview は正しく推論し、正しい回答 3841 を出しました。

一部のネットユーザーも体系的なテストを実施し、それを体験した後の感想は次のとおりです。

数学的能力:このモデルは数学的推論問題において効果的であるように思われます。ベンチマーク結果は、このモデルの数学的推論における潜在能力を確かに反映しています。このモデルは注目に値するでしょう。

コーディングタスク:プログラミング問題を解く際のパフォーマンスはやや低い。例えば、行列の転置を行うbashスクリプトを生成するといった単純なコード問題を解くことができなかったのに対し、O1モデルでは簡単に解けた。

複雑な知識の理解:より難しいクロスワードパズルでもテストしてみましたが、非常に低い結果でした。公平を期すために言うと、このテストではO1モデルでさえ、現代知識の参照が必要となるため、低い結果となりました。

ネットユーザーは最後にこう付け加えた。

このモデルはコーディングと数学のタスクの両方で優れたパフォーマンスを発揮していると考えています。これはおそらく、DeepSeekチームがこれらの領域で明確な最適化を行った結果でしょう。しかし、「推論」のステップにはまだ改善の余地があります。

モデルによっては、推論ステップを生成する際に自己修正が可能で、ネイティブに近い「自己反省」能力を発揮しているように見えるケースもあります。しかし、学習データ、モデルアーキテクチャ、技術レポート/論文の詳細がなければ、これを確認することは困難です。

今後のオープンソース モデルと API に期待しています。

さらに、一部のネットユーザーはテストで、このモデルが三目並べをプレイするのがまだあまり得意ではないことを発見した。

しかし、一部のネットユーザーからは、新しいモデルでは安定してゲームをプレイできるものの、最初の試みで成功することはできないという報告もある。

努力を続けると、実際に正しい結果を導き出すことができます。

さあ、興味のある方はぜひ自分で試してみてください!

公式サイト:https://chat.deepseek.com/

参考リンク: [1]https://x.com/deepseek_ai/status/1859200141355536422 [2]https://x.com/_philschmid/status/1859203470059811298 [3]https://x.com/omarsar0/status...