|
DeepSeek は大ヒットとなり、一夜にして新モデルがリリースされました。 マルチモーダル Janus-Pro-7B はリリース時にオープンソースになります。 GenEval および DPG-Bench ベンチマーク テストでは、DALL-E 3 および Stable Diffusion を上回りました。 皆さんはここ数日、DeepSeek のニュースに圧倒されていると思います。 長らくトレンド検索のトップを独占していたが、AI株の先駆けであるNvidiaですら直撃を受け、最大で17%近く下落し、一夜にして5,890億ドル(約4兆2,400億人民元)の損失を出し、米国株の1日当たりの下落率としては過去最大を記録した。 Deepseek の神話は続いており、春節休暇中に全国の人々がそれを経験し、Deepseek サーバーが一時クラッシュしたことさえありました。 同じ夜、アリババの大規模モデル Qwen もオープンソース ファミリを更新したことは注目に値します。 視覚言語モデル Qwen2.5-VL には、3B、7B、72B の 3 つのサイズがあります。 マジで〜杭州では今夜誰も眠れないよ、みんな巨大模型みたいに踊ったり走り回ったりしてるよ。 DeepSeekが一夜にして新モデルをリリース。では、新しい DeepSeek モデルを見てみましょう。これは実際には、以前の Janus と JanusFlow の高度なバージョンであり、継続したものです。 その一人は北京大学で博士号を取得した陳暁康さんです。 具体的には、DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-baseを基盤として構築され、理解と生成のための統合型マルチモーダル大規模モデルです。モデル全体は自己回帰フレームワークを採用しています。 処理には単一の統合コンバータ アーキテクチャを使用しながら、ビジュアル エンコーディングを個別のパスに分離することで、従来の方法の制限に対処します。 この分離により、理解と生成における視覚エンコーダーの相反する役割が軽減されるだけでなく、フレームワークの柔軟性も向上します。 マルチモーダル理解のために、SigLIP-Lをビジュアルエンコーダーとして採用し、384 x 384の画像入力をサポートします。画像生成には、LIamaGenのVQタグを使用して、ダウンサンプリングレート16で画像を離散IDに変換します。 IDシーケンスを1次元に平坦化した後、生成アダプタを用いて各IDに対応するコードベースをLLMの入力空間に埋め込みます。これらの特徴シーケンスは連結され、マルチモーダル特徴シーケンスが形成されます。この特徴シーケンスはLLMに入力され、処理されます。 LLM に組み込まれた予測ヘッドに加えて、視覚生成タスクではランダムに初期化された予測ヘッドを使用して画像予測も実行されます。 チームは、Janus の以前のバージョンの 3 つのトレーニング フェーズと比較して、このトレーニング戦略は理想的ではなく、計算効率が大幅に低下することを発見しました。 これに2つの大きな改訂が加えられました。
さらに、教師あり微調整の第 3 フェーズでは、さまざまなデータセット タイプのデータ比率が調整され、マルチモーダル データ、プレーン テキスト データ、テキスト画像データの比率が 7:3:10 から 5:1:4 に変更されました。 テキストと画像データの比率をわずかに減らすことで、この調整により、強力な視覚生成機能を維持しながら、マルチモーダル理解のパフォーマンスを向上できることがわかりました。 最終結果は、視覚的理解生成における既存の最先端 (SOTA) モデルに匹敵するレベルを達成したことを示しています。 以前のバージョンの Janus と比較すると、短いプロンプトに対してより安定した出力が提供され、視覚的な品質が向上し、詳細が充実し、シンプルなテキストを生成できるようになります。 マルチモーダル理解とビジュアル生成機能に関するより定性的な結果。 DeepSeek は世界中のユーザーを魅了しています。ここ数日、DeepSeek のニュースに悩まされていることでしょう。 これは、技術系の人々から非技術系の人々、さらには遠い親戚に至るまで、あらゆる人が議論する話題です。 杭州の6人の小さなドラゴンの1人であるGame Scienceと同様に、その創設者兼CEO、そして「Black Myth: Wukong」のプロデューサーもWeiboに投稿して支持を表明した。 「一流の技術的成果、6つの大きな進歩」 。 MOSSと名乗るDeepSeekは、『流浪地球』の監督である郭凡の注目も集めた。 わかりました、わかりました。これはつまり、DeepSeek が次の映画の主役をすでに確保したということですか? (Doge) 物語は、つい数日前にオープンソース化された推論モデル「R1」から始まります。低コスト、無料利用、そしてO1に全く劣らないパフォーマンスで、世界中のユーザーを魅了し、業界に激震をもたらしました。 R1 は、Meta GenAI チームの幹部の給与に相当するわずか 560 万ドルのコストでトレーニングされ、多くの AI ベンチマーク テストで OpenAI o1 モデルに到達、あるいは上回りました。 さらに、DeepSeek は完全に無料ですが、ChatGPT は無料チャートに載っているものの、フルバージョンのロックを解除するには 200 ドルの料金が必要です。 その結果、誰もが「あらゆるものを構築する」ために DeepSeek を利用するようになり、DeepSeek はすぐに米国 Apple App Store の無料アプリランキングのトップに躍り出て、ChatGPT や Meta's Threads などの人気アプリを追い抜きました。 ユーザー数の急増により、DeepSeek のサーバーが何度もクラッシュし、公式チームが緊急メンテナンスを実施せざるを得なくなりました。 業界内では、DeepSeekが限られたリソースとコストでいかにOpenAIに匹敵するレベルを達成できるかに注目が集まっています。 数百億ドルから数千億ドル、数十万枚のカードが必要になることが多い海外の大規模なモデルと比較すると、DeepSeek は多くの技術的な詳細におけるコスト削減に重点を置いています。 たとえば、蒸留。R1はR1データセット上で合計6つの小さな蒸留モデルをリリースしており、蒸留バージョンQwen-1.5BはいくつかのタスクでGPT-4oを上回ることができます。 もう一つのアプローチは純粋強化学習です。これはSFT段階を放棄し、数千回の強化学習反復を通じてモデルの推論能力を向上させます。AIME 2024におけるスコアは、OpenAI-o1-0912と同等です。 これは必然的に、OpenAI による最近のデータセンターへの 5,000 億ドルの投資と、高性能 GPU における Nvidia の長年の独占を思い起こさせる。 データセンターを建設するのに 5,000 億ドルを費やす必要があるのでしょうか? AIコンピューティング能力への大規模な投資は必要でしょうか? この議論は資本市場にも波及した。米国株式市場が開くと、NVIDIAの株価は17%急落し、2020年3月以来最大の下落率を記録し、時価総額は6,000億ドル近く失われた。NVIDIA自身の個人資産も一夜にして130億ドル以上減少した。 ブロードコムやAMDなどの半導体大手も大幅な下落を記録した。 これに対し、NVIDIAは「DeepSeekは人工知能における目覚ましい進歩であり、テスト時間のスケーリングの優れた例です。DeepSeekの研究は、この技術を活用して、広く利用可能なモデルと輸出規制に完全に準拠した計算能力を用いて新しいモデルを作成する方法を実証しています。推論プロセスには、大量のNVIDIA GPUと高性能ネットワークが必要です。現在、私たちは3つのスケーリング則、すなわち継続的に適用可能な事前トレーニング則と事後トレーニング則、そして新しいテスト時間のスケーリング則を確立しています」と述べました。 MetaとOpenAIも動揺した。 Metaは、Llamaシリーズモデルの改良を目指し、DeepSeekの技術的詳細を分析するための専用研究グループを設立しました。同社は新年度の計画において、AI開発に少なくとも4000億ユーロの予算を計上しており、年末までにAIコンピューティング能力は130万キロワットに達する予定です。 ウルトラマンはまた、市場の注目を再び集めようと、新モデル o3-mini を ChatGPT で無料で提供することを緊急に発表しました。 新しいモデルのリリースに伴い、DeepSeek に関する議論は継続しています。 DeepSeek の新バージョンは、2025 年 2 月 25 日にリリースされる予定です。 杭州は昨夜眠れなかった同じ夜、同じ杭州。 DeepSeek が新しいモデルをリリースした直後、Qwen もオープンソース ファミリを更新しました。 Qwen2.5-VL 。 このタイトルにはなんとなく『三体』の雰囲気が漂っています。 3B、7B、72B の 3 つのサイズがあり、オブジェクトやエージェントの視覚的な理解、長いビデオの理解とイベントのキャプチャ、構造化された出力などをサポートできます。 (詳細は次回の記事をご覧ください。) P.S.、ついに杭州の六匹の小龍に続き、広東省の三人のAI英雄も登場しました。 (杭州の6匹の小さなドラゴンは、Game Science、DeepSeek、Unitree Robotics、CloudMinds、BrainPower、GroupCore Technologyです) 彼らは、湛江出身の梁文鋒氏(DeepSeekの創設者) 、汕頭出身の楊志林氏(Dark Side of the MoonとKimiの創設者)、そして広州出身のAI学術リーダーの何開明氏です。 Hugging Face リンク: https://huggingface.co/deepse... GitHub リンク: https://github.com/deepseek-a... |
急騰中の銘柄であるディープシークは、一夜にしてエヌビディアの4兆ドルの評価額を吹き飛ばした。大晦日には、新たなマルチモーダルモデルをオープンソース化した。
関連するおすすめ記事
-
イーロン・マスクがテスラのリソースを犠牲にしてOpenAIに挑戦する新しい大規模モデルを発表。直接テストがここにあります。
-
残り2日!第9回中国オープンソースカンファレンスとオープンソース協会10周年記念カーニバルでお待ちしております!
-
北京大学、初の汎用コマンドナビゲーション大型モデルシステムを提案 | CoRL 24
-
150億元の収益を誇る新しい電気自動車スタートアップ企業が閉鎖と破産を発表した。
-
中科ウェンゲは、知川 X-Agent プラットフォームとエレガントなオーディオビジュアル大型モデルのアップデートをリリースしました。
-
Xiaomiのモーターサプライヤーは485億元のIPOを目指している。チームはHuawei出身で、同社の製品はポルシェに使用されている。