|
明日は春節の始まりです。旧年を清め、新年を迎える時期です。いつもと違うことをしてみましょう。 ここでは、2025 年を迎えるにあたり、AI テクノロジーのさまざまな分野における注目のトレンドを簡単に紹介する「新年の展望」をご紹介します。 ヒューマノイド ロボットや AI グラスから推論モデルや AI コーディングまで、今年最もエキサイティングでトレンドとなっている 8 つのトピックを取り上げ、新年に向けて貴重な洞察を提供します。
これは年末から年始にかけて世界各地で開催された各種展示会、フォーラム、ラウンドテーブルを視察し、産業界、学界、研究界の数多くの機関を訪問した編集チームの洞察に基づく、業界全体の変革動向です。 ぜひ皆様も一緒に楽しんで、参加して、観察してください。 これを AI を活用した大晦日のディナーとみなさないわけにはいかないでしょう (冗談です) 01 製品側パート1:ヒューマノイドロボット 2021年の第1回テスラAIデーでイーロン・マスク氏が人型ロボット「オプティマス」を発表したことを出発点として、過去3年間を振り返ると、世界的な大手企業が投資を増やし、スタートアップ企業が参入するなど、この分野は徐々に熱を帯びてきました。 さらに、2023年以降、AI大規模モデル技術の進歩とシミュレーション環境の改善に伴い、ヒューマノイドロボットの開発が身体化知能のさらなる発展を促しています。中国科学院院士の姚其志氏も、ヒューマノイド形態が汎用身体化知能の実現に最も適した形態であるとの見解を示しています。 その結果、人型ロボットが爆発的に増加し、構想から現実へ、そして研究室から社会へ急速に普及しました。 これまでのところ、ヒューマノイド ロボットのハイライトは間違いなく今月初めの CES 2025 であり、Huang (Jensen Huang) がヒューマノイド ロボットのドリーム チームを披露してショーの幕を開けました。 彼の後ろには「私と同じくらいの大きさ」の人型ロボットが14体も並んでおり、それは壮観だった。 14 台のヒューマノイドロボットのうち 6 台は中国製です。 1 週間前、北京で NVIDIA のロボティクスおよびエッジ コンピューティング担当副社長は、ロボティクスの専門家、研究者、機械エンジニア、テスト担当者がロボット ソリューションをより簡単に開発できるようにするプラットフォームを構築していることを明らかにしました。 すべてが加速しています。 そしてその潜在力は明白だ。マッキンゼーのレポートによれば、世界のヒューマノイドロボット市場は2030年までに12~16兆元に達する可能性がある。 そして、ちょうど始まった2025年は、ヒューマノイドロボットの大量生産の元年になるかもしれません。 国際的には、テスラのオプティマスが今年中に少量生産に入ると予想されており、マスク氏は2026年までに大規模生産を開始すると大胆に予測している。国内では、智遠ロボティクスが今月初め、731体のヒューマノイドロボットが正式に生産ラインから出荷されたと発表している… パート2:AIグラス 2024年半ば、レイバンメタは100万台以上を出荷し、世界のAIメガネ市場に完全に火をつけました。 業界では「メガネはAI機能の最も重要な担い手の一つであるべきだ」というコンセンサスが広がっています。AIメガネの祭典とも言えるCESを例に挙げましょう。不完全な統計によると、CESでは50台近くのAIメガネが展示され、その中には少なくとも14社の中国メーカーの製品も含まれています。 国内外のメディアやKOLによるレポートや展示会視察に基づくと、すでに発表されているAIグラスは、大きく分けて以下の3つのカテゴリーに分類できます。
こうした激しい競争は業界全体の注目を集め、特に先駆者であるMetaは当然ながら注視していました。 報道によると、 Metaの複合現実製品チームの中核メンバーが最近シリコンバレーで、100種類のメガネを競い合った中で最も感銘を受けた製品の一つは、ハリデー(映画『レディ・プレイヤー1』に登場するゲーム「オアシス」の創設者の名前でもある)と呼ばれるAIメガネだと述べたという。 彼は、ハリデー氏独自の画像化手法に魅了されたと説明した。ハリデー氏は、複数のレンズを用いて光を反射させるのではなく、フレームの内側に光学モジュールを配置し、AIから必要な情報をユーザーの網膜に直接投影するDigiWindowディスプレイ技術を採用している。 これにより、他のAIグラスに見られる虹模様や光漏れなどの問題を回避し、情報取得の効率も向上します。 この点が、現在販売されている他のすべての AI グラスとの違いです。 現時点では驚くべきことではない事実がある。CES終了後の 1 か月間で、AI グラスをめぐる注目と議論は高まり続けたのだ。 一方で、展示会の強い影響力はロングテール効果をもたらし、他方では、複数のブランドのAIグラスが出荷を開始し、ユーザーからのフィードバックやレビューも容易に入手できるようになった。 激しい競争の中、ハリデーは2日前にも注目を集めた。世界最大のクラウドファンディング・プラットフォームであるキックスターターで、ハリデーはわずか72時間で137万ドル(約992万6000元)以上を調達し、資金調達目標を6861%上回り、AR/AIグラスのクラウドファンディング・プロジェクトとして史上最大の新記録を樹立した。 CES で業界内で輝き、クラウドファンディング コミュニティから認知を得た同社の成功の理由は、次のような独自の自己ポジショニングにあるのかもしれません。 これは電子消費者製品ではなく、ファッショナブルなテクノロジー製品です。 簡単に言えば、製品にはAI機能がありますが、まずは「普通のメガネとして優れている」という条件を満たす必要があります。 「素晴らしい」とは、快適な装着感(市場最軽量の35g+12時間以上のバッテリー寿命)、スタイリッシュで美しい外観、視力矯正(無料のメガネが付属)など、日常的に着用できる能力に反映されており、これに基づいて「スマートグラスで意味のある機能のみを開発する」ということです。 さらに、携帯電話の機能を模倣しないために、ハリデーは生産性のシナリオに焦点を当てています。ユーザーの日常生活に統合するために、従来のインタラクション形式にリングインタラクション形式を追加しました。これにより、携帯電話に依存せず、ユーザーが群衆の中で仮想会話する必要がなくなります。 (人が大喜びしている.gif) 興味深いことに、ハリデーは中国の最大手コンタクトレンズメーカーの支援を受けている。 国産カラーコンタクトレンズブランドMoodyの中核チームによってインキュベートされ、独立運営されており、同社のCEOもMoodyの創業者兼CEOであるCi Ran氏が務めています。一方、 DigiWindowの技術は、シンガポールのAIハードウェア統合サービスプロバイダーであるGyges Labsから提供されており、世界最小・最軽量の近眼ディスプレイ光学モジュールをHallidayのメガネに搭載しています。 △ハリデーCEOシラン氏、画像出典:YouTube おめでとうございます!レースはまだ始まったばかりですが、すでにRay-Ban Metaの制約から抜け出し、これまでの経験に縛られなくなった人もいます。 2025年、ハリデーを代表として、AIグラス業界は新たな最先端イノベーションを目撃し始めました。ハリデー自身に焦点を当て、アイウェア市場の視点と経験を活かして、AIグラスのユーザーエクスペリエンスを大きく前進させました。 パート3:インテリジェントドライビング ジェンセン・フアン氏のCESスピーチの後半には、今でも広く議論されている要約がありました。 世界には、緑地(開発地)を必要とせず製造でき、ブラウンフィールド(未開発地)に最適な特性を持つロボットが3種類あります。 これら 3 種類のロボットには、自動運転車 (およびヒューマノイド ロボット) が含まれます。 レベル 4 の自動運転はまだ遠い将来ですが、インテリジェントな運転は自動車業界における高級車の新たな基準となり、技術の平等化に向けた新たな方向性を示しています。 2024 年、インテリジェント ドライビングは、エンドツーエンドで 2 つの加速的な再編を経験しました。
これを基に、L2+ エクスペリエンスは向上し続け、業界は L3 を目指し始め、L3 の技術的基盤、サポート ポリシー、保証メカニズムを徐々に獲得しています。 2025年にはL3の商用化が最前線に立つと予想されています。 同時に、 L4自動運転技術の中核的な応用シナリオとして、ロボタクシーが勢いを増しています。 世界最大手の自転車シェアリング企業であるウェイモは、すでに週当たり15万人以上の乗客を運んでいる。中国では、最近、WeRideとPony.aiが株式を公開した。 さらに、マスク氏はロボタクシーの1キロメートルあたりの運行コストは1元以下になると予測している。24時間365日運行するロボタクシーは、広大な地球上で急速に商業的に実行可能になりつつある。 公開データに基づくクオンタムビットシンクタンクの計算によると、国内のロボタクシー市場規模は2025年に10億9200万元に達する見込みだ。 パート4:AIとのコンパニオンシップ AI コンパニオンシップは、多くの企業にとって AI ネイティブ アプリケーションを展開する上で常に重要な選択肢となっています。 QuantumBit Think Tankのレポートによると、過去1年間に中国の20社がこの分野で合計21の製品を発売しましたが、レポートの統計によると、2024年には中国における新しいAIコンパニオン製品の成長率とユーザーアクティビティは全体的に低下し、勢いが失われていることが示されています。 これは、市場の飽和、ユーザーニーズの変化、技術革新の不十分さなどの要因に関連している可能性があります。 しかし、CES では AI との関わりがオンラインからオフラインに移行し始めていることが明らかになり、AI との関わりに一筋の希望の光がもたらされました。 具体的には、モフリン、ミルミ、ねこじたふふ、ロペット、アイミーなど、さまざまなAI玩具の登場です。 △大人気のミルミ 彼らは AI テクノロジーを使って周囲の環境を認識します。感情をシミュレートする能力を持つロボットもいれば、人間と基本的な表面的なやり取りさえできないロボットもいます。 しかし、AI玩具はトレンドの玩具として人気を博す強い傾向を見せています。その根本的な理由は、AI玩具が提供する斬新な体験と感情的なサポートにあります。 そして、AI コンパニオンシップの物理的な世界キャリアとして、子供ユーザーに「コンパニオンシップ」を提供することにのみ焦点を当てるのではなく、複数の年齢層のユーザーへと範囲を拡大しています。 つまり、2025年までに、インターネットにおけるAIとの交流の成長は鈍化し、仮想アプリケーションから物理的なハードウェアへと移行していくでしょう。ユーザーの交流やインタラクションへのニーズを満たすため、製品デザインはより人間的で感情的なものへと変化していくでしょう。 02 技術面パート5:推論スケーリング 間違いなく、2025 年までにテクノロジー分野ですでに目に見える重要なトレンドには、OpenAI o1 によって引き起こされた新しいスケーリング パラダイムが含まれることになります。 推論スケーリング。 1 年前にテクノロジー分野で広く信じられていた従来のスケーリング法則とは異なり、推論スケーリングは、トレーニング後および推論時の段階での計算入力の重要性を強調し、モデルの推論機能を大幅に向上させます。 これは、大規模なモデル リソースがトレーニング後および推論のコンピューティング能力に移行し始めていることを意味します。 これはまた、新たな競争ラウンドの始まりを意味します。 国内市場だけを見ても、わずか数か月以内に、Kunlun Tech Skywork o1、Ali Tongyi QVQ、Zhipu Huazhang GLM-Zero-Preview、Step R-mini、DeepSeek-R1、Kimi k1.5、Baichuan-M1-previewなど、いくつかの推論モデルが発売されています。 OpenAI の CEO である Sam Altman 氏が、「o1 は推論モデルの GPT-2 モーメントにすぎない」と明言していることは注目に値します。 そしてそれは確かにその通りのようだ。 推論能力の面では、Google の o1 バージョンである Gemini 2.0 Flash Thinking は、他のどのモデルよりも 5 倍速く思考します (リリース時点)。OpenAI の o3 シリーズでは、o1 の 2 倍以上の速度である mini がすでに利用可能です。 一般化能力の観点から見ると、推論スケーリングは大規模言語モデルの分野に限った有効な手段ではありません。O3、QVQ、Baichuan-M1-previewなどは、視覚分野にも一般化できることを実証しています。 モデルコストの面では、DeepSeek-R1 のトレーニング レベルでのイノベーションとエンジニアリングの最適化により、推論モデルの法外なコストと使用料が新たな低水準に達し、シリコンバレーに衝撃を与え続けています。 12月末にリリースされたNVIDIAの新しいGPU B300は、ビデオメモリが192GBから288GBに増強され、長いシーケンスタスクを処理する推論モデルをサポートするのに十分な容量となりました。KVCacheメカニズムにより、レイテンシが大幅に削減され、より大きなバッチサイズをサポートできます。 これは、2025 年以降に登場するすべての推論モデルに対して Lao Huang が提供する物理的なサポートです。 △Grok AI描画 パート6:ビデオ生成 OpenAIが昨年2月にSoraモデルを発表し、動画生成分野に火をつけてから、関連技術は世界中で急速に進歩した。 ビデオ生成技術の進歩の波の中で、2 つの技術力が最も注目を集めています。 1 つは DiT (Diffusion Transformer)モデルで、拡散モデルに Transformer アーキテクチャを導入し、画像生成の品質を大幅に向上させます。 彼の最も注目すべき作品は OpenAI の Sora です。 △SORAの代表作『東京ガール』 もう一つの主要なアプローチは、大量のトレーニング データを分析することで現実世界の物理法則を学習し、シミュレートしようとするディープラーニングや GAN (Generative Adversarial Networks) と密接に関連しています。 彼の最も注目すべき業績は、Google DeepMind の Veo 2 です。 △Veo2の定番技、トマトを切る この分野では、国内市場は海外よりも多様性に富んでおり、スタートアップ企業と大企業がそれぞれの強みを発揮し、連携して技術開発を推進しています。中には、SORAのレベルに匹敵、あるいは凌駕する技術も存在します。 以下に、いくつかのプレーヤーとその製品のリストを示します。
ここで製品について言及する理由は、国内のビデオ生成分野のほぼすべてのプレーヤーが「左に技術の進歩、右に製品の実装」というルートをたどっているためです。 したがって、市場の toC 製品ユーザーからのフィードバックは、ビデオ生成技術の緊急の進歩、さらには革新を推進する重要な要素と見なすことができます。 パート7:AIコーディング GitHub Copilot などの従来の AI コーディングでは、OpenAI の Codex モデルを中核に使用し、単一行のコード補完または関数生成に重点を置いています。 次世代の AI コーディング ツールは、GPT-4o や Claude 3.5 など、AI 2.0 時代の大規模モデルを通じてフルスタック開発機能を実現します。 特に、 Claude 3.5 Sonnet の強力なプログラミング機能のおかげで、多くのスター AI コーディング プロジェクトが登場しました。 たとえば、Windsurf、Bolt、V0、そして最新の1億500万ドルのシリーズB資金調達ラウンドの完了を発表したばかりのCursorは、いずれも昨年半ばにClaude 3.5 Sonnetを統合した後、ユーザー数と評判の両方が急上昇しました。 命令の微調整、コード固有の微調整、マルチタスク学習、多目的損失関数などの AI コーディング機能を強化する従来のスキルに加えて、Claude 3.5 Sonnet の強力なコーディング機能は、モデルが要件を評価し、カスタマイズされたソリューションを生成するのに役立つ長いコンテキスト機能からも部分的に生まれています。 2025 年には、 AI コーディングの背後にあるテクノロジーに新たな探究の道が開かれるでしょう。 o1 と同等のコード機能を持ちオープンソースである Deepseek-R1 が今月 20 日にリリースされました。 AI コーディング機能は、ラベル付けされたデータがほとんどない、トレーニング後の段階での純粋な RL (強化学習) アプローチにより、SFT (教師あり微調整) を必要とせず、大幅に強化できます。プログラミング タスクでは、自動テストを使用してコードの品質を評価します。 要約すると、AI コーディングは最適化のために依然として人間の介入を必要としますが、すでに破壊的な変革を達成しています。 コード補完ツールからフルプロセス開発アシスタントへと進化し、さらには「ローコード」のドラッグアンドドロップから「ノーコード」プログラミングを概念から実践へと移行させるまでに進歩しました。 現在、AIコーディングの基盤技術において、深く探求する価値のある新たな焦点が浮上しています。ベースモデル自体の急速な進歩と相まって、2025年までにレベル3の自動運転のブレークスルーを達成し、全く新しい開発パラダイムを生み出すことは十分に可能です。 第8部:空間知能 空間知能の概念は、「AIのゴッドマザー」として知られるスタンフォード大学のフェイフェイ・リー教授によって2024年に初めて提唱されました。 空間知能とは、機械が三次元の空間と時間で認識、推論、行動する能力を指し、三次元空間内の物体の位置と相互作用を理解するのに役立ちます。 この哲学に従い、フェイフェイ・リーは宇宙情報会社であるワールドラボを設立しました。 昨年12月初旬、同社は一枚の画像からインタラクティブな3DゲームワールドAIシステムを生成できる初の空間インテリジェンスモデルを発表し、空間インテリジェンスの理論から実践への移行の幕を真に開きました。 空間インテリジェンスの詳細をさらに明確にすると、その野望は、仮想世界を操作する空間コンピューティングの能力と、現実世界に到達するインテリジェントテクノロジーの能力を組み合わせることにあります。 したがって、具現化された知能、世界モデル、および 3D 生成も、一般化空間知能の背後にある技術的範囲に含めることができます。 その中で、世界モデルは物理世界の動的シミュレーションを構築し、AI システムが将来の状態を予測し、行動戦略を策定することをサポートすることを目的としています。 現在、この分野には主に 2 つの技術的アプローチが存在します。 まず、例えばGoogleのGenie 2は、動画生成モデルを通じて物理法則を学習し、単一フレームの画像から連続的な行動シーケンスを予測することができます。次に、例えばNVIDIAのCosmosは、強化学習とマルチモーダルデータを組み合わせて、高精度の仮想環境を構築します。 3D 生成テクノロジーは、空間インテリジェンスの開発におけるもうひとつの方向性です。 さらに、3D ガウス スプラッティング、2D 拡散モデルを使用した 3D ジオメトリの最適化、Transformer による 2D 画像の 3D 表現への直接マッピングなど、いくつかの技術的なルートに分かれています。 もう一つこれら 8 つのコースの中には、飛躍の準備ができているものもあれば、すでに実力を発揮しているもの、さらには追い越しの兆しを見せているコースもあります。 製品の「目に見える」側面であれ、テクノロジーの「目に見える」側面であれ、AI は前例のないスピードで私たちの生活を変えています。 整理と在庫確認のプロセスでは、何らかの見落としが発生することは避けられません。 何か抜けや見落としがありましたら、ご容赦ください。また、コメント欄でご指摘・ご議論いただければ幸いです。 最後に、皆様の旧正月が幸せで実り豊かなものになりますようお祈り申し上げます。私も春節の旅行ラッシュで帰省し、休暇を過ごす予定です! |
AI 2025!AIグラスから推論スケーリングまで、注目の8つのトラックをプレビュー
関連するおすすめ記事
-
MWC 2025 ライブ: Lenovo が、初の外側に折りたためる画面や太陽光発電のノートパソコンなど、新しい PC イノベーションを展示します。
-
DeepSeekは一夜にしてBaiduを20年前の状態に戻した。ネットユーザー:これは本当か?
-
たった一言でAIが複数のアプリに指示を出し、あなたの代わりに動いてくれます!AI機能が大幅にアップグレードされたSamsung S25シリーズの中国語版がリリースされました。
-
OpenAIの未来の秘密が明らかに!ウルトラマンは自身の最大の弱点は製品開発だと認める。
-
ソフトウェアは世界を席巻しており、セキュリティはサプライチェーンの観点から考慮される必要があります。
-
清華大学のチームは、インテリジェントな社会統治と研究におけるパラダイムシフトを推進するために、大規模な社会シミュレーター「AgentSociety」を構築しました。