618ZXW

AIに関する最大の懸念は何ですか?当社の技術専門家チームがお答えします(過去のエピソードでは実際の人物による解説も収録)。

2022年末にはOpenAIの大規模モデルChatGPTが正式にリリースされ、2023年には世界的な「大規模モデルブーム」を牽引しました。

GoogleやMicrosoftといった世界的なテクノロジー企業が相次いで自社製の大規模AIモデルを発表する一方、中国企業も「百モデル合戦」を繰り広げ、国産の大規模モデルが次々と登場し、急速に進化を遂げています。大規模モデルの急速な発展は、産業の革新と高度化に貢献しています。大規模モデルの商用化の現状はどのようなもので、新規参入企業はどのような大規模モデルの道筋を選択すべきでしょうか。

2024年はエッジAIにとって飛躍の年となるでしょうか?モデルのトレーニングと推論において、どのような新たな技術的進歩がありましたか?

AI技術の発展をより深く理解し、ユーザーに実用的な問題を解決するためのアイデアや方法を提供するため、アリババクラウドは初のAI関連Q&Aコラム「AI Q&A」を開始しました。各号では、アリババクラウドのAI専門チームがユーザーからの様々なAI関連の質問に回答します。AI製品の使い方、大規模モデルの実装など、どんなことでもお気軽にお問い合わせください。

これまでに 5 人の AI 専門家が番組にゲストとして参加し、大規模モデルの商用化の課題、エッジ インテリジェンスの現状、モデルのトレーニングと推論の技術的なルート、インテリジェント コーディングをすぐに開始する方法など、幅広いトピックを網羅した合計 40 の質問に答えてきました。

次に、オープンソースの大規模モデルにおける最新の技術進歩、ビデオ生成の具体的な問題、デジタルヒューマン技術の実装、GPU コンピューティング能力などについてご質問がある場合は、…

Bo Liefeng – Alibaba Tongyi Lab 応用ビジョン研究室長

彼はアリババ同義研究所の応用ビジョンチームの責任者であり、以前はアマゾンのチーフサイエンティスト、ワシントン大学コンピュータサイエンス・エンジニアリング学部の非常勤教授を務めていました。彼の研究は、機械学習、ディープラーニング、コンピュータービジョン、自然言語処理、音声認識など、複数の分野にわたります。

Zhou Wenmeng – Alibaba Tongyi Lab 研究開発ディレクター

ModelScopeオープンソースコミュニティおよびDashScopeモデルサービスプラットフォームのリードモデルエンジニアとして、シンプルで使いやすいSDKおよびAPIインターフェースの構築を目指し、開発者による大規模なモデルのカスタマイズ、展開、アプリケーション構築を容易にしています。以前は、Alibaba Cloudの機械学習プラットフォーム(PAI)上のアルゴリズムフレームワークを担当し、検索やレコメンデーションなどのコアビジネスをサポートし、複数の事業部門のコアビジネスにサービスを提供、複数のコンペティションでトップ3の成績を収め、EMNLP、CVPR、IJCAIで複数の論文を発表しています。

イベントでは謎のゲストが登場します!専門家パネルに質問したいことがあれば、お気軽にお尋ねください!

参加するには?

1.コラムの公式サイトにアクセスし、「質問を始める」をクリックします。
2.コラムの最新情報を入手するには、Alibaba Cloud の Yunqi アカウントをフォローしてください。
3.コメント欄に質問を残すこともできます。

質問者にはメールで連絡し、プレゼントをお送りします。また、番組チームが回答対象として選んだ質問者には、追加のサプライズも贈られます。

当初の内容からの抜粋

Q: 既存企業と新規参入企業は、どのように適切な大規模モデル化の道を選ぶべきでしょうか? A:上げ潮の時は、山そのものではなく、適切な船を造ることに重点を置くべきです。なぜなら、潮が満ちれば山は水没してしまう可能性があるからです。したがって、モデルを効果的に活用することが最も重要であり、これは既存企業と新規参入企業の両方にとって重要な考慮事項です。まず、ビジネスを徹底的に分析し、知識をカプセル化し、エージェントを用いて表現することが重要です。また、ビジネスアプリケーションシナリオがリアルタイムかオフラインかを理解することも不可欠です。これは、モデルの選択とエージェント開発に影響を与えるからです。

Q: AIGCコンテンツの独創性とパーソナライゼーションを維持しながら、単調なコンテンツにならないようにするにはどうすればいいのでしょうか? A:現在、eコマースでは主に2つのモデルが活用されています。1つは、商品へのタグ付けやコメント抽出といった言語モデルを活用するモデルです。もう1つは、リッチメディアなどのチャネルを通して、生成したコンテンツを直接配信するモデルです。AIGCコンテンツ生成において最も重要なのは、その正確性です。理想としては、コンテンツを変えたくない場合は、変更を避け、可変性を最大限に高めることです。制御可能な生成こそが、私たちが目指す方向性です。

Q:AI生成動画の技術的課題は何ですか?また、商業化の可能性は? A:動画生成は2種類に分けられると思います。1つはテキストベースの動画生成に似ており、セマンティクスに基づいて動画を生成します。もう1つは動画コンテンツの編集です。現在、特に人体や表情の編集分野で、動画編集の需要が高まっています。1つのアプローチは人体の動きに基づいて映像を駆動するもので、もう1つは顔に焦点を当て、上半身のジェスチャーも含めて顔全体の表情を駆動します。2番目の技術的ルートは、動画編集を制御する上で大きな商業的可能性を秘めていると考えています。そのため、私たちはこの分野にさらに注力し、テキストベースの動画生成と組み合わせることができると考えています。

Q: 大規模モデルをエッジデバイスに展開する際の最大の課題は何ですか? A:現在、エッジデバイスにモデルを展開する際の大きな課題は、パフォーマンス、リソース、消費電力のバランスを取ることです。携帯電話、PC、さらには自動車であっても、コンピューティング能力とメモリには限りがあります。精度要件はクラウドに劣らず厳しく、シナリオもより複雑です。大規模モデルを使用するとメモリと推論速度が不足し、小規模モデルを使用すると全体的なパフォーマンスが低下します。現在、小規模モデルと考えられているモデルは、本質的には非常に大規模なモデルであり、リソース消費と推論パフォーマンスに大きなボトルネックが生じています。

Q: モデル推論における最新の技術的方向性とブレークスルーは何ですか? A:モデルの展開と推論パフォーマンスにおける主な課題は、もちろん、モデル自体の規模です。モデルとコンテキストの規模は依然として拡大しており、ハードウェアの計算能力とメモリの成長率をはるかに上回っています。そのため、モデル展開の重み、コンテキストの圧縮、計算の高速化、分散アーキテクチャに基づくスケーラビリティに対する要求が非常に高くなっています。今日、大規模な言語モデルは通常、非常に包括的な理解、推論、および生成機能を備えており、同じモデルであっても、多くのシナリオにわたるさまざまなドメインの問題を解決できます。モデルの展開と推論計算では、多様なシナリオが多様なパフォーマンス要件と計算特性をもたらすため、モデル推論エンジンとモデル展開プラットフォームは非常に包括的な機能を備えている必要があります。

Q: モデルの学習には高額なサポートが必要です。学習中や微調整中の学習コストを削減するために、学習パフォーマンスを向上させるにはどうすればよいでしょうか? A:まず、最適化の目標を決定する必要があります。一般的に、最適化の目標はトークンのバッチを学習するのにかかる合計時間であり、具体的な指標はトークン/秒です。
ハードウェア用語では、トークン/秒は基本的にハードウェアリソースの有効利用率、つまりMFU(Mean Functional Fusion)指標を指します。計算負荷が決定したら、どのように最適化すればよいでしょうか?モデル学習におけるボトルネックと、各ハードウェアユニットのスループットに基づくパフォーマンス最適化の可能性を理論的に予測する必要があります。具体的には、計算、通信、GPUメモリという3つの主要な方向から始めることができます。

計算の観点から見ると、演算子はメモリ集約型演算子と計算集約型演算子に大別されます。メモリ集約型演算子の計算時間はメモリアクセス時間と関連しているため、演算子の実行時間はアクセスされるメモリ量とメモリ帯域幅から理論的に推定できます。計算集約型演算子の計算時間は、ピーク時の計算能力と計算負荷に基づいて推定され、実際の実行時間を比較することで、各演算子の割合と最適化空間を評価することができます。
ビデオ メモリに関しては、モデルが占有するビデオ メモリの量は、モデルの構造とアクティベーションのサイズに基づいて理論的に推定する必要があり、これは、使用される分散戦略、オフロード戦略、およびその他のビデオ メモリ最適化戦略と組み合わせる必要があります。

通信に関しては、分散戦略に対応する演算子を考慮する必要があります。なぜなら、それぞれの理論的な通信帯域幅が異なるためです。マシン内およびマシン間の実行速度も、マシンの帯域幅に基づいて理論的に推定する必要があります。このように通信時間を推定した後、計算時間、計算演算子と通信演算子間の依存関係に基づいて、演算子が重複できるかどうかを推定できます。重複が良好でない場合は、カバーされていない通信の割合を推定する必要があります。これは、分散戦略の改善に役立ちます。

これらのボトルネックを特定し、最適化の機会を決定し、評価データが利用可能になると、特定のボトルネックに対処できるようになります。

Q:AIプログラマーとはどのような製品形態ですか?同義霊馬との関係は? A:ヒューマンマシンインタラクションモードは3段階に分かれています。第一段階はヒューマンマシン協調で、人間が主体となり、機械が補助的な役割を果たします。これをコパイロットモードと呼んでいます。次にエージェントモードに入り、単一のエージェントがテストケースの作成などの小規模なタスクを自律的に完了します。最後に、マルチエージェント協調モードでは、非常に複雑なタスクを完了できます。
AIプログラマーは、マルチエージェント協調アーキテクチャに基づいて開発された製品です。人間とコンピュータのインタラクションモードは質的変化を遂げ、人間の支援による機械主導型へと移行しました。このプロセスにおいて、人間は主に要件を提供し、AIプログラムの動作を迅速に修正し、最終結果を検証します。プログラミングの生産性は飛躍的に向上し、質的飛躍を意味します。Tongyi Lingmaは、第一段階であるCopilotモデルの典型です。真にマルチエージェントまたは機械主導型段階に到達した時、製品の形態は間違いなくAIプログラマーとなるでしょう。

Q: 市場には多くのインテリジェントコーディングツールが存在します。開発者はどのような基準でツールを選んでいるのでしょうか? A:私たちの観察によると、コードアシスタントIDEプラグインのプログラマーにとっての第一の要件は、高い採用率を誇る正確性です。第二に、コード生成が十分に高速で、遅延が少なすぎないこと。第三に、社内標準や個人の開発習慣に統合できるかどうか。そして最後に、セキュリティも考慮する必要があります。

Q: コード用のRAGナレッジベースとは何ですか?コード記述の精度を向上させるために、どのように管理すればよいですか? A:拡張検索は、最近エンタープライズ版でリリースした主要機能です。拡張検索には2つの種類があります。1つ目はコード補完用のRAGで、主にコードの継続を支援します。既存のビジネスロジックを模倣してコードを生成したり、既存の自社開発コンポーネントライブラリやリソースフレームワークに従ってサービスを生成したり、既存のAPI呼び出しパラダイムに従ってサービスを生成したりできます。

コードを書く際には、社内のナレッジベースから類似のコードを自動的に取得します。2つ目の方法は、社内ナレッジQ&Aです。社内のR&D文書やAPI定義文書をアップロードできます。 #team docsを使用するだけで、大規模モデルが社内のナレッジベースをリアルタイムで検索し、特定の質問に適切なソリューションを組み合わせます。

Q: インテリジェントなコーディングアシスタントは、開発者がコードをウォークスルーすることで、どのようにコードを素早く理解するのに役立ちますか? A:多くの開発者は、コード全体の意味を素早く理解するために、コード解説機能を利用しています。コードを選択するだけで表示されるシンプルなコード解説に加え、 「@workspace」機能では、大規模なモデルを使用してライブラリ全体をウォークスルーし、対応する解説を表示できます。ウォークスルーの対象となるファイル、クラス、またはディレクトリを指定することにより、コードを素早く理解するのに役立ちます。