618ZXW

Ant Financial は AI-to-B を探求し、烏鎮で新しい AI データ合成および生成プラットフォームを発表しました。

11月19日午後、烏鎮サミットでは、業界規模の大規模モデル、身体知能、コンピューティングパワー、チップ、データ合成など、10の画期的な成果が披露されました。中でも、AIデータ合成・生成プラットフォームAIGD(AI Generated Data)は、「データ合成」に注力していることで大きな注目を集めました。アント・ファイナンシャルのAI技術責任者であり、アント天智ラボ所長の李哲氏は、同サミットで次のように述べています。「将来のAIアプリケーションには、自動運転における異常気象や道路状況データ、身体知能のトレーニングに必要な複雑なシナリオデータなど、希少で入手困難なロングテールデータが大量に必要です。こうした状況において、データ合成は極めて重要になります。」

AI開発は高品質データの不足に直面しています。近年、大規模モデル技術の急速な発展に伴い、機械学習は「モデル中心」から「データ中心」のアプローチへと移行しつつあります。高品質データは客観的な世界をより良くシミュレートし、モデルの精度と安定性を向上させることができます。しかし、Epoch AI Researchチームの予測によると、「2026年までにAIモデルのトレーニングに用いられる既存の高品質言語データは枯渇する」とのことです。ガートナーは、2030年までに合成データがAIモデルのトレーニングデータの主なソースとなり、2024年までにAIデータの60%が合成データとなり、シナリオのシミュレーションと予測、リスク軽減に使用されると予測しています。

AIGDプラットフォームは、アント・ファイナンシャルが提出した最初の成果です。このプラットフォームは、インターネットではカバーされていない高品質で価値の高い垂直コーパスデータを大規模に統合することで、テクノロジー企業がAIモデルを学習するのに役立ちます。

AIGD はペタバイトレベルのデータ生成能力を備え、データ生成からトレーニングまでデータプロセス全体の自動化をサポートし、自動化率は 80% で、データ処理の効率と品質が大幅に向上します。

さらに、このプラットフォームは15を超えるデータ合成ツールを開発しており、現在、画像、ビデオ、3Dモデル、マルチモーダル画像・テキスト・ビデオペア、マルチターンダイアログ、音声信号、心拍数およびEEG信号、構造化トランザクションデータなどのマルチモーダルデータを合成して、さまざまなアプリケーションシナリオのAIモデルトレーニングニーズを満たすことができます。

業界関係者は一般的に、「高品質なデータ」こそがAIモデルを産業に深く統合するための重要な基盤であると考えています。それを支える良質なデータがなければ、あらゆるAIアプリケーションは空虚なものになってしまいます。

最近、OpenAIの従業員は、「新しいモデル」は「それほど大きな飛躍ではない」と明かし、その主な理由の一つは高品質なデータの不足だと述べた。今年9月、OpenAIはO1推論モデルをリリースし、強化学習のトレーニングに新たなパラダイムをもたらした。自己ゲーム強化学習を通じて、合成データを用いて大規模モデルをトレーニングすることで、大規模モデルの論理的推論能力を大幅に向上させた。

「データ合成」は、アント・ファイナンシャルのAIGDプラットフォームの主要機能の一つであり、データアノテーションと品質検査機能も備えています。データアノテーションに関しては、人間と機械の協働により、人工知能アルゴリズムが基本情報のほとんどを自動的に識別・前処理することで、事前アノテーションモデルに必要な手作業によるアノテーション処理の量を70%以上削減します。データ品質検査に関しては、メタデータに基づいて様々な粒度でデータ品質統計をサポートし、データ理解を最大限に高め、合成・アノテーションされたデータが期待される品質要件を満たすことを保証します。

アント・ファイナンシャルは今年、大規模モデルによるセキュリティ評価・防御製品「AntSky Detector」や、ディープラーニングによる偽造防止製品「ZOLOZ Deeper」など、複数のAI製品をリリースしました。B2Bサービスに特化したテクノロジー企業として、アント・ファイナンシャルのコア事業は主に「エンタープライズクラウドサービス」「エンタープライズブロックチェーンサービス」「エンタープライズAIサービス」です。李哲氏は烏鎮サミットで、「AIサービス産業の黄金時代を迎えようとしています。アント・ファイナンシャルはAI B2B分野にしっかりと投資し、AIがあらゆる産業に深く浸透していくことを目指します」と述べました。