|
大規模モデルの時代において、よくある不安の原因は「どのように実装するのか?」「どこに実装するのか?」です。 最も注目を集めている企業であるOpenAIは、最近、資金危機に直面していると報じられ、現在、新たな10億ドルの資金調達を模索している。 しかし中国にはそんな会社がある。 同社のマルチモーダル大規模モデルは、複数の信頼できるデータセットで OpenAI を上回っただけでなく、数多くの実際のアプリケーションを通じて、大規模モデルは大規模言語モデルに限定されず、大規模ビジュアルモデルとマルチモーダル大規模モデルが業界でさらに大きな可能性を秘めていることを実証しました。 この企業こそが、かつて「A株市場初のAIビジョン銘柄」として知られていたGeling Visionです。今、同社は大規模モデルの応用におけるパイオニアという新たな姿勢で、世間の認識を一新しています。
... これらの成果の背後には、Geling DeepVision の大規模モデル技術における進歩があります。
その中で、Unicom v2関連の論文がAIのトップカンファレンスECCV 2024に選出されました。 「大規模モデル」という用語は現在では制限なく使用されていますが、通常は「大規模言語モデル」を指します。 しかし、Geling DeepVisionの事例からもわかるように、大規模視覚モデルやマルチモーダル大規模モデルは、既存の視覚AI市場において依然として大きな可能性を秘めており、参入障壁も高いままです。 マルチモーダル技術は従来の視覚 AI にどのような変化をもたらすのでしょうか?Geling Visionは2022年に早くも独自の大規模視覚モデルの開発を開始したが、当時は実用化を推進する上で依然としてボトルネックに直面していた。 大規模モデル、Transformer、スケーリング則など、今日ではよく知られている概念は、当時はまだ業界のコンセンサスを得ていませんでした。当時の主流のアプローチは、畳み込みニューラルネットワークを継続的に最適化し、モデルを小型化し、理想的にはエッジデバイス上で直接実行できるようにすることでした。 つまり、最先端だが高価な技術である大規模モデルを顧客に受け入れてもらうよう説得するのは困難だったのです。 しかし、ChatGPTの出現によってすべてが一変しました。 一方では、直感的な人間とコンピュータの対話を通じて、コンピューティング能力とパフォーマンスの正の相関関係を一般の人々に実証し、人々は最終的に「多くのコンピューティング能力を投資することによってのみ、望ましい結果を達成できる」ことを認識します。 一方、ハードウェアもTransformerアルゴリズムへの積極的な適応を始めています。例えば、NVIDIAはHopperアーキテクチャGPUに初めて専用のTransformerエンジンを導入しました。 ある意味、 ChatGPT はすべての AI 企業に市場を教育する役割を果たしました。 視覚 AI は、言語モデルと同様に、この段階で「モジュール型」から「統合型」へのパラダイムシフトを経験しました。 検出、セグメンテーション、分類などの従来のタスクでは、複雑な特徴エンジニアリングとネットワーク構造の設計が必要ですが、大規模なビジュアル モデルでは、統合された Transformer バックボーンを使用して、画像から特徴、そしてアプリケーション出力までのエンドツーエンドのマッピングを直接学習します。 Geling Visionが自社開発した大規模ビジュアルモデル「Unicomシリーズ」は、まさにこの変革の成果です。ビッグデータと計算能力をスケールアップすることで汎用性を強化し、モデルが世界を統一的に「理解」し「一般化」することを可能にします。 ビジュアル ビッグデータ モデルによって AI が「世界を見る」ことが可能になれば、それを言語モデルと組み合わせることで AI は「世界を理解する」ことができるようになり、アプリケーションの境界が大きく広がります。 Geling Vision が長年深く関わってきた銀行セキュリティ業界を例にとると、カメラ映像に人々が争っているかどうかを AI がどうやって判断できるのでしょうか。 これには、動作認識や視点遮蔽の推定など、多くの課題が伴います。AI 1.0時代では、複雑なルールと閾値の設計が必要であり、データサンプルの収集も困難だったため、膨大な作業量と限られた効果しか得られませんでした。 言語モデルが追加されたことで、ビデオフレームを連続的に入力してシーンを説明するだけで、モデルは意味レベルからそれが戦闘行動であるかどうかを判断できるようになります。 「マルチモーダルコンピューティングの利点は、様々なロングテールかつ複雑なシナリオに直面した時に顕著になります」と、Geling VisionのエンジニアリングR&D担当副社長である周睿氏は述べています。「これまで想像もできなかったアプリケーションが可能になります。」 同様に、工業品質検査の分野では、欠陥の種類ごとにデータを収集・ラベル付けする際に、コストがかかり、汎用性が低いという問題がありました。さらに、稀な欠陥については、データの総量が不十分という問題もありました。 汎用視覚モデルは、少数のサンプルから学習し、様々なシナリオを一般化する能力を備えています。言語モデルのマルチモーダル生成パラダイムと組み合わせることで、AIは欠陥をインテリジェントに識別するとすぐにテキストによる説明を提供し、現場スタッフの参考資料として活用できるようになります。 マルチモーダル大規模モデルは、個々のタスクにおける推論および生成機能に加えて、システム全体にわたるタスク割り当ての「ルーティング」メカニズムとしても機能します。 例えば、ある銀行の1万以上の支店をカバーするGeling Visionのソリューションは、3層アーキテクチャを形成しています。本店は大規模モデルを用いて汎用モデルを学習し、それを全国の支店に配布します。各地方支店は、それぞれの業務特性に合わせてモデルを定期的に微調整・最適化します。支店は、地方支店から配布されたモデルサービスを直接利用します。 映像構造化においては、エッジ処理ユニットが人、車両、物体などの対象物に関するリアルタイム情報を抽出し、アップロードする役割を担います。複雑なシーンで識別が困難な場合は、中央処理装置に情報が送られ、二次認識が行われます。クラウドは、マルチモーダルな大規模モデルを活用し、シーンの内容をセマンティックな観点からより包括的に理解します。 さらに、同行はマルチモーダル・ビッグデータモデルの強力なデータ集約能力とセマンティック理解能力を活用し、これまで断片化していたモニタリングデータも統合しました。現在、支店やシステム間でデータとコンピューティング能力を柔軟に配分し、本部・支店からの様々なアドホックなニーズに迅速に対応できる、銀行全体の「AIプラットフォーム」の構築に取り組んでいます。 このアーキテクチャは、断片化されたマルチモーダル データを活用して大規模なモデルを段階的に学習および改善できるため、銀行グループ全体の AI プラットフォームが、常に進化する「中央脳」のようになります。 弱教師学習が視覚のスケーリング則を解明Geling DeepVision の大規模ビジョン モデルの進化は、自社開発のビジョン ベース モデルである Unicom の開発から始まりました。 初期のv1バージョンでは、顔認識の特徴学習法を参考に、ネットワークをViT構造に直接変更し、顔から一般画像4億枚にデータを拡張することで、当時の最高の対比学習モデルを超える精度向上を実現しました。 ただし、テキストとは異なり、画像データには高密度の意味情報が自然に含まれていないため、注釈なしで「次のトークンを予測する」タスクを通じて教師なし学習に使用できます。 大規模なビジュアルモデルデータの規模を拡大し、注釈なしでより多くの画像データを有効活用するにはどうすればよいでしょうか。 Geling DeepVisionチームは、新しい弱教師ありアプローチを段階的に検討してきました。まず、特徴クラスタリングモデルを用いて、類似した画像を自動的に同じカテゴリにグループ化します。次に、クラスタリング結果に基づいて、各画像に学習目標として「ソフトラベル」を割り当てます。 このアプローチは、ラベルのないデータに豊富な意味情報を注入します。 具体的には、DeepVision は、画像内の異なる粒度の視覚信号を考慮するために、クラスタリング ステップで各画像の補助クラス ラベルとして複数の最も近いクラスタ センターを選択するマルチラベル クラスタリング識別(MLCD) 手法を開発しました。 これに関連して、マルチラベル分類における曖昧さを排除するための損失関数も設計しました。 クラス内類似度とクラス間類似度の相対的な差を縮小することで最適化を行う従来のマルチラベル損失関数とは異なり、本論文では、クラス間類似度の最小化とクラス内類似度の最大化という2つの追加の最適化目標を導入します。これにより、正のクラス損失と負のクラス損失をエレガントに分離し、決定境界における曖昧性を低減できます。 チームはより大規模なモデルとデータセットで実験を行い、提案された方法の有効性とスケーラビリティをさらに実証しました。 Unicom v2はこのアイデアに基づいており、データ規模とパラメータ規模をさらに拡大し、新たな高い精度を達成し、複数の記録を更新することに成功しました。 Unicom の強力な一般視覚理解機能と言語モデルを組み合わせることで、 DeepVision-7B マルチモーダル大規模モデルが形成されます。 このモデルは、従来の単一グラフの質問応答で非常に優れたパフォーマンスを発揮するだけでなく、マルチグラフ推論や増分グラフテキスト学習などの最先端のタスクでも大きな可能性を示しています。 Geling Visionが2022年にViTアーキテクチャに基づく大規模ビジュアルモデルの実装を検討し始めたのと同じように、研究チームは現在、Transformerを超えることができる次世代アーキテクチャが何であるかについて考えています。 最近、彼らは主流のViTアーキテクチャをRNNベースのシーケンスモデリング手法であるRWKV (Receptance Weighted Key Value)に置き換えようとし、視覚言語モデルRWKV-CLIPをトレーニングしました。 RWKV は任意の長さのシーケンスを線形時間で処理できるため、推論中の計算の複雑さが大幅に軽減され、より多くのエッジデバイスや端末デバイスでマルチモーダル AI 機能を利用できるようになる可能性があります。 Geling Vision は RWKV-CLIP コードとモデルの重みを GitHub にオープンソース化し、業界が議論して協力して進歩できるようにしていることも特筆に値します。 ビジュアル AI 企業は、マルチモーダル テクノロジーに重点を置くという異なるアプローチを採用しています。現状を見ると、マルチモーダルアプリケーションに参入する大手モデル企業が数多く存在します。 しかし、これらのほとんどは、単純な技術デモ、画像アップロード機能付きのチャットボット、パーソナル AI アシスタントなどの軽量なアプローチであり、業界に実際に浸透するものはほとんどありません。 結局のところ、 AI アルゴリズムを特定の業界のシナリオに深く統合する経験は、短期間で得られるものではありません。 マルチモーダル大規模モデル技術がより多くの分野でその価値を実現するには、ビジュアルAIの専門知識と業界のシナリオを把握する企業も必要です。 大規模なモデルを持ち歩いてアプリケーション シナリオを探すことと、大規模なモデルを使用して長年にわたって培われてきた既存のシナリオをアップグレードおよび変換することは、まったく異なるアプローチです。 歴史を通じて、現代社会のインフラストラクチャとしてのインターネットは、数十年にわたって膨大な量のテキストデータを蓄積し、最終的には大規模な言語モデリング企業の台頭につながりました。 今後、ビジュアルAI時代において、カメラの大量導入と蓄積された画像・動画データにより、マルチモーダルな大規模モデル企業が数多く誕生するでしょう。 言語モデルが最初にこの変革を経験した理由について、Geling DeepVisionは、画像データの分布が不均一であることが原因だと考えています。例えば、上場企業の財務諸表は簡単に入手できますが、オープンデータから企業の画像を大量に入手するのは困難です。 医療用画像や工業用欠陥などの特殊でニッチなシナリオでは、利用できるトレーニング データの量はインターネット コーパスよりもはるかに少なくなります。 しかし、応用価値の観点から見ると、視覚データは現実世界を直接反映しており、都市統治、工業生産、商業運営などの分野における問題点や要求と非常に適合しています。 画像データから価値を抽出するのはより困難ですが、より価値があります。 Geling Visionは、技術革新と業界への深い理解を融合させるパイオニアです。10年以上にわたり、スマートファイナンスや都市ガバナンスといった分野における専門知識を磨き上げ、これらの業界向けの包括的なデジタルソリューションの開発に取り組んできました。 これらのソリューションは、アルゴリズム自体の革新性を考慮するだけでなく、豊富な業界知識と実践経験も取り入れており、独自の競争障壁を形成しています。 この蓄積された経験により、Geling Visionはマルチモーダル大規模モデルの適用においてリーダーシップを発揮しています。業界の課題を理解し、適切な実装パスを設計するだけでなく、迅速な反復作業のためのリソースを動員することも可能です。トップレベルのビジネスモデル設計から最前線でのモデルの適応と展開に至るまで、同社は成熟した方法論を構築しています。 大規模モデルは、産業向けAIアプリケーションの構築において全く新しい技術的パラダイムをもたらします。マルチモーダル知覚、クロスドメイン推論、少量学習といった機能強化は、AIの可能性を根本的に拡大します。 結局のところ、テクノロジーはビジョンを実現するためのツールに過ぎず、産業こそがその応用のための肥沃な土壌です。特定の産業を深く育成することによってのみ、AIは真に発展するのです。 |
Geling Vision のビジュアル モデル プラットフォームは OpenAI を上回り、マルチモーダル展開のスケーリング法則を開拓します。
関連するおすすめ記事
-
今週の金曜日に北京でお会いしましょう!
-
楊志林がキミの新モデルを発表:数学はO1をベンチマークし、中学校、大学入試、大学院入試でトップの成績を達成。
-
インターンシップ証明書や奨学金も支給!大学生・社会人のためのAIウィンターキャンプ開催!
-
Qwen 2.5は100万もの超長コンテキストに対応し、推論速度が4.3倍に向上しました。ネットユーザーの皆様へ:RAGは時代遅れになりそうです。
-
Huawei の Qiankun Intelligent Driving System と HarmonyOS Cockpit が MPV に初搭載されました。新型 Voyah Dreamer がデビューしました。
-
長城汽車の NOA (騒音認識) システムにより全国での運転が可能に。新型ブルーマウンテンが広州モーターショーでデビュー。