618ZXW

世界的に著名なAI科学者、徐珠紅氏がアリババに入社しました!彼は5万件以上の論文を引用しているIEEEフェローであり、以前はSalesforceの副社長を務めていました。

AI の新たな開発は頻繁に行われており、人材の動向はますます重要になっています。

新年最初の大きな人事異動が業界内で注目を集めている。

IEEEフェローでありシンガポール経営大学の終身教授である徐珠紅氏がアリババに入社したと報じられている。

徐珠紅とは誰でしょうか? 1998年に清華大学コンピュータサイエンス学部を卒業し、学士号を取得後、香港中文大学で修士号と博士号を取得しました。彼の論文はGoogle Scholarで5万回閲覧されています。

マルチモーダル事前トレーニングに関する彼の多数の論文は、業界における大規模モデルの開発に大きな影響を与えており、彼の研究成果は Alibaba の Qwen や Google の RT-2 によって引用されています。

業界では、世界最大のエンタープライズ ソフトウェア ベンダーである Salesforce Group の副社長や、Salesforce Asia Research Institute の創設学部長を務め、Salesforce Asia の人工知能研究システムをゼロから構築しました。

アリババは現在、彼がアリババグループの副社長に就任し、アリババのAI To C事業責任者であるウー・ジアに報告し、AI To C事業のマルチモーダル基本モデルとエージェント関連の基礎研究および応用ソリューションに重点を置くことを確認しています。

徐珠紅とは何者ですか?

アリババ入社前は産業界と学界の両方で20年以上の経験を持ち、南洋理工大学とシンガポール経営大学で教授を務めていました。

研究分野には、機械学習の基礎研究と、マルチメディア情報検索、コンピュータービジョン、ビッグデータ分析、ソーシャルメディア、インテリジェントサイバーセキュリティ、計算金融、スマートシティなど、人工知能の複数の分野における応用研究が含まれます。

Google Scholarによると、彼は人工知能に関するトップレベルの学術論文を300本以上発表しており、それらは5万回以上引用されており、2020年以降では4万回近く引用されている。

彼は、CMU の著名な Xing Bo 教授と同じ年、2019 年に IEEE フェローに選出されました

1998年、彼は清華大学のコンピュータサイエンス学科に入学しました。学士号を取得後、香港中文大学に進学し、修士号と博士号を取得しました。

2007年、シンガポールの南洋理工大学に着任。在学中、LIBOLと呼ばれる機械学習ライブラリのオープンソース化に尽力した。LIBOLには、大規模な機械学習タスクの解決や、様々な新興ビッグデータマイニングアプリケーションのニーズに応えるための、古典的かつ高度なオンライン学習アルゴリズムが多数収録されている。

当時から、彼はすでにテクノロジーとアプリケーションをつなぐ架け橋について深く考えていたことがわかります。

その後、シンガポール経営大学に進学し、2020年に終身在職権を取得しました。

転機が訪れたのは2019 年、彼が正式に業界に参入し、自身の技術的専門知識を産業用アプリケーションに本格的に統合することを決意したときでした。

彼の実際の戦場は、世界最大のエンタープライズ ソフトウェア ベンダーである Salesforce であり、そこで彼は AI の基礎研究と応用分野のギャップを埋めるのに貢献しました。

彼は、マルチモーダル モデル シリーズ BLIP、コード生成ツール CodeGen、汎用 CRM アシスタント Einstein GPT など、いくつかの先駆的な AI プロジェクトと製品を先導しました。

(CRM は顧客関係管理ソフトウェア システムの略です。Einstein GPT は Slack、Sales、Service、Marketing、Commerce、Application Builder をサポートしています。)

もう一つの現実世界のテストは、2023年に彼が大規模モデル技術の波に乗ってAIスタートアップのHyperGAIを設立したときでした。

この期間中、計算コストを増加させることなく世界トップクラスのモデルのレベルを達成することを特徴とした、マルチモーダル基本モデルがいくつかリリースされました。

GPT-4V や Gemini Pro などの大規模言語モデルはテキストに重点を置いていますが、マルチモーダル理解と生成において大きな進歩を遂げており、大きな応用可能性を秘めています。

たとえば、サイズがわずか 4B の HPT 1.5 エンドサイド マルチモーダル モデルは、当時 Microsoft が新しくリリースした Phi-3-Vision (4B) マルチモーダル モデルよりも優れており、複数のベンチマーク テストで GPT-4V のパフォーマンスを達成しています。

いくつかの評価に加えて、このモデルはモバイルデバイス上でも有効性を実証し、画像内の重要な情報を識別することができました。

また、強力な推論能力も備えており、幾何学の問題を理解して解決することができます。

学術面では、深い専門知識と卓越した研究能力により、数々のトップレベルの学術論文を発表しており、その研究成果は産業界からも大きな注目を集めています。

業界では、最先端技術と実用アプリケーションを密接に融合させ、AIの複数の分野でのブレークスルーと実装を成功裏に推進し、学界と産業界をつなぐ架け橋となっています。

マルチモーダル大規模モデルの開発に大きな影響を与える

問題は、このトップクラスの AI 科学者の加入がアリババにとって何を意味するのか、ということです。

Xu Zhuhongの専門分野内で手がかりと答えを見つけるのは難しくありません。

彼の多くの論文の中でも、BLIP シリーズの 2 つの論文が際立っており、合計で 10,000 回以上引用され、BLIP-2 は引用数で常に第 1 位にランクされています。

以前、ある技術ブロガーが彼の研究を特に研究し、GPT-4Vはまだブラックボックスのようなものだと指摘していましたが、BLIPシリーズの研究はさまざまな視覚タスクで最先端のパフォーマンスを示しているだけでなく、ブラックボックスを打ち破る効果的なソリューションになる可能性もあります

2023年、さまざまな大規模言語モデルが登場し始めた頃、業界ではすでにLLMの汎用性と一般化能力をコンピュータービジョンの分野でも実現できるかどうかが検討されていました。

統一された視覚的および言語的フレームワーク、およびそれらを LLM と統合できるフレームワークが、自然な技術的要件になりました。

数ある革新的な手法の中でも、 BLIPは際立っています。BLIPは、視覚言語タスクの理解と生成能力を統合し、教師ありテキストのノイズを低減するキャプションフィルター機構を導入することで、モデルの学習品質を向上させます。

このモデルの中核は、ビジュアル エンコーダー、テキスト エンコーダー、マルチモーダル エンコーダーの 3 つの部分で構成される独自のエンコーダー/デコーダー ハイブリッド アーキテクチャ (MED) にあります。

各モジュールには事前トレーニングの目標があり、3 つのモジュールすべてがこれらの事前トレーニングの目標に基づいて共同でトレーニングされます。

本論文シリーズを含む言語視覚知能ライブラリLAVISは、GitHubで10,000以上のスターを誇り、業界における大きな影響力を証明しています。このライブラリには、X-InstructBLIPやBLIP-Diffusionなど、BLIPの様々な派生ライブラリも含まれています

現在、大規模モデルがさらに発展するにつれ、マルチモーダル機能が中核的な属性として AI のアプリケーションパラダイムを再形成しつつあります。

要約すると、マルチモーダルアプローチは、大規模なモデルを「単機能ツール」から「全知全能のエージェント」へと変革し、その応用シナリオは今後も深化と拡大を続けていくでしょう。

コアは次の 2 つの側面に反映されます。

まず、シングルモーダルモデルの限界を打ち破り、より包括的な認知とインタラクションを可能にします。テキスト、画像、音声、動画といった異種データを統合することで、マルチモーダルな大規模モデルは、人間の認知により近いモデルを構築し、人間レベルのパフォーマンスに近づくことができます。

このクロスモーダルなセマンティックアライメント機能により、AIは複雑なシーンにおける暗黙的なつながりを理解することができ、例えば画像内のメタファーや感情表現の認識などが可能になります。QuarkやTongyiのようなソフトウェアは、インテリジェントツールやチャットボット機能に加え、よりマルチモーダルな機能を統合することで、より洗練された機能を実現し、日常的に活用できる万能AIアシスタントへと進化しています。

より多様で複雑なタスク要件も満たされ、多次元知覚インタラクションにより、AIグラスなどのより多くの端末やハードウェアにAIを実装することが可能になります。これは、アリババのAI to C事業の明確な将来の方向性であると報じられています。もちろん、これらは単なる単一の機能や製品形態に過ぎません。マルチモーダル機能は、より多くのアプリケーションシナリオを実現することを目指しています。

したがって、2 番目の側面は、より多くのアプリケーション シナリオを拡大し、業界の生産性を解き放つことです。

例えば、医療分野では、マルチモーダルモデルが医用画像、遺伝子データ、臨床テキストを統合し、個別化された治療計画の作成を支援します。教育分野では、テキスト、画像、動画、音声を組み合わせたマルチモーダルティーチングアシスタントが、学生の学習スタイルに動的に適応し、没入型の学習体験を提供します。

しかし、上記のシナリオはアリババの計画ではなく、すでに展開されており、「実践による学習」を通じて技術的な反復の可能性を実証した実践的な実装です。

Quarkの実用分野では、同社の「霊芝」学習モデルが大学院入試数学問題でOpenAIの最新O1モデルと同等の精度とスコアを達成し、他の国内モデルをはるかに上回っている。

したがって、マルチモーダル機能とアリババの AI から C へのビジネスレイアウトとの関係を理解することは、徐珠紅が同社に入社した理由を説明するのに役立つかもしれません。

今回、彼は、C エンドの製品とアプリケーションにおける AI マルチモーダル機能のエンドツーエンドのクローズドループ機能を接続したいと考えています。

ユーザーのためのAI技術革新

大規模AIモデルの発展の道筋は、現在、2つの流れにまとめることができます。1つは大規模モデルのより高度な知能化に向けた技術進化であり、もう1つはアプリケーションとユーザー価値・体験を重視したAI技術革新です。アリババのAI-to-C事業、特にQuarkは後者の特徴を示しています。

アリババにとって、徐珠紅氏は人工知能(AI)学術分野のパイオニアであり、業界におけるアプリケーション開発と製品イノベーションの豊富な経験を有しています。特に、Salesforce Asia AI研究システムの構築に尽力しただけでなく、研究成果を実用化へと転換し、複数のAIイノベーションプロジェクトを主導することで、学術成果を商業化へと転換し、AI技術の産業化を推進しました。

徐珠紅は、学術界と産業界の両方で培った経験により、学術研究における確固たる基盤だけでなく、技術を実用的な製品へと変換する豊富な経験も有しています。この能力はまさに、アリババのAI-to-C事業に必要なものです。

Quarkに代表されるアリババのAI To C事業は、常に大規模モデル機能の実用性を重視し、応用製品主導による大規模モデルの開発とアップグレードを重視してきました。

この製品は「破壊的イノベーション」を狙うのではなく、ユーザーのコアニーズに応える具体的かつ効果的なソリューションを提供することを目指しています。Quarkの大規模モデルの重要な特徴は、パラメータやランキングに依存せず、利用シナリオに基づいた専門的な技術機能を提供することです。これにより、一般知識、ヘルスケア、教育といった分野における垂直型モデルの構築が可能になります。

ユーザー価値の追求こそが、Quark が AI 分野で急成長を遂げた原動力でもあり、Quark は例外なく中国で最も急速に成長し、最もダイナミックで、最も広く利用されている AI 万能アシスタントとなっています。

QuantumBit Think Tankの統計によると、国内AIアプリの最初の10ヶ月間の3日間リテンションデータにおいて、Quarkは40%を突破した唯一の製品であり、累計ダウンロード数が2億回を突破した唯一の製品です。

△画像出典:QuantumBit Think Tank

1年前は比較的控えめだったQuarkですが、急成長を遂げ、今では存在感を増しています。ブランドアップグレードを完了し、今や2億人のためのAI万能アシスタントとなっています。

もちろん、これはテクノロジー、製品、シナリオなど、あらゆる側面の要因が原動力となっている結果でもあります。適切なタイミングと立地条件が整えば、アリババのAI To C事業全体が力強い推進力を発揮し、「人的要因」、つまり人材という面で東風を巻き起こす時が来ています。

徐珠紅氏の入社は、まだ始まりに過ぎないかもしれない。報道によると、アリババのAI-to-C事業は、業界トップクラスのAIアルゴリズム研究・エンジニアリングチームを編成しており、業界トップクラスの人材を多数獲得しているという。

一流の科学者、一流のチーム、そして急速に進歩する AI ビジネスとアプリケーションを擁する Quark と Alibaba の AI To C ビジネス レイアウトは、中国で最も馴染みのあるパラダイム、つまりテクノロジーが製品を推進し、製品がテクノロジーにフィードバックし、最大のユーザー市場の反復で包括的な飛躍的発展を達成するというパラダイムに AI イノベーションをもたらす機会を持っています。

AI はモバイル インターネットではありませんが、ユーザーのニーズと製品エクスペリエンスの価値ラインはシンプルで一貫性があり、変わりません。

参考リンク:

[1]https://raghul-719.medium.com...

[2]https://github.com/salesforce...

[3]https://www.hypergai.com/blog...

[4]https://www.linkedin.com/in/s...

[5]https://x.com/\_akhaliq/status/1620246724672380930

[6]https://github.com/salesforce...