|
人類の歴史を通して、あらゆる技術革命は産業の高度化を強力に推進してきました。コンピュータービジョンは人間の視覚と同様に機能しますが、カメラ、データ、アルゴリズムを用いて機械が非常に短時間でタスクを完了する必要があります。 1960年代以降、コンピュータビジョンは特徴量エンジニアリングや従来の機械学習手法に代表される技術開発を経てきました。2012年以降、畳み込みニューラルネットワーク(CNN)に代表されるディープラーニングの広範な応用が、コンピュータビジョンに画期的な進歩をもたらしました。 タオティアングループでは、コンピュータービジョン技術をベースにしたタオバオイメージサーチがオンラインになってから丸10年が経ち、ビジュアルアルゴリズム技術の発展と進化を目の当たりにしてきました。 情熱!何を撮影しますか?タオバオにあるものなら何でも、写真を撮る勇気があれば、きっと撮れますよ。 スタンダップコメディアンのフー・ハンが最近のショートビデオで言及した「パイシェン」とは、ちょうど10周年を迎えたタオバオの写真共有サービスのことだ。 △タオバオ商品写真 10年前の2014年を振り返ると、タオバオアプリのホームページでタオバオ画像検索が開始され、人々が画像検索を通じて買い物をする窓口が開かれ、ビジュアル検索の分野に革新的な変化がもたらされました。 10年後の2024年、タオバオはAIに深くコミットし、マルチモーダル技術を活用したプラットフォームのアップグレードを進めています。1日あたりの訪問者数は5,000万人を超え、AIが日常の消費シーンをより深く理解することを目指し、ビデオバーチャル試着サービスもまもなく開始されます。タオバオの技術革新の背後には、たゆまぬ努力で技術を探求し、卓越した才能を発揮するプログラマー集団、淘天集団のタオバオアルゴリズムチームがあります。 △タオバオのコアアルゴリズムモジュール ローマは一日にして成らず、技術的な成果は一夜にして達成できるものではありません。 淘天集団のタオバオ画像検索アルゴリズム責任者である柯思氏は、湖南省出身の細身の男性ですが、驚くほど努力家です。柯思氏によると、どんな技術でも実験段階から産業段階に移行するのは容易ではなく、製品理解に基づくタオバオ画像検索も例外ではありません。深い技術的基礎だけでなく、適切なタイミングで適切な応用シナリオに出会うことで、技術の潜在能力を最大限に発揮できるのです。 タオバオ画像検索を支える技術は、ディープラーニングのゴッドファーザー、ジェフ・ヒントン氏が率いるチームからインスピレーションを得たもので、同氏は2012年に大規模な画像分類コンテストで圧倒的な優位性を持って優勝しました。 柯思は冗談めかして記憶力が悪いと認めながらも、タオバオの画像検索技術の起源、つまりディープラーニングの画期的な進歩をはっきりと覚えている。 2012年、アリババは画像検索におけるディープラーニングの応用において、アマゾンより5年も先駆けて先駆者となった。同年、アリババは世界のeコマース業界で初めて画像検索分野に「飛び込んだ」企業となった。 中国科学院大学在学中、Ke Si 氏はディープラーニング技術、特に視覚アルゴリズムの分野を深く研究し、これが後にアリババで Taobao 画像検索技術に取り組む上での確固たる理論的基礎を築きました。 柯思氏は、タオバオ画像検索プロジェクトの初期の困難な時期を振り返り、「幅広い視覚的アプリケーションに焦点を当てた画像検索ソリューションとは異なり、タオバオ画像検索はより専門的な道を選び、同じ商品の画像を検索する機能を実現することに焦点を当てました。そのため、アルゴリズム設計において前例のない精度を達成する必要がありました」と述べています。 始まりはいつも一番難しいものです。当時、産業界にも学術界にも画像検索アプリケーションの前例はありませんでした。技術チームにとって最大の課題は、画像検索の技術ロジックにおけるブレークスルーを加速することでした。テキスト言語と視覚言語には自然な違いがあり、視覚的なシンボルはしばしば言葉よりも直感的で鮮明な視覚体験をもたらします。簡潔で抽象的な言語では表現できない現実世界の物体に直面したとき、人々は自然と絵を通して表現することを好みます。 画像検索サービスを開始するにあたり、アリババのiDSTビジョンチームは、電子商取引分野における画像分類、物体検出、画像表現技術について、綿密かつ実りある研究を行いました。画像分類技術は、システムが画像内の商品カテゴリーを正確に識別することを可能にし、物体検出は画像内の特定の商品の位置と境界を特定し、識別することを可能にしました。画像表現技術は、各画像の独自性を表現する高次元特徴ベクトルを学習することで、効率的かつ正確な類似マッチングを実現しました。これら3つのコア技術は互いに補完し合い、画像検索エンジンを共同で構築しました。この研究は、タオバオの画像検索アプリケーションシナリオの技術基盤となりました。 一連の厳格な調査、テスト、反復的な最適化を経て、「タオバオ検索」は2014年に正式にリリースされました。それ以前は、従来のテキスト検索方法では、特に消費者が探している商品を言葉で正確に説明する方法がわからない場合、特定の外観やスタイルの商品に対する消費者のニーズを満たすことができないことが多かったのです。 この問題は、「タオバオ写真検索」の登場によって解決されました。写真を撮影またはアップロードするだけで、タオバオ写真検索は、価格やレビューなどの重要な情報を含む膨大な製品データベースから、画像に最も近い製品情報をすばやく見つけることができます。 石を探して川を渡るタオバオの画像検索プラットフォームが始まったばかりの頃、商品検索情報の精度が最大の課題でした。しかし、当時、ディープラーニングの分野はまだ発展途上でした。 膨大な課題に直面しながらも、アルゴリズムエンジニアたちは学び続けています。最新の研究成果を常に注視し、最新の知識を実際の業務シナリオと融合させています。継続的な反復、最適化、そして技術のアップグレードを通じて、タオバオの画像検索アルゴリズムはますます「インテリジェント」になり、ユーザーのニーズにさらに近づいています。 2013年、大手検索エンジン企業が画像検索製品をリリースし、ユーザーにとって嬉しい驚きとなりました。しかし、EC分野における画像検索は、ユーザーの購買意欲に正確にマッチさせるため、より高い精度を実現する必要がありました。柯思氏の記憶によると、当時ユーザーが携帯電話からアップロードした写真の品質は非常にばらつきがありました。ぼやけた影のような写真もあれば、まるで市場で撮影されたかのように背景が複雑で、様々な物や人物が混在している写真もありました。 これらの要因は、画像データの精度にとって大きな課題となります。アルゴリズムエンジニアは、アルゴリズムの「視力」を向上させるだけでなく、様々な特殊な撮影環境においても冷静さを保つことを学ぶ必要があります。あるユーザーが、夜市の屋台の前で撮影した写真をアップロードしました。背景には様々な軽食、人混み、ネオンライトが写っていましたが、商品は写真のほんの一部しか占めていませんでした。商品を正確に識別するために、チームメンバーは知恵を絞った末、ついにこの問題を解決しました。チームメンバーは冗談めかして、自らを画像検索界のシャーロック・ホームズと呼んでいます。 2014年時点で、タオバオの商品データベースには既に1億点以上の商品が登録されていました。これほど膨大なデータベースの中で、高精度な画像検索技術を実現することは、「干し草の山から針を探す」ようなものです。アルゴリズム開発チームには、コンピュータビジョン、機械学習、ディープラーニングといった最先端技術への深い理解だけでなく、これらの複雑な技術を簡素化・効率化する能力も求められます。例えば、ユーザーが薄暗い場所で撮影した靴の写真をアップロードした場合、アルゴリズムエンジニアは一連の複雑な計算と分析を駆使して、膨大なデータベースからその靴を正確に特定する必要があります。Ke Si氏の言葉を借りれば、このプロセスは「海の中で月を探す」ようなものですが、最終的な目標は、ユーザーに直感的に繋がっていると感じられる、パーソナライズされたレコメンデーション体験を提供することです。 アルゴリズムエンジニアは、数多くの課題に直面しながらも、次々と技術的なハードルを乗り越えてきました。ディープラーニングのトレーニングおよび推論エンジンを構築し、複雑なアルゴリズムを効率的に実行できるようにしました。また、大規模データトレーニングの手法を習得し、それを正確なモデルの栄養源にしました。さらに、アルゴリズムが幅広いユーザーに安定して確実にサービスを提供できるように、エンジニアは高性能なオンラインサービス展開レイアウトも実装しました。さらに、大規模なベクトルインデックスエンジンアーキテクチャを構築し、情報検索の速度を向上させ、コンテンツのマッチングをより正確にしました。 2017年、FacebookのオープンソースベクトルインデックスライブラリFAISSは、ベクトル検索分野における業界のベンチマークとなりました。しかし、Taobaoのアルゴリズムチームは、FAISSを凌駕するベクトルインデックスライブラリを社内で開発しました。FAISSの10倍の速度を達成しただけでなく、前世代の技術と比較してリソース消費を4分の1に削減し、エネルギー効率と費用対効果を向上させ、ベクトルコンピューティング分野の発展を促進する新たなマイルストーンを打ち立てました。 この成果は技術チーム全員を興奮させ、誇りで満たしました。祝賀ディナーで、数杯の酒を飲んだ後、アルゴリズムエンジニアたちは「夢にも思わなかったことを成し遂げた!まるでeコマース画像検索の新たな時代を切り開いたかのようだ!」と叫びました。 2021年、マルチモーダル検索は学界と産業界の両方で最先端の研究テーマとなりました。しかし、データと計算能力の制約により、当時のタオバオのコアモジュールは依然として単一画像モダリティモデルであり、商品カテゴリーごとに複数のモデルを構築し、ユーザーの画像とデータベース内の画像を比較して検索を行うというものでした。しかし、画像検索に対するユーザーの需要が急増し、商品データが膨大に増加するにつれ、単一画像モダリティモデルはもはや不十分なものとなってきました。 マルチモーダル技術の枠組みの中でアルゴリズムの革新を探求することは、タオバオ画像検索アルゴリズムチームにとって極めて重要な課題となっている。「タオバオ画像検索プラットフォームにおけるマルチモーダルアルゴリズムの適用を促進するために、私たちは全力を尽くし、尽力しています」とシャオ・フェン氏は述べた。 2018年、上海交通大学で修士課程と博士課程を修了したシャオ・フェンはアリババに入社し、ビジュアルアルゴリズム技術と人工知能の探求と実践に情熱を注いでいます。大学時代、シャオ・フェンはアメリカの物理学者リチャード・ファインマンの著書を繰り返し研究しました。「ファインマン教授が唱えたように、事実と真実は科学の絶対的な要件です。科学研究で困難に直面した時でも、日々の仕事で困難に直面した時でも、私は問題の本質を探求し、より批判的かつ創造的な視点から最適な解決策を模索するよう努めています。」 △ タオバオのマルチモーダル商品理解モデルの模式図 タオバオの画像検索をより高速かつ正確にするため、シャオ・フェンと彼のチームはタオバオの画像検索AI技術を全面的に再構築しました。このアルゴリズムは、「大規模マルチモーダル類似商品検索AI技術」という新しい名前が付けられました。2021年、アルゴリズムチームは業界に先駆けて、コアとなるリコールと関連性ベクトル表現モジュールをユニモーダルからマルチモーダルにアップグレードし、画像とテキストのアライメント事前トレーニングという統一された技術フレームワークに組み込みました。テキスト検索におけるキーワードマッチングやリコールとは異なり、画像をリコールするには、クエリと商品を高次元ベクトル空間にマッピングし、最近傍検索を行うしかありません。ベクトル表現は、画像検索において最も重要な技術です。 2021年のダブル11プロモーションイベント前夜、アルゴリズムエンジニアは、大規模なトラフィックを処理しながら検索精度を向上させるため、マルチモーダル関連性モデルの使用を決定しました。「当時、オンラインのモデルは6つか7つあり、それらを1つのモデルに置き換えようとしましたが、まだ検証されていない方法でした」とシャオ・フェン氏は語ります。「このプロセスは容易ではなく、絶え間ない実験と検証の繰り返しが必要でした。」 タオバオの検索精度向上の鍵は、マルチモーダル情報をより効率的に活用し、タオバオが保有する数千億もの画像・テキストデータをモデル化することです。チームは、大規模マルチモーダル分類手法の適用を先導し、オフライン検証からオンライン展開まで段階的に効果を検証し、最終的にオンラインモデルのアップグレードに成功しました。 2021年の商品体験関連性評価では、同一商品率の絶対値が12ポイントも大幅に向上し、タオバオ立ち上げ以来、商品マッチング精度の最大向上を記録しました。 2022年末、マルチモーダル大規模モデルが華々しくデビューしました。この大規模マルチモーダルモデルは優れた成果を上げましたが、同時に膨大なリソースを消費し、実行時間も非常に長くなっていました。タオバオのアルゴリズムチームは、知識蒸留技術を適用することでこのボトルネックを解消しました。知識蒸留の過程では、教師モデルの強力な機能が技術的な手段を用いて生徒モデルに伝達されます。蒸留後、小規模モデルは大幅に低い実行時間コストで大規模モデルに匹敵する機能を実現できます。アルゴリズムチームはまず、これをクエリと商品理解に応用しました。 余暇には、シャオ・フェンは杭州近郊の山でハイキングを楽しんでいます。 「ハイキングはいつも色々なことを考えさせてくれます。テクノロジーの山登りのようなものです。常に困難はありますが、一度登ってしまえば、それほど難しく感じなくなります。」と彼は言います。 AIとの衝突から新たな潮流が生まれた。2024年に入り、Soraの登場は動画生成の成熟と有用性の高まりを象徴するものとなり、Taobao画像検索アルゴリズムチームに強い衝撃を与えました。この波に乗り、チームはAIGC(AI生成コンテンツ)技術をTaobao画像検索に統合する実験を始めました。 リン・シーはチームの中で数少ない女子メンバーの一人です。プライベートではダンス、ギター、ドラムを愛する「e」タイプですが、仕事でコーディングをしている時は、落ち着きがあり控えめな「i」タイプになります。女子は生まれつき美意識が高く、タオバオのファッションスタイルの微妙な変化にも敏感です。 林曦氏は数々の調査を通して、タオバオの画像検索機能は似たような衣料品を探すというユーザーのニーズを効果的に満たしているものの、どのようにコーディネートし、試着体験を提供するかという根本的な課題は未解決であることを発見した。経済的コスト、知識コスト、そして各店舗で取り扱う商品数といった制約により、衣料品販売業者は多様で最先端の店舗横断的なスタイリングオプションを提供する能力に乏しく、パーソナライズされたフィッティングはさらに困難になっている。 リン・シー氏は、「アパレル分野におけるマルチモーダル理解とAIGC生成能力の長年にわたる蓄積は、これら2つの問題点に対する解決策を提供します。検討と議論を重ねた結果、 AIGCを通じてパーソナライズされたアパレルコンテンツを大規模かつ低コストで制作することが可能であるという点にチーム全員が一致して同意しました」と述べています。 しかし、現実は厳しい。AIGCは、eコマースアパレルに関する研究をあまり行っていない。従来のアルゴリズム技術と限られたオープンソースデータセットの制約により、関連する学術研究は平面的な画像入力、少数のシンプルな服装スタイル、そして単一のモデルの動作やシーンに限定されており、ユーザーの多様なニーズを満たすことができていない。 △試着アルゴリズムは、衣装に合わせた様々な難しいポーズや実際のシーンの撮影をサポートします。 林曦氏と彼のチームは、製品理解・認識システムと類似スタイルの表現能力をベースに、Taotianの膨大な社内業務データと自社開発のアルゴリズムアーキテクチャを背景に、真に商業アプリケーションに対応できるバーチャル試着アルゴリズムソリューションを迅速に設計しました。 このソリューションは、単品および複数品の試着をサポートし、単純または複雑な背景やさまざまなポーズに適応するだけでなく、衣服のリアルで美しい外観を維持し、着用方法や着用者の姿勢を正確に制御し、全体的な外観を演出し、衣服のスタイルを際立たせます。 林曦氏は「バーチャル試着アルゴリズムソリューションは、私たちにとって羅針盤を見つけるようなものです」と興奮気味に語った。彼らはソリューションを継続的に最適化し、服の試着精度を向上させ、アクセサリー、顔、体型に合わせたカスタマイズ機能を追加した。これらのアルゴリズム機能は現在、タオバオのスタイリングシステムに活用されており、商品の組み合わせの多様性と美しさを高めている。近日公開予定の「Snap & Match」製品では、ユーザーが写真と体型情報をアップロードするだけで、システムが選択した服に基づいて他のコーディネートを推奨し、全体的な効果を表示する。これらの成果に基づき、チームはECCVやACM MMといったトップクラスの国際会議で2本の論文を発表している。 アルゴリズムチームは、これまでの経験と専門知識を基に、画像ベースのバーチャル試着機能を動画に拡張し、Diffusionフレームワークをベースとした業界初の動画バーチャル試着ソリューションを提案しました。これにより、動画バーチャル試着体験は新たなレベルへと引き上げられ、商業応用の可能性が広がりました。従来のアルゴリズムとは異なり、このソリューションはあらゆるアパレルカテゴリーに適用可能で、複雑な実写撮影シナリオに対応し、様々な撮影動作や被写体の行動、フレーム内の空間の変化にも対応できます。これにより、より自然で豊かで鮮明な動画出力が可能となり、大手マーチャントのモデル動画に対する品質要件を満たします。 創業当初は1日あたり数百人の訪問者しかいなかったものの、現在では1日あたり5,000万人を超えるまでに成長を遂げました。これは、ユーザー基盤の拡大だけでなく、タオバオの技術力の高さが広く認知されている証でもあります。タオバオのアルゴリズムチームは10年間、独自の技術開発に尽力し、革新と進化のために時間との闘いを続けてきました。当初は画像検索に重点を置いていましたが、現在は動画を情報発信の媒体として活用しています。この10年間、タオバオのアルゴリズムチームは独自の進化の歴史を築いてきました。 柯思氏が述べたように、タオバオは0から1への飛躍を遂げましたが、立ち止まっていては後れを取ってしまいます。真に「タオバオを成功させる」ためには、常に技術革新に追いつく必要があります。 |
タオバオでアルゴリズムに取り組んだ私の経験: タオバオ画像検索の 10 年間、ビジュアル アルゴリズム テクノロジーの進化の歴史。
関連するおすすめ記事
-
化学のチューリングマシンを目指して!AI搭載製薬会社Chemifyが世界初の化学コンパイラーを開発、米国市場に進出。
-
コーディング経験ゼロの方でも再現可能です!大規模モデルがAIプリセールスアシスタントに変身し、数百ページ、数万語に及ぶ入札書類を瞬時に解読します。
-
画期的な 3nm Android AI チップがリリースされ、インターネット接続なしでビデオを生成できるようになりました。
-
DeepSeek-R1は引き続き注目を集めており、Open R1も参戦しました!Hugfaceが開始したキャンペーンは、わずか1日で1,900個のスターを獲得しました。
-
わずか1年で、北京にAI時代の発電所が誕生しました。国産チップが組み立てられ、すぐに使えるインテリジェントコンピューティングパワーが完成しました。
-
OpenAI幹部人事の内幕:CEOが安全性を無視して4oを急遽立ち上げ、従業員は締め切りに間に合わせるため1日20時間労働、名声と利益の追求が理想主義に打ち勝つ