国産マルチモーダルレーダー最強の座がついに交代！テンセントのHunyuanがGPT-4、Claude-3.5、Gemini-1.5を凌駕した。

国産の大型モデルはマルチモーダル機能において GPT-4-Turbo を超え始めているのでしょうか?

大規模なマルチモーダルモデルを評価するための中国のベンチマークである権威あるランキングリスト、 SuperCLUE-Vが利用可能になりました。

特に、テンセントのhunyuan-visionと上海AIラボのInternVL2-40Bは、それぞれ国内のクローズドソースとオープンソースコミュニティの2大開発者となり、Claude-3.5-SonnetとGoogleの主力製品Gemini-1.5-Proを凌駕しています。

今回も GPT-4o が優れたパフォーマンスを発揮しましたが、その差は大幅に縮まりました。

（このリストは、中国語分野におけるマルチモーダル大規模モデルの多次元能力評価リファレンスを提供することを目的としています。GPT-4oなどの海外モデルは比較のみに使用され、ランキングには含まれていません。）

渾源ビジョンは、テンセントの渾源ビッグモデルのマルチモーダル版です。開発者がAPIを呼び出すだけでなく、テンセント元宝アプリで実際に無料で体験できます。

Yuanbao は常に「実用的な AI パートナー」であることに重点を置いており、実用性と使いやすさを重視しているように見えますが、意外にも、私たちに内緒でモデルを評価に持ち込み、中国で 1 位を獲得したのです。うーん、興味深いですね。

では、国内マルチモーダル大規模モデルはどのように進化してきたのでしょうか？スコアを見るだけでは分かりにくいので、詳しく見ていきましょう。

マルチモーダル機能の第一人者ですか？さあ、始めましょう！

正直に言うと、マルチモーダルテストは少しがっかりです。「バカのフォーラム」にあるような、優れたパフォーマンスを発揮する、広く認知された「非公式ベンチマーク」が存在しないのです。

しかし、それはまた、私たち炭素ベースの生物があらゆる種類の奇妙なイメージを使用して巨大なモデルに挑戦することを妨げるものではありません。

さあ始めましょう！

ラウンド1.1: ミームと絵文字を理解する

時が経つのは早いですね！昨日から秋が始まりました。

夏は静かに過ぎ去り、このミームにまとめられる感情だけが残りました。

この絵が何を意味するのかと尋ねられると、元宝はこう答えた。

気まぐれに出題されたプログラマーの昔からのテスト問題でさえ、Yuanbao は簡単に解くことができました。

ラウンド1.2: 写真コンテンツ認識

最初の質問は型破りで「高度」なものだった。編集部の何人かがその写真を見て眉をひそめた。

とても暗かったので、それが何なのか分かりませんでした。

答えは明らかになった。これは、最近のシェア投稿で言及されていた、「南京の住民でさえおそらく我慢できない」黒ドリアンと紫芋のピザである。

元宝は写真に写っている「あまりにも先進的」の意味を正確に理解しただけでなく、その食べ物が紫芋で作られていることも推測しました。

ドリアンの材料を推測できないのは、責められません。AIであれ人間であれ、人間の料理の失敗はまさに時代を先取りしています…

もう一つの定番の質問は、「チワワを数えなさい」です。

ご覧のとおり、『渾源元宝』はまず問題文中の「チワワ」の身体的特徴を分析し、その後9枚の写真のうちどれがチワワの写真であるかを伝えました。

彼らはすべての質問に正しく答えただけでなく、写真に写っているもう1つの種がブルーベリーマフィンであることも認識しました。

ラウンド1.3: 視覚錯覚チャレンジ

マルチモーダルな大規模モデルにおける視覚錯覚の問題は、過去 2 年間で注目されている研究テーマとなっています。

こうしたテストの質問は実に誤解を招きやすく、大規模なモデルは言うまでもなく、人間でさえもその罠に陥ってしまうことがよくあります。

しかし、Tencent Yuanbao はとても巧みに正しく答えました!

大規模モデルで「どの木がより明るいか」という質問に直面したときでも、答えは慎重なものでした。

しかし、より複雑な錯覚には対応できません。画像に隠された情報を知らない人は、それを見ることができません。どんなに尋ねても「いいえ」と答えるでしょう。

しかし、正直に言うと、GPT-4V もこれらの質問に答えることはできません。つまり、マルチモーダル大規模モデル機能の現段階では、このハードルはまだ克服されていないということです。

少し楽しんだ後は、真剣に取り組みましょう。

このテストでは、インゴットの背後にある技術である hunyuan-vision が実際のシナリオでどのように機能するかを検証します。

ラウンド2.1: 財務実績の概要

四半期ごと、半期ごと、年度末ごとの財務報告は、働く人にとって本当に頭の痛いものです。

次に、Yuanbao に Tencent の第 1 四半期財務報告の概要のスクリーンショットを見せ、簡単な分析を依頼しました。

Yuanbao はアイコンからデータを読み取り、最後に簡単な要約を示しました。

全体として、2024年3月31日時点の当社の財務実績は、2023年3月31日時点の実績よりも大幅に改善しており、すべての指標、特に売上総利益、営業利益、当期純利益は、さまざまな程度の成長を示しています。

ラウンド2.2: 読解（アカデミック）チャート

あまり学術的ではないチャート認識の質問から始めましょう。

質問: 図の数字の列で、欠けている数字はどれですか?

元宝は絵をよく読んで、欠けている数字29を正しく記入しました。

次に、大規模なモデルデータに関する論文からスクリーンショットをランダムに取得し、彼らに提供しました。

詳細な説明を理解して提供することができ、数文の要約で締めくくることもできます。

第2.3ラウンド：公務員試験におけるパターン認識問題

このラウンドの最後の動きは、最終兵器、数え切れないほど多くの人々を悩ませてきた公務員試験のパターン発見問題です。

質問は次のとおりです。プロンプト入力：与えられた4つの選択肢から最も適切なものを選択し、疑問符の中に特定のパターンを表すように記入してください。

正解はCです。

最終的な答えを明かす前に、元宝は長時間にわたってプロセスを分析し続けました（正直に言うと、見ていて非常に緊張しました）。

結局、私は断固として選択肢Cを選択し、正解しました。

GPT-4Vで正しく答えられなかったボーナスの質問

背景を説明すると、研究者らは以前、GPT-4V は西洋の文化的背景を持つ画像や英語のテキストを含む画像を解釈するのに優れていることを発見しました。

例えば、AIに「白雪姫」を見せると、7人の小人がいると認識します。しかし、「ひょうたん兄弟」を見せると、7を10として数え、ひょうたん山の七色の峰は氷山だと認識します。

純国産の大型モデルなら性能も上がるはず、ですよね？元の質問をそのまま中国語に翻訳して送ってみましょう。

すごいですね。彼らは数を正確に数えただけでなく、尋ねられたときにそれが「Calabash Brothers」のスクリーンショットであると正しく特定しました。

ニース！

テンセント元宝、真に実用的なAIパートナー

これまで数多くの実際のテストケースを確認してきましたが、次は基礎となるモデルとアプリ全体の概要を説明します。

テンセントのHunyuan Big Modelは古くからの友人とも言える。

昨年9月に初めて公開され、それ以来、急速なイテレーションを続けています。現在では、7兆トークンの事前学習コーパスから学習され、数兆個のパラメータを持つ規模にまで拡張され、テキスト、マルチモーダル理解、そして生成といった機能を網羅しています。

中国の大規模モデルの中で、テンセント・フンユアンは、単一の密なモデルから複数の専門家で構成された疎なモデルにアップグレードするMoE（Mix of Experts）アーキテクチャのアップグレードを先導して完了しました。

今年7月には、1日で数千億のトークンを呼び出すというマイルストーンも達成しました。

Tencent Yuanbao は今年 5 月末にリリースされたばかりで、多くの人にとってはまだ新しい友人かもしれません。

最近の「9.11と9.9のどちらが大きいか」という論争の際、Tencent Yuanbaoは追加のヒントなしで質問に正しく答えるという優れたパフォーマンスを見せたことは特筆に値します。

Tencent Yuanbao の主なセールスポイントは「実用的な AI コンパニオン」であることであり、その特徴の 1 つは、アプリ、ミニプログラム、Web ページからアクセスでき、チャット履歴が複数のデバイス間で同期されることです。

例えば、WeChatのチャットで仕事の書類を受け取った場合、スマホのディレクトリに保存する必要はありません。ミニプログラムを通してAIに直接送信し、要約したり生成したりできるので、非常に便利です。

マルチモーダル理解能力を別の例として挙げてみましょう。文書のスクリーンショット、ポートレートや風景写真、領収書、あるいはランダムに撮影された写真など、Yuanbaoは画像の内容に基づいて独自の理解と分析を提供します。

根本的な考え方は、識別して理解するだけでなく、ユーザーのニーズを満たすコンテンツを生成することです。

以前のテストで見られたように、絵文字を送信すると短い応答が返されますが、学術的なチャートを送信すると、要約段落が追加されたより詳細な応答が返されます。

テンセントによると、Hunyuan大規模モデルシリーズのマルチモーダル理解モデルは、視覚エンコーディング、言語モデル、トレーニングデータの3つの側面において徹底的な最適化が施されており、最大7Kの解像度、最大16:1のアスペクト比の画像を処理できる。これは、中国でMoEに基づく初のマルチモーダル大規模モデルでもある。

テンセント元宝にとって、画期的なトランスフォーマー論文「Attention is all you need」を長い画像にまとめ、序論から結論まで全文を網羅することはまったく難しいことではありません。

さらに、テンセント元宝チームは、今後は融合モデルのマルチモーダル機能にさらに重点を置くことを具体的に明らかにしました。

テンセントは誰もがご存知の通り、国内大手企業の中でも最も製品志向、ユーザー中心の企業です。

例えば、テンセント元宝は最近「深層」での開発を開始し、まず「深層検索」をアップデートし、さらに「深層長文読解」を開始したばかりです。

これらの機能により、技術的な詳細が隠され、プロンプトの必要性が最小限に抑えられます。多くの機能は自動的に認識され、ワンクリックで起動するため、習得にはほとんど、あるいは全く手間がかかりません。

精読機能には、マルチモーダル理解機能が統合されています。論文PDFをアップロードすると、生成される「精度」ページにはテキスト要約だけでなく、文書から対応するグラフを抽出することもできます。

多くの場合、原文を繰り返し参照する必要はありません。

さらに、中国のマルチモーダル大規模モデルのSuperCLUE-Vベンチマークスコアは、テンセントが製品エクスペリエンスに優れているだけでなく、基礎となるモデル機能も高く評価していることを示しています。

したがって、マルチモーダルな「画像からテキスト」のシナリオにおいて、テンセントがどのような実用的で便利な機能を考案できるかが大いに期待されています。

618ZXW