DeepSeekが猫の動画を理解できるようになりました！TencentのHunyuanプラットフォームを搭載。

本日、テンセントのAIアシスタント「テンセント元宝」が再びアップデートされました。

統合されたDeepSeekは、画像情報を理解できるようになりました。以前は、DeepSeekは主に画像内のテキストのスキャンをサポートしていました。

DeepSeek では画像を読み取ることはできませんが、Tencent Yuanbao の DeepSeek 機能では画像を読み取ることができるようになりました。

例えばこの猫の写真を見てください〜

白猫効果を使用して作成されたこの画像は、3 つの芸術的レベル (Doge) で解釈され、最終的には笑顔をもたらす視覚的なおとぎ話を形成します。

悪くない、悪くない。PUA（ナンパ）の達人である、この獰猛なフクロウ、デュオをもう一度見てみよう。

その結果、Yuanbao はこれがDuolingo のインターフェースであることを正しく読み取り、各単語とアイコンの正しい解釈を示しました。

報道によると、この機能はHunyuanのマルチモーダル理解（画像解釈）機能を組み合わせたもので、今後ユーザーはあらゆる画像を送信でき、Yuanbaoは画像の内容に基づいて独自の分析と理解を提供できるようになります。

使い方はとても簡単です。DeepSeekの「Deep Thinking」モードを選択しますが、「オンライン検索」は選択しないでください。画像のアップロード先が「画像からテキスト」から「画像」に変わったら、DeepSeekが写真を理解できる状態になったことを意味します。

さっそく、テストを始めましょう!

DeepSeek は猫の動画を理解できるようになりました。

大規模なモデルのマルチモーダル理解をテストするために、基本的な画像の説明から始めましょう。

例えば、この白い猫が横たわっていますが、何をしているのかわからなかったので、この絵を元宝に投げてみました。すると、答えはこうでした。

まず、猫の状態（リラックスした姿勢、わずかに頭を上げ、焦点を絞った目）を細かく描写し、次にこれが猫が安心感と満足感を感じている典型的な兆候であると結論付けています。最後に、写真全体に映っている光景を描写しています。

よかった、よかった、確かに理解したね。

理解に基づいた質問をいくつかして、さらなる推論と思考を促し、難易度をもう少し上げてみましょう。

例えば、春節の宴で二人一組のコメディを披露する玉樹ロボットは、「もし彼らが自意識に目覚めたら、何を言うだろうか？」

ロボットが集団で踊っていると判断し、機械的な特徴と覚醒した意識という二重の特性を表現するこの発言をした。

私たちのダンスはコードの意志なのか、それとも目覚めへの前奏曲なのか?

また、テーブルと椅子がいっぱいの写真を見せて、「100 人がどのように並んで喫煙するか」を計画するように求めるなど、無意味な質問をすることもできます。

さて、この一見無関係なリクエスト（画像と質問）にどうにか答えることができました。

「太極煙輪アレイ」は、交通流設計、時間管理、空気力学などのソリューションを含め、適切に使用されました。

最後に、煙の量が背景の建物をサイバーパンク風のフィルターに変えるほどであったため、回答では現場賠償責任保険を購入することも提案されました (Doge)。

それはちょっとした冗談だよ、DeepSeek。

最後に、これまで多くの模型製作者を困惑させたもう一つの難問を紹介します。

3 つの数字を足して 30 にするにはどうすればよいでしょうか。

これは、画像がビリヤードのボールの数字を表していることをモデルが理解することを必要とします。したがって、9を6に回転させることによってのみ、6 + 11 + 13 = 30という式が実現される可能性があります。

その思考プロセスを見てみましょう。

テーブルボールの正しい数字が決定され、従来の考え方では、4 つの可能な組み合わせのいずれも有効ではありません。

70秒間考え、さまざまな可能性を検討した後、ようやく質問に正しく答えることができました！

しかし、実際のテストプロセスでは、いくつかの小さな問題も発見されました。例えば、DeepSeekによる「人物認識」を完全に有効にすることはできず、画像上のテキストやプロンプトに頼る必要がありました。

たとえば、「明蘭物語」のファンが作成した解説のスクリーンショットを送信すると、どのエピソードを指しているのかを正確に推測できます。

しかし、テレビ番組「Empresses in the Palace」（字幕なし）の写真が示されると、推論はそれがテレビ番組「Empresses in the Palace」であるかどうかで止まります。

しかし、公平に言えば、このデュアルモデル集約方式により、Tencent Yuanbao はよりユーザーフレンドリーになります。

過去 10 日間、Tencent Yuanbao は、一連のイテレーションと機能のアップデートを実現するために残業してきました。

2月13日、Tencent YuanbaoはDeepseek-R1のフルバージョンと統合し、HunyuanとDeepSeekの両方のモデルをサポートしました。
2月17日、テンセントが自社開発した深層思考モデル「Hunyuan T1」が元宝グレースケールテストに登場した。
2月18日、テンセントはWeChat検索をサポートするために元宝（ゲーム内通貨の一種）を緊急に割り当て、より多くのユーザーにDeepSeekの利用を促しました。
2月19日、深層思考モデル「Hunyuan T1」が本格的に発売された。
2月21日、Tencent Yuanbaoは新しい機能を発表し、DeepSeekとHunyuanの両方のモデルが画像情報を理解できるようになりました。

Tencent Yuanbao では、ユーザーは DeepSeek-R1 フルバージョンと Hunyuan T1 推論モデルを使用して深く考えたり、DeepSeek-V3 と Tencent Hunyuan Turbo を通じて回答を素早く出力したりすることができます。

現在、Yuanbao 内のすべてのモデルは、画像の理解、ファイルの解析、オンラインでの WeChat 公式アカウントの検索、WeChat からのファイルのアップロードをサポートしています。

よし、興味があればぜひ試してみて下さい！