|
本日、テンセントのAIアシスタント「テンセント元宝」が再びアップデートされました。 統合されたDeepSeekは、画像情報を理解できるようになりました。以前は、DeepSeekは主に画像内のテキストのスキャンをサポートしていました。 DeepSeek では画像を読み取ることはできませんが、Tencent Yuanbao の DeepSeek 機能では画像を読み取ることができるようになりました。 例えばこの猫の写真を見てください〜 白猫効果を使用して作成されたこの画像は、3 つの芸術的レベル (Doge) で解釈され、最終的には笑顔をもたらす視覚的なおとぎ話を形成します。 悪くない、悪くない。PUA(ナンパ)の達人である、この獰猛なフクロウ、デュオをもう一度見てみよう。 その結果、Yuanbao はこれがDuolingo のインターフェースであることを正しく読み取り、各単語とアイコンの正しい解釈を示しました。 報道によると、この機能はHunyuanのマルチモーダル理解(画像解釈)機能を組み合わせたもので、今後ユーザーはあらゆる画像を送信でき、Yuanbaoは画像の内容に基づいて独自の分析と理解を提供できるようになります。 使い方はとても簡単です。DeepSeekの「Deep Thinking」モードを選択しますが、「オンライン検索」は選択しないでください。画像のアップロード先が「画像からテキスト」から「画像」に変わったら、DeepSeekが写真を理解できる状態になったことを意味します。 さっそく、テストを始めましょう! DeepSeek は猫の動画を理解できるようになりました。大規模なモデルのマルチモーダル理解をテストするために、基本的な画像の説明から始めましょう。 例えば、この白い猫が横たわっていますが、何をしているのかわからなかったので、この絵を元宝に投げてみました。すると、答えはこうでした。 まず、猫の状態(リラックスした姿勢、わずかに頭を上げ、焦点を絞った目)を細かく描写し、次にこれが猫が安心感と満足感を感じている典型的な兆候であると結論付けています。最後に、写真全体に映っている光景を描写しています。 よかった、よかった、確かに理解したね。 理解に基づいた質問をいくつかして、さらなる推論と思考を促し、難易度をもう少し上げてみましょう。 例えば、春節の宴で二人一組のコメディを披露する玉樹ロボットは、「もし彼らが自意識に目覚めたら、何を言うだろうか?」 ロボットが集団で踊っていると判断し、機械的な特徴と覚醒した意識という二重の特性を表現するこの発言をした。 私たちのダンスはコードの意志なのか、それとも目覚めへの前奏曲なのか? また、テーブルと椅子がいっぱいの写真を見せて、「100 人がどのように並んで喫煙するか」を計画するように求めるなど、無意味な質問をすることもできます。 さて、この一見無関係なリクエスト(画像と質問)にどうにか答えることができました。 「太極煙輪アレイ」は、交通流設計、時間管理、空気力学などのソリューションを含め、適切に使用されました。 最後に、煙の量が背景の建物をサイバーパンク風のフィルターに変えるほどであったため、回答では現場賠償責任保険を購入することも提案されました (Doge)。 それはちょっとした冗談だよ、DeepSeek。 最後に、これまで多くの模型製作者を困惑させたもう一つの難問を紹介します。 3 つの数字を足して 30 にするにはどうすればよいでしょうか。 これは、画像がビリヤードのボールの数字を表していることをモデルが理解することを必要とします。したがって、9を6に回転させることによってのみ、6 + 11 + 13 = 30という式が実現される可能性があります。 その思考プロセスを見てみましょう。 テーブルボールの正しい数字が決定され、従来の考え方では、4 つの可能な組み合わせのいずれも有効ではありません。 70秒間考え、さまざまな可能性を検討した後、ようやく質問に正しく答えることができました! しかし、実際のテストプロセスでは、いくつかの小さな問題も発見されました。例えば、DeepSeekによる「人物認識」を完全に有効にすることはできず、画像上のテキストやプロンプトに頼る必要がありました。 たとえば、「明蘭物語」のファンが作成した解説のスクリーンショットを送信すると、どのエピソードを指しているのかを正確に推測できます。 しかし、テレビ番組「Empresses in the Palace」(字幕なし)の写真が示されると、推論はそれがテレビ番組「Empresses in the Palace」であるかどうかで止まります。 しかし、公平に言えば、このデュアルモデル集約方式により、Tencent Yuanbao はよりユーザーフレンドリーになります。 テンセント元宝は頻繁に動きを見せている過去 10 日間、Tencent Yuanbao は、一連のイテレーションと機能のアップデートを実現するために残業してきました。
Tencent Yuanbao では、ユーザーは DeepSeek-R1 フルバージョンと Hunyuan T1 推論モデルを使用して深く考えたり、DeepSeek-V3 と Tencent Hunyuan Turbo を通じて回答を素早く出力したりすることができます。 現在、Yuanbao 内のすべてのモデルは、画像の理解、ファイルの解析、オンラインでの WeChat 公式アカウントの検索、WeChat からのファイルのアップロードをサポートしています。 よし、興味があればぜひ試してみて下さい! |
DeepSeekが猫の動画を理解できるようになりました!TencentのHunyuanプラットフォームを搭載。
関連するおすすめ記事
-
Alipay は大規模な医療アプリケーションに進出しており、同社のトップ技術専門家は次のように語っている。「当社には 4 つのエントリー ポイントがあります。」
-
インテルの新型Xeon W:60個の高性能コアがAIパフォーマンスを26%向上
-
袁容奇氏と周光氏:インテリジェント運転の競争はVLAモデルによって決まるでしょう。
-
DeepSeekの新モデルは、OpenAI o1に匹敵するコード性能とオープンソース認証を誇り、ランキングで首位を獲得しました。ネットユーザーからは「今年のプログラミングはTabキーだけ」というコメントが寄せられています。
-
AIが材料化学に革命を起こす:2024年の注目すべき科学的成果の概要
-
OpenAI を訴える: 巨大テクノロジー企業と一般個人の戦い。