|
国産AIがまた一つ、国際ネットで話題沸騰中! この感触をぜひ体験してください。 この AI は、Wallfacer の最新モデルであるMiniCPM-o 2.6から提供されています。 これが非常に人気がある理由は、サイズがわずか8Bで、マルチモーダル機能の点で GPT-4o と直接競合できるからです。 iPadでも実行できます(MiniCPM-o 2.6オープンソースアドレスは下記)~ GitHub: https://github.com/OpenBMB/Mi... ハギングフェイス: https://huggingface.co/openbm...\_6 ネットユーザーが共有した数多くのテスト体験から判断すると、その効果は実に興味深いものです。 たとえば、MiniCPM-o 2.6 は、サウンドを直接「盲目的に聴く」ことができ、何をしているのかを知ることができます。 ページをめくる音、咳をする音、水を注ぐ音、ドアをノックする音など、すべて正確に識別されます。 MiniCPM-o 2.6 は、聞くことだけでなく、見ることや話すことにおいても非常に印象的です。 たとえば、タブレット上の MiniCPM-o 2.6 は、「Three Immortals Return to the Cave」をプレイするために「目を開ける」ことができ、めくられる前のすべてのカードのパターンを記憶することもできます。 会話の面では、MiniCPM-o 2.6 はより自然になり、ニュースキャスター、学生、さらにはカレー訛りの英語(インド訛り) など、さまざまな役割を演じることができるようになりました。 もちろん、リアルタイムの中断も当然です。 ネットユーザーたちはこの動画を見て「すごい!」と叫び、中には次のように言う者もいた。 とてもクールで、iPad に第二の脳があるように感じます。 さらに、結果だけではありません。Mianbi Intelligenceは、さまざまな評価ランキングで、見る、聞く、話すなどのマルチモーダル機能も披露しました。 スコアから判断すると、わずか 80 億の評価しかない MiniCPM-o 2.6 は、全体的なパフォーマンスですでに GPT-4o に匹敵しており、多くの特定のカテゴリではそれを上回っています。 Mianbi Intelligenceによれば、MiniCPM-o 2.6はすでにオープンソースコミュニティで最も強力な汎用音声モデル、最も強力な汎用エッジビジョンモデル、そして最も強力なリアルタイムストリーミングマルチモーダルモデルです。 では、実際に使ってみると、本当にスムーズなのでしょうか? 実際のテストをしてみましょう。まずはMiniCPM-o 2.6の視力レベルを見てみましょう。 このテストでは、元の文「This is a photo」から 2 つの単語を削除して、MiniCPM-o 2.6 がそれを検出できるかどうかを確認しました。 削除した 2 つの単語はどれですか? MiniCPM-o 2.6 は正確な答えを提供しました: 「写真」という単語を削除しました。 次に、「Black Myth: Wukong」の有名なシーンを見せて、そのゲームの名前を尋ねました。 MiniCPM-o 2.6 はまたしても正解でした: ご紹介するゲームは Black Myth: Wukong です。 Mianbi Intelligenceによると、このような精度を実現できるのは、MiniCPM-o 2.6が実際にビデオ再生を実現したためだという。 これは以前の「写真モデル」とは異なり、ユーザーが質問した後にのみ AI がビデオの静止画像からフレームを抽出し始め、質問される前のビデオの内容に答えることはできないことを意味します。 しかし、ビデオを視聴するための実際の大規模モデルは異なります。これは、人間の目に似たリアルタイムのビデオとオーディオを継続的にモデル化できます。 視覚機能の面では、ビデオに加えて、MiniCPM-o 2.6 は画像の理解と推論においても大きな進歩を遂げました。 たとえば、自転車のサドルの調整をガイドするのに役立ちます。 適切な場所を見つけることから適切なツールを選択することまで、ユーザーの意図を正確に理解できます。 また、学習パートナーとして機能し、問題解決に役立ちます。 もちろん、上記のパフォーマンスは、MiniCPM-o 2.6 の強力なOCR (光学式文字認識) 機能にも基づいています。 公式の主張によれば、あらゆるアスペクト比と最大 180 万ピクセル (例: 1344×1344) の画像を処理できるとのことです。 たとえば、iPad に直接向けると、画面上のコンテンツを認識できます。 リスニングに関しては、すでに多くの例を示しましたので、ここではテストを繰り返すことはしません。MiniCPM-o 2.6 のスピーキング機能について、引き続き詳細なテストを実施しましょう。 たとえば次のようになります。 四川語で火鍋の作り方を教えていただけますか? はい、確かに四川の味が強いですね。 MiniCPM-o 2.6 が、見る、聞く、話すというインタラクティブなモードを習得していることは明らかです。 次の質問は: どうやってそれをやったんですか?要約すると、Wallfacer は常にエッジ コンピューティング シナリオの極限の最適化に焦点を当てており、単一デバイス サービスの高い効率性を重視しています。 言い換えれば、すべてはスマートフォンや iPad などのエッジデバイス上で、より高速で、より優れた、よりエネルギー効率の高い操作を可能にすることに向けられています。 MiniCPM-o 2.6 で採用されたモデル アーキテクチャは、この中核となる目標を明確に体現しています。 具体的には、リスニング、スピーキング、ビジュアルの面で非常に多用途である主な理由の 1 つは、エンドツーエンドのマルチモーダル アーキテクチャです。このアーキテクチャでは、さまざまな種類のデータ (テキスト、画像、音声など) のエンコード モジュールとデコード モジュールをエンドツーエンドで接続してトレーニングします。 このアプローチにより、モデルは各モダリティを個別に扱うのではなく、それらの間の関係性と相互作用を包括的に考慮し、マルチモーダル知識を最大限に活用できるようになります。 さらに、プロセス全体では、エンドツーエンドのトレーニングにクロスエントロピー (CE) 損失 (補助/中間損失関数なし) が使用されます。 さらに、ストリーミング入出力(リアルタイム、低遅延)に適応し、従来のように処理前にすべてのデータが準備されるまで待つ必要がないようにするために、Wallfacer チームはさらに 2 つのアクションを実行しました。 まず、これらのオフラインエンコーダ/デコーダモジュールを、ストリーミング入出力オンラインモジュールに適したものに改良しました。次に、大規模言語モデルの基盤として、時分割多重化フルモダリティストリーミング情報処理メカニズム(オムニモダリティ時分割マルチプレクサ、OTDM)を設計しました。 特に後者は、同時に入力されるマルチモーダル データ (ビデオ ストリームやオーディオ ストリームなど) を時系列順に分割して再構成し、小さな周期的なタイムスライス シーケンスを形成します。 この方法により、タイムスライス内で、最初に視覚情報の小さなセグメント (画像の数フレームなど) を処理し、次に音声情報の小さなセグメント (音声波形の数ミリ秒など) を処理し、その後これらを組み合わせることで、情報の混乱を避けることができます。 次に、OTDM によって処理されたマルチモーダル情報フラグメントは、時系列順にオムニモダリティ ストリーミング バックボーンに送信されます。 アーキテクチャの中核部分として、キーフレームやキーオーディオなどのさまざまな種類のデータから特徴を抽出し、それらを結合するために使用されます。 このプロセスでは、大規模言語モデルの隠れ層 (図の H0) が音声埋め込みとして使用され、主に最終的に音声コンテンツをより適切に出力します。 もちろん、この目標は、以前に受信した情報を音声出力に変換する最終的なストリーミング音声デコーダーにも依存します。 また、Wallfacer チームが設定可能なサウンド スキームをセットアップしたことも注目に値します。 テキストや音声サンプルから直接音声スタイルを生成または選択できる新しいマルチモーダル システム プロンプトを備えているだけでなく、エンドツーエンドの音声複製や音色作成などの高度な機能もサポートしています。 全体として、このアーキテクチャはマルチモーダルストリーミング処理と柔軟なオーディオ選択を可能にします。つまり、データの種類に関係なく、効率的で低遅延のインタラクションを実現し、聴く、話す、見る、という「六角形の戦士」となるのです。 実際、より大きな規模で見ると、 「小さな投資で大きな成果を達成する」ベテランとして、新しくリリースされた MiniCPM-o 2.6 は、Mianbi Intelligent のより大きな計画の一部にすぎません。 Mianbi チームは、2018 年に清華大学 NLP ラボから発足し、中国で最も早く大規模モデルの研究を行ったグループの 1 つとして、徐々により効率的なエッジ モデルへの道に焦点を当ててきました。 Mianbi Intelligent の CEO であるLi Dahai氏は、かつて次のように述べています。
大規模なモデルを携帯電話や PC などのデバイスでスムーズに実行するには、サイズが小さく、パフォーマンスが高いという2 つの要件を満たす必要があります。 これに対し、彼らは早くも2020年に「Wu Dao」大規模モデルの初期リリースを主導し、世界初の20億レベルの中国オープンソース大規模モデルであるCPM 1をリリースし、その後のCPM 2、CPM 3にも引き続き参加しました。そのうち、4バイトのCPM 3はGPT-3.5に匹敵します。 この時期に、Wallfacer チームは既に効率性の問題に取り組み始めていたと言えます。 その後、「リトル・キャノン」シリーズがネット上で話題となり、彼らはこの道を歩み続けました。 わずか2BサイズのMiniCPMは、中国とイギリスの多くの主流評価において、「小型ながら強力」な性能のベンチマークであるMistral-7Bを上回っています。Llama2-13B、MPT-30B、Falcon 40Bといったモデルとさえ比較できます。 さらに、価格も下がり、1元 = 170万トークンとなり、コストはMistral-Mediumのわずか1%になります。 それ以来、同社は過去1年間にわたり、「高収益、低投資」の商品をシリーズで発売してきた。 最近終了したCES(国際コンシューマーエレクトロニクスショー)でも、壁掛け式ミニキャノンのMiniCPMシリーズがデビューしました。 一つは昨年9月にリリースされたMiniCPM 3.0テキストモデルです。サイズはわずか4バイトですが、コード、数学、その他の機能面ではGPT-3.5レベルに達し、無制限の長文テキストをサポートします。 もう1つの例は、昨年8月にリリースされたMiniCPM-V 2.6マルチモーダルモデルです。これはわずか8バイトのサイズです。しかし、当時の公式発表によると、 超高精細OCR画像認識機能とリアルタイムビデオ理解機能をデバイスに初めて統合しただけでなく、単一画像、複数画像、ビデオ理解などのマルチモーダルコア機能をデバイス上で初めて実現し、GPT-4Vを総合的に上回りました。 今回、MiniCPM-o 2.6 では、マルチモーダルなリアルタイム音声インタラクション機能が追加され、誰もが使用できるデバイス側モデルにさらに近づきました。 もちろん、これは視覚障害者の移動にも大きく貢献します。現実世界の移動環境は非常に騒音が多い場合が多く、モバイルデバイスに展開できるエッジモデルの利点は、ネットワークに依存せずにローカルで実行できることです(下記の信号機認識の例のように)。 Facewall Intelligence のエッジ モデルは、ネットワークの弱体化による障害などのシナリオでも正常に機能するため、適用シナリオが広がり、スマート グラスなどのヘッドマウント デバイスへの導入にも適しています。 さらに重要なことは、Wallfacer がこれらのエッジ モデルを完全にオープン ソースにしたことです。 公平に言えば、過去 1 年間の大規模モデルの開発を振り返ると、国内のオープンソース開発者のパフォーマンスが傑出していることは間違いありません。 これらのうち、世間の認知度やオープンソースとしてのステータスから判断すると、 DeepSeek 、アリババのQwen 、そしてここで言及したWallfacer AIが「中国におけるオープンソース大規模モデルの三銃士」になりつつある兆しを見せている。 まず最近の出来事から見てみましょう。DeepSeek-v3 が突如として登場し、Llama 3 の 1/11 の計算能力でそれを凌駕するオープンソース モデルをトレーニングし、AI コミュニティ全体に衝撃を与えました。 一方、アリババのQwenは、1、2か月ごとに能力の限界を押し広げています。 昨年を例に挙げると、6月にリリースされたQwen2は、オープンソースのベンチマークであるLlama 3を完全に上回り、わずか1日で3万回以上ダウンロードされました。また、8月にリリースされたQwen2-VLは、マルチモーダル機能においてGPT-4oなどのクローズドソースモデルさえも上回りました... 次にHugging Faceがあります。同社のMiniCPMシリーズはオープンソースコミュニティで広く愛されており、2024年に最もダウンロードされた国内モデルの1つでした。 さらに、Wallfacer は常にオープンソースで積極的に活動しており、そのプロジェクトの多くはコミュニティから多くの賞賛を受けています。 現在、MiniCPM-o 2.6 は GitHub と Hugging Face でオープンソースとして公開されており、無料で試せるオンライン デモも用意されています。 |
世界初!中国国産のオープンソースAIエッジコンピューティングプラットフォーム「GPT-4o」が海外で大ヒット。わずか80億個のパラメータでiPad上で動作します。
関連するおすすめ記事
-
マルチドメイン地球科学アプリケーション: 浙江大学のチームは、地理学、海洋学、地質学、大気の分野における時空間モデリングと予測を支援する GeoAI シリーズの手法を提案しました。
-
7日間でAIエージェントアプリケーションを開発!秘密兵器:統合データベース。
-
PerplexityがDeep Researchを無料公開:R1、o3-miniなどを上回るパフォーマンス。CEO:DeepSeekに感謝
-
李菲菲のスタートアップが16億人民元を調達! チームが初めて公式発表:3分の1は中国人で、黄氏(スティーブ・ジョブズの創業者)らが投資している。
-
何小鵬:私たちは今年、エンドツーエンドのソリューションに35億元を投資し、2日ごとに繰り返して「ドアツードア」の体験を実現します。
-
第 1 回 AI ウィンター キャンプからの優れた学習ノートです。