618ZXW

OpenAI に対抗するため、この大手モデリング会社は主力モデルを次々とリリースしました。

オリジナル Datawhale Datawhale

Datawhaleリリース

発売元:Zhipu AI、最新フラッグシップモデル

ChatGPT以来、OpenAIがリリースするすべての新しいモデルは、世界中のテクノロジー企業が追求し、ベンチマークするターゲットとなっています。

しかし、詳しく観察してみると、短期間で OpenAI の最新モデルに追いついたり、匹敵したりすることがますます難しくなってきていることがわかります。

  • 2023年上半期にはChatGPTに追いつくのは比較的容易で、中国では何百ものモデルの間で激しい競争が繰り広げられました。
  • 2023年後半にはGPT-4に追いつくのはかなり難しく、中国でそれを達成した大手メーカーやモデル企業は10社にも満たなかった。
  • 2024年上半期にはGPT-4 Turboに追いつくのは非常に困難で、中国国内でこれを達成した大手メーカーやモデル企業はわずか5社にとどまっていました。
  • 今年後半にGPT-4oに追いつくのは至難の業で、国内の大手メーカーや模型会社がこれを達成するのは稀だ。

現時点で、Zhipu AI BigModel オープン プラットフォームは多数の新しいモデルをリリースしました。

言語基礎モデル GLM-4-Plus、テキスト画像変換モデル CogView-3-Plus、画像/ビデオ理解モデル GLM-4V-Plus、ビデオ生成モデル CogVideoX。

体験住所

https://zhipuaishengchan.data...

これらのモデルは、言語ベースのモデルとマルチモーダル モデルの 2 つの主なカテゴリに分類でき、Bigmodel オープン プラットフォームの包括的かつ強力な機能と、AGI を実現するという野心を明らかにしています。

ベースモデル: GLM-4-Plus、GPT-4oと同等の性能

言語とテキスト機能は、大規模モデルの最も基本的な機能であり、人との自然なコミュニケーションにも不可欠です。

GLM-4-Plus は、言語理解、指示の追従、長いテキスト処理において総合的なパフォーマンスの向上を実現しました。

言語およびテキスト能力の評価に関しては、GLM-4-Plus はパラメータの数の点で GPT-4o および Llama3.1 に匹敵します。

GLM-4-Plus は長いテキストの処理にも優れており、GPT-4o に匹敵し、Gemini 1.5 Pro や Claude Sonnet 3.5 を上回ります。

実際に使ってみると、GLM-4-Plus のレスポンスは本当に素晴らしいです!

私の国で春節祭を見た人なら誰でも知っている疑問に答えてくれます。さあ、これを使って、あなたの周りに「歩く50万人」がいるかどうか確かめてみてください(冗談です)。

GLM-4-Plus は現在 API 呼び出しをサポートしています。学習者はぜひお試しください。

マルチモーダルモデル:AGIに向けた統一的なアプローチの理解と生成

今回、Zhipu はいくつかのマルチモーダル モデルを更新しましたが、これらはマルチモーダル理解モデルとマルチモーダル生成モデルの 2 つのカテゴリに分けられます。

まず、非常に強力なマルチモーダル理解モデル、画像/ビデオ理解モデル GLM-4V-Plus から始めましょう。

優れた画像理解機能と時間を考慮したビデオ理解機能を備えています。

画像とビデオの理解機能に関しては、GLM-4V-Plus と GPT-4o は同等であり、Web ページのコンテンツを簡単に理解して HTML コードに変換できます。

視覚機能

GLM-4V-Plusは、複雑なビデオコンテンツを理解・分析する能力に加え、時間認識機能も備えています。ZhipuのBigModelオープンプラットフォーム(bigmodel.cn)に導入された後、中国初の汎用ビデオ理解モデルAPIを提供します。

ビデオ機能

動画理解の具体的な例を見てみましょう。「フィリピンでの釣り」という動画クリップでは、GLM-4V-Plusはモデルの強力な動画分析・推論能力を活用して質問に正しく答え、動画内のユーモアも「理解」しました。

<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_3625738192759881734" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_jpg%2FvI9nYe94fsG64QQcRcdAa8HsxDW1D vmrl9haJhepMxaB54O2u45Fe4QPlib1icicdM8tjoP4iaq7ibiaIHmMibjkibsYpA%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0" data-ratio="1.7777777777777777" data-w="1920" style="border-radius: 4px;" data-src="https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&amp;action=mpvideo&amp;auto=0&amp;vid=wxv_3625738192759881734"></iframe>

  • 質問: このビデオではどんなスポーツが描かれていますか?
  • GLM-4V-Plus : このビデオでは、飛び込み台から飛び込んでプールに着地する人物が映っています。
  • 質問: このビデオの何が面白いですか?
  • GLM-4V-Plus :この動画の面白いところは、誰かがプールに飛び込み、大きな水しぶきを上げているところです。視聴者は、その予想外のダイビングの結果に面白がり、ユーモラスで楽しい瞬間を作り出しています。

マルチモーダル生成モデルについて簡単に説明します。

まず、テキストベースのグラフ モデル CogView-3-Plus は、MJ-V6 や FLUX など、業界最高クラスの現行モデルに匹敵するパフォーマンスを誇ります。

2番目は、ビデオ生成モデルCogVideoXです。バージョン2Bがリリースされオープンソース化された後、バージョン5Bが正式にオープンソース化され、パフォーマンスがさらに向上し、現在のオープンソースビデオ生成モデルの中で最良の選択肢となっています。

Zhipuのマルチモーダル理解と生成モデルは現在は別々ですが、Zhipuがどちらの分野でもトップレベルに達していることは明らかです。Zhipuの様々な取り組みは、マルチモーダル理解と生成における統一的な技術的アプローチの追求を如実に示しています。つまり、AIを用いて現実世界を理解し、AIの世界を生成し、そして現実世界とAIの世界の両方を理解するというアプローチです。

AIが現実世界を完全に理解して生成し、人類がAIと現実世界を区別できなくなる日が、AGIが真に到来する日となるでしょう。

最高のAPIを最適化して最高のAIアプリケーションを作成する

大規模モデルの時代において、AI製品とアプリケーションの競争は熾烈を極めています。2024年には、数多くのAI企業の中で生き残り、競合他社に対して大きな優位性を獲得するためには、アプリケーションで競争する必要があります。アプリケーション自体に加えて、その背後で呼び出される大規模モデルAPIも非常に重要です。呼び出されるモデルが強力であればあるほど、アプリケーションのパフォーマンスは向上します。

Zhipu AI の最新の GPT-4o レベル言語基盤とマルチモーダル モデルには、膨大な応用可能性があります。

GLM-4-Plus、CogView-3-Plus、GLM-4V-Plus、CogVideoX を組み合わせると、適用可能なシナリオの数は数え切れないほどになります。

以下は、参考として、大きな可能性を秘めた現在および将来のアプリケーション シナリオの一部です。

① インテリジェントなコンテンツレビュー

  • 呼び出される機能: テキスト分析と処理、画像認識、ビデオ分析
  • 問題点への対処: テキスト、画像、ビデオ コンテンツのレビュー プロセスを加速し、違法な情報を除外し、プラットフォーム コンテンツのセキュリティを強化します。

② パーソナライズ広告の生成

  • 呼び出される機能: ビデオ生成機能。
  • 問題点への対処: パーソナライズされた広告生成により、広告のパフォーマンスが向上します。

③ マルチモーダル検索エンジン

  • 呼び出される機能:画像認識、ビデオ理解
  • 問題点の解決: ユーザーによる画像およびビデオ情報の検索の精度と効率を向上します。

④ インテリジェントペットモニタリング

  • 機能: ビデオ分析、モーション認識
  • 問題点への対処: ペットの飼い主がペットの行動を遠隔で監視し、異常があればすぐに対処できるように支援します。

さらに、スマート スペクトル ベース モデルとマルチモーダル モデルは、作業アシスタント、「AI チューター」、24 時間オンライン コンパニオン ロボットの開発にも使用でき、視覚障害者が「話したり移動したりできる目」を開発し、AI のプラスの影響を最大限に高めるのに役立ちます。

OpenAI を全面的にベンチマークした当社の強さと勇気は、独立したイノベーションから生まれています。

新しく発売されたフラッグシップレベルの基本モデルにしろ、Qingyanのビデオ通話機能にしろ、Zhipu AIは中国のOpenAIにますます似てきており、それ自体が強さと勇気の象徴となっている。

では、Zhipu AI の強さと勇気はどこから来るのでしょうか?

その答えは、私たち自身に弱点を残さない、独自の世界クラスのフルスタックの大規模モデルシステムである、独立したイノベーションです。

今年の OpenAI のリリースと今年の Zhipu AI のリリースを比較してみましょう。

Zhipu AI 2024 年リリース

OpenAIは2024年にリリース予定

志浦清英

完全にオープン

ソラ

予想外

青英のビデオ通話

完全にオープン

GPT-4o アドバンス版

クローズドベータテストはほとんどない

GLM-4-フラッシュ

APIは無料でご利用いただけます

?

?

一方、Zhipu AI が膨大な数の同時ユーザーをサポートできるという事実は、モデル、製品、インフラストラクチャにおける同社の技術力を物語っています。

Zhipu AI は、ビッグデータ モデルを使用して製品アプリケーションを強化し、現実世界の何億人ものユーザーを結びつけることで、数千の業界に継続的なイノベーションと変革をもたらし、汎用人工知能の時代への移行を加速することに取り組んでいます。

機械が人間のように考えることができるという考えは、最終的には Zhipu AI によって実現されるでしょう。