|
オリジナル Datawhale Datawhale Datawhaleリリース 発売元:Zhipu AI、最新フラッグシップモデル ChatGPT以来、OpenAIがリリースするすべての新しいモデルは、世界中のテクノロジー企業が追求し、ベンチマークするターゲットとなっています。 しかし、詳しく観察してみると、短期間で OpenAI の最新モデルに追いついたり、匹敵したりすることがますます難しくなってきていることがわかります。
現時点で、Zhipu AI BigModel オープン プラットフォームは多数の新しいモデルをリリースしました。 言語基礎モデル GLM-4-Plus、テキスト画像変換モデル CogView-3-Plus、画像/ビデオ理解モデル GLM-4V-Plus、ビデオ生成モデル CogVideoX。 体験住所: https://zhipuaishengchan.data... これらのモデルは、言語ベースのモデルとマルチモーダル モデルの 2 つの主なカテゴリに分類でき、Bigmodel オープン プラットフォームの包括的かつ強力な機能と、AGI を実現するという野心を明らかにしています。 ベースモデル: GLM-4-Plus、GPT-4oと同等の性能 言語とテキスト機能は、大規模モデルの最も基本的な機能であり、人との自然なコミュニケーションにも不可欠です。 GLM-4-Plus は、言語理解、指示の追従、長いテキスト処理において総合的なパフォーマンスの向上を実現しました。 言語およびテキスト能力の評価に関しては、GLM-4-Plus はパラメータの数の点で GPT-4o および Llama3.1 に匹敵します。 GLM-4-Plus は長いテキストの処理にも優れており、GPT-4o に匹敵し、Gemini 1.5 Pro や Claude Sonnet 3.5 を上回ります。 実際に使ってみると、GLM-4-Plus のレスポンスは本当に素晴らしいです! 私の国で春節祭を見た人なら誰でも知っている疑問に答えてくれます。さあ、これを使って、あなたの周りに「歩く50万人」がいるかどうか確かめてみてください(冗談です)。 GLM-4-Plus は現在 API 呼び出しをサポートしています。学習者はぜひお試しください。 マルチモーダルモデル:AGIに向けた統一的なアプローチの理解と生成 今回、Zhipu はいくつかのマルチモーダル モデルを更新しましたが、これらはマルチモーダル理解モデルとマルチモーダル生成モデルの 2 つのカテゴリに分けられます。 まず、非常に強力なマルチモーダル理解モデル、画像/ビデオ理解モデル GLM-4V-Plus から始めましょう。 優れた画像理解機能と時間を考慮したビデオ理解機能を備えています。 画像とビデオの理解機能に関しては、GLM-4V-Plus と GPT-4o は同等であり、Web ページのコンテンツを簡単に理解して HTML コードに変換できます。 視覚機能 GLM-4V-Plusは、複雑なビデオコンテンツを理解・分析する能力に加え、時間認識機能も備えています。ZhipuのBigModelオープンプラットフォーム(bigmodel.cn)に導入された後、中国初の汎用ビデオ理解モデルAPIを提供します。 ビデオ機能 動画理解の具体的な例を見てみましょう。「フィリピンでの釣り」という動画クリップでは、GLM-4V-Plusはモデルの強力な動画分析・推論能力を活用して質問に正しく答え、動画内のユーモアも「理解」しました。 <iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_3625738192759881734" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_jpg%2FvI9nYe94fsG64QQcRcdAa8HsxDW1D vmrl9haJhepMxaB54O2u45Fe4QPlib1icicdM8tjoP4iaq7ibiaIHmMibjkibsYpA%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0" data-ratio="1.7777777777777777" data-w="1920" style="border-radius: 4px;" data-src="https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_3625738192759881734"></iframe>
マルチモーダル生成モデルについて簡単に説明します。 まず、テキストベースのグラフ モデル CogView-3-Plus は、MJ-V6 や FLUX など、業界最高クラスの現行モデルに匹敵するパフォーマンスを誇ります。 2番目は、ビデオ生成モデルCogVideoXです。バージョン2Bがリリースされオープンソース化された後、バージョン5Bが正式にオープンソース化され、パフォーマンスがさらに向上し、現在のオープンソースビデオ生成モデルの中で最良の選択肢となっています。 Zhipuのマルチモーダル理解と生成モデルは現在は別々ですが、Zhipuがどちらの分野でもトップレベルに達していることは明らかです。Zhipuの様々な取り組みは、マルチモーダル理解と生成における統一的な技術的アプローチの追求を如実に示しています。つまり、AIを用いて現実世界を理解し、AIの世界を生成し、そして現実世界とAIの世界の両方を理解するというアプローチです。 AIが現実世界を完全に理解して生成し、人類がAIと現実世界を区別できなくなる日が、AGIが真に到来する日となるでしょう。 最高のAPIを最適化して最高のAIアプリケーションを作成する 大規模モデルの時代において、AI製品とアプリケーションの競争は熾烈を極めています。2024年には、数多くのAI企業の中で生き残り、競合他社に対して大きな優位性を獲得するためには、アプリケーションで競争する必要があります。アプリケーション自体に加えて、その背後で呼び出される大規模モデルAPIも非常に重要です。呼び出されるモデルが強力であればあるほど、アプリケーションのパフォーマンスは向上します。 Zhipu AI の最新の GPT-4o レベル言語基盤とマルチモーダル モデルには、膨大な応用可能性があります。 GLM-4-Plus、CogView-3-Plus、GLM-4V-Plus、CogVideoX を組み合わせると、適用可能なシナリオの数は数え切れないほどになります。 以下は、参考として、大きな可能性を秘めた現在および将来のアプリケーション シナリオの一部です。 ① インテリジェントなコンテンツレビュー
② パーソナライズ広告の生成
③ マルチモーダル検索エンジン
④ インテリジェントペットモニタリング
さらに、スマート スペクトル ベース モデルとマルチモーダル モデルは、作業アシスタント、「AI チューター」、24 時間オンライン コンパニオン ロボットの開発にも使用でき、視覚障害者が「話したり移動したりできる目」を開発し、AI のプラスの影響を最大限に高めるのに役立ちます。 OpenAI を全面的にベンチマークした当社の強さと勇気は、独立したイノベーションから生まれています。 新しく発売されたフラッグシップレベルの基本モデルにしろ、Qingyanのビデオ通話機能にしろ、Zhipu AIは中国のOpenAIにますます似てきており、それ自体が強さと勇気の象徴となっている。 では、Zhipu AI の強さと勇気はどこから来るのでしょうか? その答えは、私たち自身に弱点を残さない、独自の世界クラスのフルスタックの大規模モデルシステムである、独立したイノベーションです。 今年の OpenAI のリリースと今年の Zhipu AI のリリースを比較してみましょう。 Zhipu AI 2024 年リリースOpenAIは2024年にリリース予定志浦清英 完全にオープン ソラ 予想外 青英のビデオ通話 完全にオープン GPT-4o アドバンス版 クローズドベータテストはほとんどない GLM-4-フラッシュ APIは無料でご利用いただけます ? ? 一方、Zhipu AI が膨大な数の同時ユーザーをサポートできるという事実は、モデル、製品、インフラストラクチャにおける同社の技術力を物語っています。 Zhipu AI は、ビッグデータ モデルを使用して製品アプリケーションを強化し、現実世界の何億人ものユーザーを結びつけることで、数千の業界に継続的なイノベーションと変革をもたらし、汎用人工知能の時代への移行を加速することに取り組んでいます。 機械が人間のように考えることができるという考えは、最終的には Zhipu AI によって実現されるでしょう。 |
OpenAI に対抗するため、この大手モデリング会社は主力モデルを次々とリリースしました。
関連するおすすめ記事
-
「オープンソースコラボレーションで明るい未来を創る」—KCC@Guangzhouの第3回オフラインイベントが大盛況のうちに終了
-
ちょうど今、Musk xAI は Nvidia と AMD の投資も受けてさらに 60 億ドルを調達しました。
-
COSCon'24 オープンソースマーケットプレイスが正式にオープンしました!ぜひマーケットブースにお越しいただき、楽しいひとときをお過ごしください!
-
待望の「OPEN 1+X AI一般教育コース」開講!Datawhaleは浙江大学知海模プラットフォームと連携し…
-
大規模な安全性比較で、自動車メーカーはいかにして一位を獲得したのか?
-
ロボットは物流仕分け作業員を8時間で訓練できます!図02は、大規模導入にわずか30日しかかからなかったことを示しています。