SenseTime は、10 月の SuperCLUE-V マルチモーダル大規模モデルベンチマークランキングで金メダルを獲得しました。

本日、中国のマルチモーダル大規模モデルを評価するためのベンチマークである SuperCLUE-V が 10 月のランキングを発表しました。

SenseChat-Vision5.5は、複数のタスクで優れたパフォーマンスを発揮し、国内の大規模モデルのトップクラスにランクされ、金メダルを獲得しました。

マルチモーダル大規模モデルについて議論するための API にアクセスします (期間限定で無料): https://platform.sensenova.cn...

SenseTimeの「ディスカッション」登録およびトライアルリンク：https://chat.sensetime.com/

優れたマルチモーダル機能と優れたアプリケーション機能を備えたSenseTimeのSenseChat-Vision 5.5は、73.56という高いスコアを達成し、数学的論理の側面で1位にランクされ、強力な推論能力を実証しました。

SenseChat-Vision 5.5 は、数学的および論理的次元で GPT-40 を上回る優れた基本機能を誇ります。

このSuperCLUE-Vプロジェクトは、国内外の代表的なオープンソース／クローズドソースのマルチモーダル理解モデル11種類を対象としています。本プロジェクトは、基本能力と応用能力という2つの主要な方向性を含む多次元能力評価に焦点を当てています。マルチモーダルモデルの評価は、8つの主要次元と30の副次次元を含む自由回答形式の質問形式で実施されます。

レポートによると、SenseChat-Vision 5.5は、グラフ推論やシーン推論といった数学的論理推論タスクといった基本機能において、他を圧倒する優位性を示しています。ランキングでは、数学的論理分析能力において、SenseChat-Vision 5.5がGPT-4oの最新バージョンを含むすべての参加モデルを凌駕し、1位を獲得しています。

SuperCLUE-Vは、きめ細かな評価アプローチを採用し、専用のテストスイートを構築します。各側面はきめ細かな方法で評価され、詳細なフィードバック情報が提供されます。以下は、SenseChat-Vision 5.5のテストケースの一部です。

現在、マルチモーダル大規模モデルの機能が大幅に向上し、純粋言語、マルチグラフ理解、音声、テキストからグラフ、擬人化、エッジシミュレーション、業界モデルなどのマルチモーダル、マルチバージョン、強力なシナリオのエージェント形式が提供されています。

高次の思考ロジックデータを積極的に構築し、推論機能を通じて大規模 AI モデルのインテリジェンスを強化します。

今日、複雑な推論は、異なるモデル間の機能面での大きな障壁となっています。大規模モデルの機能階層化に関して、センスタイムの会長兼CEOである徐立博士は、以前、三層アーキテクチャ（KRE）理論を提唱しました。第一層は知識（Knowledge）であり、これは世界知識の包括的な注入です。第二層は推論（Reasoning）であり、これは合理的思考の質的向上です。第三層は実行（Execution）であり、これは世界コンテンツのインタラクティブな変換です。

これら3つのレイヤーは、世界に生産性ツールを提供するための完全な能力を形成します。その中でも、基本モデルの推論能力の向上は、現在の人工知能開発における主要な方向性です。徐里博士はまた、垂直産業において高次の思考ロジックを備えた合成データを構築する方法も成功の鍵であると提唱しました。

今年7月にリリースされた「Daily Renewal 5.5」ビッグモデルシステムは、大量の高次思考連鎖合成データを革新的に活用し、推論能力を向上させました。数理論理学、英語、指示追従能力が大幅に強化され、わずか2ヶ月強でベースモデルの能力を30%向上させました。

センスタイムは今後も基礎的な大規模モデルの研究開発に投資を続け、最先端の大規模モデル技術を探求し、データと計算能力の限界を突破し、大規模モデルの革新と実装をリードしていきます。

618ZXW

SenseTime は、10 月の SuperCLUE-V マルチモーダル大規模モデルベンチマークランキングで金メダルを獲得しました。

SenseChat-Vision 5.5 は、数学的および論理的次元で GPT-40 を上回る優れた基本機能を誇ります。

高次の思考ロジックデータを積極的に構築し、推論機能を通じて大規模 AI モデルのインテリジェンスを強化します。

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ