|
ヨーロッパのOpenAIはChatGPTのすべての機能をコピーしました。 Mistral AI の大規模モデル プラットフォーム Le Chat には、Canvas、オンライン検索、PDF アップロードなど、ChatGPT と同様の機能が追加されており、すべて無料です。 3大主流の大型機種の機能が1か所でアクセスできるようになりました。 さらに、同社は有名なグラフィックモデルFluxとの提携を公式に発表し、Le Chatプラットフォーム上でオンライン画像生成機能も無料で提供すると発表した。 QuantumBit による簡単なテストでは、検索、ドキュメントの要約、描画などの新しい機能がすべて中国語をサポートしていることが明らかになりました。 ミストラルのCEO、アーサー・メンシュ氏は、Le Chatの新バージョンは画期的なものであり、同プラットフォームが「より成熟した存在」となることを示すものだと述べた。 ChatGPTの同じ機能を無料でご利用くださいMistral の公式プラットフォームである Le Chat (「チャット」のように見えますが、実際にはフランス語で「猫」を意味します) は、ChatGPT に似た一連の無料機能を開始しました。 ミストラルが公開した表によれば、o1と音声ダイアログを除けば、ほぼすべての機能が含まれています。 これには、OpenAI が新たにリリースした高度なインターフェースである Canvas も含まれます。これは現在 ChatGPT のメンバー限定機能です。 Le Chat の Canvas では、生成されたテキストを個別に表示できるため、会話から手動で抽出する必要がなくなります。 コードも同様にコピーでき、リアルタイムプレビューをサポートしています。また、コードの一部を選択して修正をリクエストすることもできます。 次はオンライン検索です。ChatGPTと同様に、Le Chatは質問とソース情報に基づいてオンライン検索の要約を作成でき、非常に高速です。 さらに、Le Chat では、複雑な PDF ドキュメントや画像を処理し、表、グラフ、テキスト、数式、方程式、その他のコンテンツを含む分析や要約を実行できるようになりました。 以下の例では、Le Chat は、アインシュタインらが 1935 年に執筆した量子もつれに関する有名な論文の情報抽出、要約、意味理解を実行します。 最新のLe Chatは、画像解析に加えて、テキストベースの画像もサポートしています。ただし、Mistral社はまだこの目的のための独自のモデルを開発しておらず、Flux社と提携してそのモデルを統合することを選択しました。 会話内でエージェントを作成して @ を付けることで、タスクをインテリジェントに実行することもできますが、現在、作成ページはフランス語でのみ利用可能です。 ただし、Mistral の現在のモデルはまだ音声モードに拡張されていないため、Le Chat には ChatGPT にある高度な音声対話機能がなく、デスクトップ クライアントもありません。 したがって、Mistral の動きは機能面で ChatGPT に追いつこうとする試みと見られますが、本当に追いつくにはまだ程遠いものです。ただし、無料であるという利点はあります (冗談です)。 マルチモーダルモデルの拡大版を公開Le Chat で提供される画像解析機能は、同じく本日リリースされたマルチモーダル大型モデルの大型バージョンであるPixtral Largeによって提供されます。 123個のパラメータを持つデコーダーと1個のパラメータを持つビジュアルエンコーダーを含む、 124個のパラメータを備えています。ミストラルは以前、より小型の12パラメータバージョンをリリースしていました。 コンテキスト ウィンドウは 128k なので、一度に少なくとも 30 枚の高解像度画像を処理できます。 機能的には、Pixtral Large は多言語 OCR 認識をサポートし、それに基づいて推論を実行します。 また、チャートを理解し、チャート内の傾向を分析することもできます。 一方、Pixtral Largeは、トレーニングプロセスにおいてフロントエンドアプリケーションも考慮に入れています。MistralのCEO、アーサー・メンシュ氏は次のように説明しています。
モデルの性能に関しては、ミストラルによれば、Pixtral Large は現在の最先端 (SOTA) ビジョン モデルです。 MMMU、MathVista、ChartQA を含む 6 つの異なるタスク型データセットにおいて、Pixtral Large は Gemini-1.5 Pro や GPT-4o よりも優れているかそれに近い結果を達成し、Claude-3.5 Sonnet よりも大きな優位性を示し、オープンソース モデルの中では Llama-3.2 90B をはるかに上回りました。 さらに、MistralチームはGPT-4oを評価モデルとして採用し、独自のオープンソースベンチマークMM-MT-Benchを用いてテストを行いました。その結果、Pixtral Largeは、審査員とプレイヤーの両方の役割を果たしたGPT-4oを含む他のモデルよりも優れた性能を示しました。 Pixtralのスコアを見たネットユーザーの中には、ベンチマークをすぐに更新する必要があるとコメントした人もいる。 しかし、Reddit の一部のユーザーは、Pixtral が最先端 (SOTA) 基準に達していない可能性があると疑問を呈しています。 Mistral の公式ドキュメントでは、Pixtral と他のいくつかのモデルのみが比較されており、その中でも Llama-3.2 90B のみがオープンソース モデルと比較されています。 ただし、実際には、Qwen2-VL (72 個のパラメータを持つ最大バージョン) は、複数のデータセットで Pixtral よりも優れています。 一方、一部のデータセットでは、Pixtral のテストスコアは Molmo (シアトルを拠点とする非営利研究組織 Ai2 によって開発) よりも低い。 さらに、テストを実施した人の中には、テストした日本語のテキストを含む画像では、Pixtral Largeの認識能力はQwenの7Bバージョンほど優れていなかったという人もいました。 それで、ミストラルの新製品は良いと思いますか? 参考リンク: [1]https://mistral.ai/news/mistr... [2]https://mistral.ai/news/pixtr... [3]https://www.reddit.com/r/Loca...\_large\_2411\_and\_pixtral\_large\_reLease\_18th/ |