|
Manus の背後にある「Butterfly Effect」という会社は、まさにインテリジェント エージェント業界全体に火をつけました。 オープンソースのレプリケーションのトレンドが生まれ、商用のクローズドソース製品も人気を集めています。 現在最も速く進んでいる 2 つのプロジェクトは、どちらも Manus リリースの 0 日目に再現コードをリリースしました。 先に紹介した OpenManus に加えて、別のオープンソース プロジェクトである OWL が、DeepSeek モデルをマルチエージェント コラボレーション フレームワークに統合しました。 OWL は、中国のオープンソース コミュニティのCAMEL-AIチームから生まれました。 OWL の最新の提出物は、GAIA エージェント ベンチマーク検証セットの平均スコアで 3 位、オープン ソース プロジェクトの中で 1 位にランクされています。 レベル 1 のスコア81.13は OpenAI の Deep Research を上回り、Manus のスコア86.5に非常に近い値です。 レベル 2 とレベル 3 のスコアの間にはまだ差があるものの、CAMEL-AI チームのLi Guohao氏はディスカッション グループで最高スコアを達成できると自信を示しました。 今日の GitHub のトレンド リストは主にエージェント関連のプロジェクトとライブラリで構成されており、確立されたエージェント プロジェクトである MetaGPT と AutoGPT の両方がトップにランクインしています。 Camel-AIやOpenManusが利用するブラウザ用コードベースも登場し、金融やプログラミングなどの分野における垂直型インテリジェントエージェントも注目を集めています。 一方、Claude のチームがModel Context Protocol (MCP)をリリースしてからもう半年ほど経っていることに気づいた人もいますが、なぜ突然みんながそれについて話すようになったのでしょうか? 誰もがマヌスを作成する方法を知りたいと考えており、MCP はこれを実現するための効果的な方法であることがわかりました。 マヌス島が海外で人気にマヌス自身の進歩を見てみましょう。 一時的に停止されていた公式ソーシャルメディアアカウントは現在復旧しており、同社はさらなるデモやアップデートをリリースするとしている。 「Manus」という商品は海外でもヒットしており、その方法も招待コードを送るだけと非常にシンプルです。 マヌスの共同創業者であるジ・イーチャオ氏は、海外のインフルエンサーに個別にコードを送ったほか、ハグフェイスのCEOにも連絡を取り、先着順で100個のコードを公開した。 会話の中で、Ji Yichao氏は、エージェントの能力は基本的な能力の問題というよりも、むしろ調整の問題である可能性があると述べました。基本モデルは「タスクがいかに複雑であっても、すべての質問に一度に答える」ように訓練されており、「エージェントの軌跡を少し後から訓練するだけで、すぐに大きな変化を生み出すことができます」。 (ちなみに、コード化するのはやめてください。深夜までに売り切れてしまいます。) コードを受け取った海外のユーザーの体験談も、ここで紹介したものと似ています。多くの人が実際に使ってみて驚き、熱狂的な支持者になったのです。 さらに、月額 2 万ドルかかる OpenAI の博士レベルの AI エージェントよりもはるかに安いため、海外のユーザーは実際に支払いに前向きです。 マヌスを入手したら、多くの人がまず最初に行うことは、自分の情報を収集し、個人のホームページを作成して展開することです。 ローワン・チャン氏は、マヌス社が彼について収集した個人情報は100%正確かつ最新のものであると述べた。 日本のネットユーザーからも、マヌス氏に自己紹介のウェブサイトを立ち上げてほしいという同様の依頼があった。 彼は自身の経験から、Manus はすべてのタスクを単独で完了できるものの、誰かに指示を与えるのと同じように、プロセス中にフィードバックを与えると、柔軟に計画を変更して実行することもできると詳細を話しました。 より複雑なプログラミング タスクには、JavaScript 飛行ゲームの作成が含まれます。 10 分以内に賃貸情報を見つけるディープリサーチツールとして使用している人もいます。 主な不満は、速度が遅いこととコードが不足していることに集中していました。 もう一つManus が台頭したことによる副作用の 1 つとして、 GAIA ベンチマークはスマート エージェント製品の激しい競争の場になりつつあります。 GAIAは、Meta AI、HuggingFace、AutoGPTのチームによって立ち上げられ、チューリング賞受賞者のヤン・ルカン氏とHuggingFaceのチーフサイエンティストであるトーマス・ウルフ氏が参加しています。GAIAは、既存の大規模言語モデルベンチマークが急速に追い越され、新しいモデルの評価が困難になっているという問題の解決を目指しています。 GAIA テストは、明確な回答のある 450 以上の複雑な質問で構成され、3 つの難易度に分かれており、インテリジェント エージェント システムのツール使用能力と自律性をテストします。 レベル1:問題は通常5ステップ以内で、ツールは全く必要ないか、多くても1つのツールしか必要としません。単純な情報検索と処理は、優れた言語モデルであれば実現可能です。 レベル2: 5~10ステップと様々なツールの組み合わせが必要です。例えば、「添付のExcelファイルに基づいて、地元のファストフードチェーンにおける食品(飲料を除く)の総売上を計算してください。」 レベル 3:ほぼ完璧な汎用 AI アシスタントを目指します。AI は、任意の長さの複雑なアクション シーケンスを実行でき、さまざまなツールを使用でき、広範な世界知識と情報取得機能を備えている必要があります。 例えば、「2006年1月21日のNASAの毎日の天文画像には2人の宇宙飛行士が写っています。2023年8月時点で、NASAの宇宙飛行士チームの中で宇宙滞在時間が最も短い宇宙飛行士とその期間を求めなさい。」といった問題です。このような問題を解くには、オンライン検索、情報のフィルタリング、知識に基づく推論など、複数の能力を組み合わせる必要があります。 人間はレベル 2 とレベル 3 でそれぞれ92% と 87.3%の成功率を達成しましたが、テストのリリース時点で最先端の言語モデル GPT-4 の成功率はそれぞれ 9.7% と 0% でした。 さらに、GAIAリーダーボードはテストと検証の2つの部分に分かれています。検証セットは公開データであり、テストセットは非公開データです。テストセットの方が価値が高いと考えられています。 現在、テスト セット リーダーボードでは、2 つの商用クローズド ソース システム、 h2oGPTe Agent (H20.ai 製) とTrase Agent (Trase Systems 製) のレベル 2 スコアが、Manus が公開したスコア (70.1%) に近い値になっています。 マヌスチームはレベル 3 スコアが 57.7% と、大きなリードを報告しました。 ImageNetデータセットとコンテストがディープラーニングの波を先導して以来、それぞれの時代には最先端技術の開発を導く独自の人気リストが存在してきました。 BERT 時代、言語理解のベンチマークはCLUE と SuperCLUEでした。 その後、ChatGPT、Claude、Gemini が、さまざまな分野の知識をテストするMMLUや、ユーザーが足で投票する大規模モデルアリーナであるChatBot Arena を制覇しました。 o1/r1/QwQ 型推論モデルは、数学(AIME、FrontierMath)、博士レベルの科学問題(GPQA)、プログラミング/ソフトウェア エンジニアリング スキル(Codeforces、SWE-bench、LiveCodeBench) で競争しています。 インテリジェント エージェントに GAIA を使用することは、最新の業界コンセンサスになりつつあるようです。 それとも、近い将来、インテリジェント エージェント アリーナである AgentArena に期待してもいいのでしょうか? オープンマナス フクロウ ガイア・ベンマーク |
Manus がインテリジェントエージェントのレプリケーションの波を巻き起こしています。DeepSeek が統合され、このプロジェクトはオープンソースチャートで優位に立っています。
関連するおすすめ記事
-
Aitomatic は、Meta、東京エレクトロン、FPT ソフトウェアなどの協力を得て、半導体業界向けの最初のオープンソースの大規模モデルをリリースし、企業の技術的自立性を効果的に「確保」しました。
-
世界初の宇宙インテリジェンス分野における上場企業!浙江大学と清華大学の「三銃士」とNVIDIA Genomicsが、2つの大きな技術的ギャップを埋めています。
-
史上最も厳しい中国の真正性評価:OpenAIはO1で1位、Doubaoで2位にランクイン、他はすべて不合格。
-
4Dアノテーションから始まる物理世界のシミュレーション | 整数知能との対話
-
退学寸前だったハーバード大学の学生が、起業を目指して自主的に学業を休学することを選んだ | ビル・ゲイツの自伝、*ソースコード*
-
100台以上のヒューマノイドロボットを同時に訓練できる国内初の異種ヒューマノイドロボット訓練場が正式にオープンした。