618ZXW

Andrew Ng 氏のエージェント技術における新たな成果が正式に発表されました!ゼロサンプルラベリングにより、画像内の物体検出が可能になります。

ちょうど今、AI の専門家 Andrew Ng 氏が、自身のスタートアップであるAgentic Object Detection の新たな成果を正式に発表しました。

ラベル付けされたトレーニング データを必要とせず、モデルは推論を通じて画像内の指定されたオブジェクトを見つけることができます。

たとえば、イチゴがたくさん写っている写真で「熟していないイチゴ」というプロンプトが出れば、AI モデルがすぐにイチゴを見つけるお手伝いをします。

アンドリュー・ン氏によると、これまでは視覚 AI が物体を認識するために大量のラベル付きデータでトレーニングする必要がありましたが、現在では AI は画像を一目見て短時間 (現在は約 20 ~ 30 秒) 考えるだけで、正しい内容を即座に出力できるようになります。

推論を通じてゼロサンプルラベリングを実現する方法は多くのネットユーザーを興奮させ、将来の応用に大きな可能性を秘めています。

このAIツールは現在、誰でも無料でご利用いただけます(開発者向けのAPIも利用可能です)。わずか数時間で、多くのネットユーザーがすでに試用しています!

ネットユーザーはそれを試して大興奮!

まずはAndrew Ng氏の詳しい紹介を見てみましょう。

彼の見解では、Agentic Object Detection はオブジェクト検出のワークフローを変えました

従来の視覚 AI オブジェクト検出では通常、データにラベルを付けるために多数の境界ボックスを描画し、ニューラル ネットワークでトレーニングする必要があります。

新しいAIシステムは、時間と労力を要するラベリングプロセスを排除します。認識、計画、行動を統合し、一連のツールを呼び出し、タスクの長さについて推論することで、最終的にゼロサンプルのラベル付き入力と出力を実現します。

彼によれば、これは o1 と DeepSeek R1 の「オープンアイ」バージョンのようなもので、一目見てすぐに考えて答えるというものです。

プレゼンテーションでは、冒頭で触れたイチゴの認識に加え、他のデモもいくつか紹介されました(違いを見つけてください)。

2つのエンジンを搭載した飛行機

たとえば、スーパーマーケットの棚で特定のブランドのシリアルを見つけることです。

ケロッグブランドのシリアル

もちろん、より実用的なシナリオとしては、家の中の引き出しや戸棚を探しても見つからないものがあったときに、助けを求めて電話をかけることができます(お母さん:いつも私のことをママと呼ばないで)。

さらに、ネットユーザーは共同で課題を提出するようになり、そのほとんどが全体的に成功を収めています

簡単な例としては、クリケットの打者を識別することが挙げられます。

または、特定のプログラム項目を検出することもできます。

もう 1 つの例は、空中からの視点で砂漠の植生を見つけることです。

もちろん、下記のような日常的な例もあります。AIは大きな皿に盛られた料理の中から寿司を見つけることはできましたが、棚にあるソーダを探す際には、ブランド名「ファンタ」を指定して検索した場合にのみ成功し、「ソーダ」というだけでは不十分だったとユーザーから報告がありました。

さらに難しいのは、アメリカンフットボールにおける攻撃側と守備側の選手の識別(上位と下位の一致の検証)です。

非常に小さなダーツも素早く見つけることができます。

しかし、一部のネットユーザーもいくつかの災難の事例を共有した。

同じ写真で、ネットユーザーが帽子をかぶっている人物を探そうとしたとき、AIは明らかにそれを見逃し、チームメンバー23番を簡単に見つけることができました。

さらに、画像内の長方形も認識できません。(地面、私を見て)

ネットユーザーの要約によると、Agentic Object Detection はまだいくつかの一般的な問題 (オクルージョン、露出オーバーなど) に十分に適応していないことは明らかです。

イチゴに関して前述したように、鋭い観察力を持つネットユーザーの中には、照明が不十分な熟したイチゴを AI が誤って「未熟」と認識していることを発見した人もいました。

しかし、アンドリュー・ン氏は、これはあくまでも予備的な試みであり、検出品質や応答速度などは今後最適化される予定であると述べています。

アンドリュー・ン氏の2番目の起業プロジェクトより

よく知られているように、アンドリュー・ン氏は2017年に百度(百度の元主任科学者)を退社し、AI起業に専念しました。

現在、3 つの人工知能プロジェクトが知られています。

2017年6月、彼は主に教育に関連した初のスタートアッププロジェクトであるDeeplearning.aiを正式に発表しました(現在はスタンフォード大学のコンピューターサイエンスの客員教授です)。

これは、ディープラーニングのコースとリソースを提供することで、人々が AI テクノロジーを学習するのを支援するオンライン AI 教育プラットフォームです。

その後、彼は企業の人工知能変革の実現を支援することに重点を置いた2番目のスタートアップ、Landing.aiを立ち上げました。

当初の導入当初の目標は、AI技術を通じて企業の効率性を向上させ、製造業の課題を解決することでした。これには、生産効率の向上、サプライチェーン管理の最適化、廃棄物の削減などが含まれます。

その後、Landing.ai は Foxconn などの企業と戦略的パートナーシップを構築し、AI 技術、人材、システムを共同で開発しました。

公式発表ビデオから判断すると、この Agentic Object Detection はそのプロジェクトから生まれたものです。

これは、この新しいツールが B2B アプリケーションを対象としている可能性が高いことも示唆しています。

ほぼ同時に、2018年に彼は3番目のスタートアップであるAI Fundを立ち上げました。これは明らかに人工知能のスタートアップへの投資に重点を置いた投資ファンドです。

当時の資金調達額は1億7500万ドルで、投資家にはNEA(New Enterprise Associates)、Sequoia Capital、ソフトバンクなどの著名な機関が含まれていました。

最近、彼はエージェントインテリジェントエージェントに大きな賭けをしています。

昨年の初めに、彼はDeeplearning.aiプラットフォームを通じて次のような予測を立てていた。

次世代の基礎モデルを超えて、エージェント ワークフローは AI の驚異的な進歩を推進します。

当時、彼は、大規模言語モデル (LLM) がゼロショット モード (モデルは操作を変更せずに最終出力トークンを 1 つずつ生成するように指示される) で動作するのと同様に、エージェントは一連のステップ (計画、実行、反映など) を実行した後に、単一のショットよりも優れた結果を生成する可能性があると述べました。

さて、一連の新たな発見を徐々にテストする時が来ました。

では、この技術の他の潜在的な用途について何か考えられますか?

(多くのネットユーザーと同じ疑問が浮かび上がりました)

オンラインでプレイ: https://va.landing.ai/demo/ag...