618ZXW

AI でコーディングする新しい方法: スクリーンショットで何千行ものコードを置き換えます。

最近最も流行しているコード記述方法は何ですか?

答えはおそらくスクリーンショットでしょう。

そうです、次のようになります。まず、任意の Web ページを見つけて、必要なインターフェースの部分をキャプチャし、プロンプトとともにそれを AI に「フィード」します。

同様の HTML ページを生成するには、このページを参照してください。

写真と文章だけで、AIがすぐにコードを書き出してくれました。

この機能により、フロントエンドプログラマーはシンプルなWebページコードの作成がはるかに簡単になります(プログラミング初心者でもWebページの作成に挑戦できます)〜

さらに、この AI は外国のアプリケーションではなく、本日のGDC (Global Developers Conference) で披露されSenseTime の Office Raccoon 2.0 の最新アップグレード機能です。

国産AIの品質は向上し続けていると言えるでしょう。

△センスタイムのリトルラクーン部門責任者、賈安耶氏

発表イベント全体を通じて、最も大きなポイントは、SenseTime の Office Raccoon 2.0 が単に新機能を追加するだけではなく、オフィス AI をアシスタントから自律実行機能を備えたインテリジェント エージェントに変革する点でした

これをどう理解すればいいのでしょうか?読み進めていきましょう。

オフィスAI:便利なものからユーザーフレンドリーなものへ

スクリーンショットを撮ってコードを記述できる機能は、Office Raccoon 2.0 の新機能の 1 つの側面にすぎません。

今回、Little Raccoon は「Daily Renewal」融合モデルネイティブなマルチモーダル融合機能を組み込み、マルチモーダルな理解とインタラクションを実現しました。

例えば。

データ分析は、オフィスで誰もが多かれ少なかれ遭遇するタスクの一つです。Office Raccoon 2.0を使い始めてから、効率性が飛躍的に向上しました。

データのクリーニングと前処理の段階では、欠落データの補完、エラーの修正、形式の統一、重複コンテンツの削除、データ型の変換、さらにはテキストの文字化け問題の解決など、データ内のさまざまな問題を自動的に処理できます。

これにより、データ分析の初期段階での速度と精度が向上します。

データをより明確に確認できるように、Office Raccoon 2.0 ではデータの視覚化もサポートされています。

最も適したグラフを自動的に選択し、重要な情報が一目でわかる美しく明確なグラフを生成します。

必要に応じてスタイルやレイアウトを調整したり、インタラクティブなグラフを作成したりすることもできます。複雑なツールの使い方がわからなくても、プロフェッショナルなデータグラフを簡単に作成できます。

さらに、Office Raccoon 2.0 には、パターンを認識して傾向を分析する機能もあります。

また、自動的に、データ内の隠れたパターンを発見したり、時間データの傾向を特定したり、外れ値や変動を見つけたり、将来の傾向を予測したり、さまざまなデータ間の関係を分析したりすることもできます。

従来は専門的な統計知識を必要としていた分析タスクも、今では AI で処理できます。

次の例は、アライグマに「哨戒機2」の興行収入を予測させるプロセスを示しています。

もちろん、まだご質問やさらなるニーズがある場合は、対話を通じて質問することもできます。

Excel、TXT、Word、PDF などの複数のファイル タイプを処理して、完全でマルチモーダルなレポートを直接生成することもできます。

ただし、これはデータ分析タスクに限定されません。Office Raccoon 2.0 では、ここで示したモデルがほぼすべてのシナリオに統合されています。

このモデルは、「3段階のプロセス」として要約できます。

最初のステップは計画です。計画フェーズでは、世界の知識(事前トレーニングフェーズからの情報)、ネットワーク情報(インターネットからのリアルタイム情報)、および独自のデータ(プライベートドメイン知識ネットワークからの情報)を自律的に統合できます。

2 番目のステップは分析です。分析フェーズでは、データとドキュメントを効果的に分析して、有用な情報を抽出できます。

3 番目のステップはライティングです。上記のステップに基づいて、コンテンツが生成され、情報ソースがインテリジェントに校正され、さまざまな複雑なタスクを完了するための創造的な作成が支援されます。

結論として、現代のオフィスAIは人間のツールを巧みに使いこなせるようになりました。実行結果をフィードバックとして会話に継続的に取り入れることで、自律的な作業能力を高め、適用シナリオを拡大し、より大きな価値を実現することができます。

はい、重点は有用性から使いやすさに移りました。

Code Raccoonもアップグレードされました。

Office Raccoon に加えて、このファミリーの別のメンバーであるCode Raccoon 2.0でも、多くの新機能が導入されました。

これまでのコード補完や質疑応答のインタラクションと比べて、その最大の特徴は多次元データ融合マルチモーダル推論です。

CodeRaccoon 2.0 は多次元データ融合に非常に優れており、開発者の手間を大幅に軽減できます。

まずはローカルデータフュージョンから始めましょう。これは、個人のコードデータとコードリポジトリを管理できるインテリジェントな執事のようなもので、いつでも使いたいコードを簡単に見つけ、素早く再利用して開発をスピードアップできます。

企業内のクラウドとデータの統合を見ると、以前は各部門のデータが孤立した島のような状態でした。現在では、これらの孤立した島々がつながり、企業のデータベースとナレッジベースが適切に統合されています。

全員が協力して開発に取り組めば、情報共有は驚くほどスムーズになります。何度もやり取りしたり説明したりする必要がなくなり、時間と労力を節約できます。

さらに、オンラインで知識を検索できるため、インターネット上で多くの有用な情報を見つけてローカルデータに追加することができ、開発作業に新しい情報が継続的に提供され、思考が広がります。

実際の応用面では、Code Raccoon 2.0 は、1 行でも複数行が接続されていても、コードを完成させるのに役立ち、エラーの修正にも役立ちます。

タスク内の特定のポイントを調整する必要がある場合、その 1 つのポイントを変更するだけでなく、ファイル全体の関連する複数のタスクを同時に変更することもできるため、非常に便利です。

さらに、より具体的な開発プロセス操作を実行できるため、より包括的なプログラミング支援機能を提供します。

たとえば、ワンクリックでコメントを追加する:

そして自然言語を使って継続的に質問します

Code Raccoon 2.0 は、個々のユーザーだけでなく、企業全体のコード資産の管理にも役立つため、企業にとっても便利であることは注目に値します。

それはどのような経営スタイルですか?

まずコードを注意深く検査し、問題のある部分を見つけ出し、その後の開発を進めてコードをより良くしていきます。この最適化とアップグレードのプロセスは無期限に継続されます。

さらに、ソフトウェアに対するすべての人のニーズを最初に把握することから、ソフトウェアが使いやすいかどうかをテストすることまで、すべてを包括的に管理し、ソフトウェア開発における多くのプロセスをカバーします。

これにより、企業のコード品質が向上し、将来のメンテナンスが容易になります。

マルチエージェントアプリケーションの開発について心配する必要はもうありません

Little Raccoon ファミリーのアップグレードが SenseTime のアプリケーション層における最新リリースであるとすれば、SenseTime は今回の GDC で、基盤となる大型デバイスに関しても大きな動きを見せたことになります。

まず、マルチエージェント アプリケーション開発の課題を克服できる開発者ツール、 LazyLLMがあります。

つまり、LazyLLMは、開発者がマルチエージェント、大規模モデルアプリケーションを構築するためのワンストップのオープンソースフレームワークです。開発者が複雑なAIアプリケーションを非常に低コストで構築し、継続的に反復処理と最適化を行うことを支援します。

次に、LazyLLM の機能を見てみましょう。

まず、コード設計の観点から見ると、そのシンプルさはすぐに明らかになります。

たとえば、数式をコードで表現する場合、LazyLLM、LangChain、LlamaIndex と比較すると、LazyLLM のコードは大幅に短くなります。

第二に、LazyLLM は、呼び出しと展開に関する現在の多数の「オプション」に直面して、統一を実現しました。

モジュールに関係なく、ユーザーはそれを統一された方法で呼び出し、さまざまな基本モデル、トレーニングおよびプロモーション フレームワーク、データベースを柔軟に実験できます。

微調整サービスも提供しており、顧客が垂直産業に適用しやすくなることも特筆に値します。

LazyLLM のもう一つの大きな特徴は、開発の容易さです。

たとえば、RAG マルチパス リコール アプリケーションは 10 行のコードで構築でき、ChatBot は 3 行のコードで構築できます。さらに、カスタム変換ルールやマルチパス リコール戦略も、わずか 2 行または 3 行のコードで RAG アプリケーションで使用できます。

さらに、LazyLLM のハイライトは次のとおりです。

  • データフロー中心のアプリケーション開発パラダイム:LazyLLMはデータ中心であり、パイプライン、パラレル、スイッチ、If、ループ、ダイバータ、ワープ、グラフなどのデータフローを介して既存のコンポーネントや他のオープンソースソフトウェアを接続できます。また、アプリケーション開発中のデータの継続的な反復処理をサポートし、データパフォーマンスを継続的に向上させます。
  • 大規模アプリケーションモデルをビルディングブロックのように開発:LazyLLMは、洗練されたモジュール設計と直感的なコーディングスタイルにより、開発者のアイデアをより迅速に市場投入することを可能にします。同時に、開発者はインテント認識、ナレッジベース検索機能、大規模モデル機能、そしてビルディングブロックのようなその他の機能を迅速に組み合わせて、完全なアプリケーションを開発できます。
  • 複雑なアプリケーションをワンクリックでデプロイ:LazyLLMは軽量ゲートウェイを活用し、分散アプリケーションをワンクリックでデプロイできるようにすることで、ユーザーが製品を迅速に市場に投入できるよう支援します。インテリジェントエージェントを開発すれば、ユーザーはWebページ、WeChat Work、DingTalkなどのプラットフォームにワンクリックでデプロイできます。さらに、このフレームワークはクロスプラットフォームの互換性、異なるオペレーティングシステム、そして異なるクラウドインフラストラクチャをサポートしています。
  • マルチエージェント オーケストレーション: FunctionCall、React、ReWOO、PlanAndSolve などのさまざまなエージェントをカプセル化します。
  • クロスプラットフォーム: 複数のオペレーティング システム (Windows、OS、Linux など) およびさまざまな IaaS プラットフォーム (ベアメタル、Kubernetes、Slurm、パブリック クラウドなど) と互換性があります。

要約すると、LazyLLM を使用すると、ユーザーは、ビルディング ブロックのように、最も簡単な方法と最小限のコードを使用して、複雑で強力なマルチエージェント AI アプリケーション プロトタイプを迅速に構築し、生産性の高い大規模な AI モデル アプリケーションを迅速に構築できます。

SenseTime は、LazyLLM 開発ツールをベースに、 Wanxiang Platformと呼ばれるアプリケーション開発プラットフォームもリリースしました。

全体として、モデル管理、微調整、推論、評価などの機能を統合した、エンタープライズレベルのワンストップモデル開発・管理プラットフォームです。オープンソースおよびクローズドソースの様々な大規模モデルを提供し、SenseCoreマルチカードクラスタをベースとし、リアルタイム呼び出しと迅速なスケーリングをサポートし、国産チップや異機種コンピューティングパワーマネジメントとの互換性を備えています。

Wanxiang プラットフォームのコア機能の 1 つは、効率的な推論と簡単な微調整です。

PPL.LLM や LightLLM などの複数の推論フレームワークをサポートしているだけでなく、人気の DeepSeek フルバージョン、SenseTime SenseNova、Meta、Alibaba、Zhipu などの多くのオープンソース モデルを含む、さまざまな主流の大規模モデルをワンクリックで構築することもできます。

第二に、Wanxiang アプリケーション開発プラットフォームは LazyLLM をベースとしているため、統一されたキャンバス インターフェースを通じて LLM アプリケーション開発、RAG コア アルゴリズム、マルチモーダル モジュール オーケストレーションを統合し、ユーザーはアルゴリズム コンポーネントを柔軟に組み合わせ、即座にテストと調整を実行し、ワンクリックで微調整サービスを開始できるため、効率的で便利なプロセス オーケストレーション機能を実現できます。

注目すべきは、Wanxiang プラットフォームがクラウド コンピューティング能力への依存を打破したことです。

クラウドとローカルサービスの連携に対応し、オープンなサードパーティモデルアクセスインターフェースを備えているため、ユーザーは独自のMaaSプラットフォームを使用してサービスを提供し、アイドル状態のコンピューティングパワーを活用することができます。

さらに、Wanxiang プラットフォームはローカルに展開してプライベートに配信することができ、国内のデータベースやチップと互換性があり、データのセキュリティを確保し、監査コンプライアンスに準拠しています。

センスタイムの「AIと人間の協働」ビジョン

最後に、本日の GDC における SenseTime の一連の発表を要約し、大型モデルの開発パスにおける SenseTime の戦略的レイアウトを探る必要があります。

アプリケーション層、つまりLittle Raccoonファミリーのアップグレードから、SenseTimeはAIがサポート的な役割を果たすだけでなく、より複雑な問題の解決を自動化する役割も果たすことを望んでいます。

SenseTimeのOffice Raccoon 2.0とCode Raccoon 2.0は、人間の作業効率を向上させる補助ツール(Copilot)としての役割だけでなく、自律的にタスクを実行できるエージェントへと徐々に進化しています。

Office Raccoonはタスクの計画、データ分析、レポート生成を自律的に実行し、Code Raccoonはファイル間のマルチタスク変更やコード資産の管理も実行できます。この変革により、AIは複雑なタスクをより自律的に処理できるようになり、人間の反復作業を削減できます。

基盤デバイスの観点から見ると、SenseTime は LazyLLM オープンソース フレームワークと Wanxiang プラットフォームを通じて AI アプリケーション開発のハードルを大幅に下げました。

初心者開発者でも、シンプルな組み立てとモジュール設計により、複雑なAIアプリケーションを迅速に構築できます。この開発障壁の低いアプローチにより、より多くの企業や個人がAIアプリケーションの開発に参加できるようになり、AI技術の普及と応用が促進されます。

これら 2 つには、マルチモーダル融合と推論という共通点もあります。

これは、最近マルチモーダル推論と融合で飛躍的な進歩を遂げ、テキスト、画像、音声、ビデオなどの複数のモダリティのデータを処理できる、SenseTime の「Daily Update」融合ビッグモデルのおかげでもあります。

この強化されたマルチモーダル機能により、AI は複雑な現実世界のタスクをより適切に理解して処理できるようになり、AI と人間の間の連携機能がさらに強化されます。

このことから、センスタイムが以前提唱した「大型デバイス+大型モデル+アプリケーション」という「3in1戦略」が、今もなお有効であることが容易に分かる。

センスタイムの共同創業者であるリン・ダーフア氏は最近のインタビューで、急速に変化する大規模モデル市場に対する現在および将来のセンスタイムの戦略的アプローチを明らかにした。

AI開発の今後の方向性は、言語モデルからマルチモーダル、推論、そして世界モデルへと進化することです。産業の中核タスクを突破し、真の商業価値を実現するには、大規模なモデルが必要になります。

DeepSeekのトレーニング最適化は、コンピューティング能力の要件を軽減するものではありません。むしろ、推論市場は急速に成長しており、競争は激化しています。SenseTimeの中核戦略は、単にAPI価格競争に巻き込まれるのではなく、マルチモーダル技術、業界をリードするアプリケーション、そしてハードウェアとソフトウェアの統合を通じて、価値の高いAIエコシステムを構築することです。

DeepSeekが先導する低コストで高性能な「中国式AIトレンド」は継続しており、SenseTimeの今日の最新リリースから判断すると、このトレンドは止まらず出現し続けている。