618ZXW

7日間でAIエージェントアプリケーションを開発!秘密兵器:統合データベース。

数人のエンジニアが 1 週間で AI エージェント アプリケーションを作成できます。

その効果は次のようなものだ――

複雑で長いユーザーコマンドを理解し、適切なミルクティーショップを推奨できます。

2キロメートル以内で、評価が4.5以上、一人当たりの平均費用が25元未満の、清潔で衛生的なミルクティーのお店を推奨します。

これには、テキスト、地理情報、画像など、さまざまな形式のデータを分析および処理する能力が必要であることを理解することが重要です。

これまで、このような AI アプリケーションを構築するには、複数の異なるデータベースと、複雑なテクノロジー スタックを管理するための大規模で経験豊富なチームが必要でした。

今日では、オールインワンデータベースOceanBaseのおかげで、これを簡単に処理できます。

最新のリリース イベントで、OceanBase はリアルタイム分析および処理シナリオ向けの最初の GA バージョンであるバージョン 4.3.3 をリリースしました。

同社は、まったく新しいベクトル検索機能を導入し、 SQL + AI 統合を実現しただけでなく、マルチモーダルデータ処理機能もさらに強化しました。

すべてがAI時代に向けているように感じます。

なぜそんなことが言えるんですか?

まず、最新リリースの機能を見てみましょう。

リアルタイム分析のための最初のGAバージョン

OceanBase 4.3.3 のコア アップグレードには、主に次の 3 つの側面が含まれます。

  • APシナリオパフォーマンスの改善
  • マルチモーダルデータサポート
  • ベクトル検索とインデックス作成

まず、OceanBase バージョン 4.3.3 では、複雑なデータ型を処理する機能がアップグレードされています。

Array型の追加により、データベースは配列データを直接保存、検索、操作できるようになります。Roaringbitmap型のパフォーマンスも最適化され、大規模なデータコレクションをより効率的に処理および操作できるようになります。

次に、OceanBase 4.3.3 では、ベクトル融合クエリの主要機能が改善され、新しいベクトル検索機能が導入され、ベクトル データ型とベクトル インデックスがサポートされ、ベクトル インデックスに基づく強力な検索機能が提供されます。

ユーザーは、SQL や Python SDK などの方法を通じて、OceanBase のベクトル取得機能を柔軟に呼び出すことができます。

ベクター プラグインを汎用データベースに統合することがトレンドになっています。このアプローチにより、汎用データベースの既存の機能とエコシステムを直接再利用できるようになります。

OceanBase と Ant Group は共同でベクトル インデックス ライブラリを開発しました。このライブラリは、Ant Group の多くのビジネス シナリオ (生体認証、企業内部の知識ベースなど) で検証されており、成熟したパフォーマンスを備えています。

オンサイト ベンチマークの結果によると、ベクター ライブラリは 960 次元の GIST データセットで非常に優れたパフォーマンスを発揮し、ANN Benmarks テストでは他のアルゴリズムをはるかに上回り、第 1 位にランクされています

特に、リコール率が 90% を超える範囲では、クエリ パフォーマンス (QPS) が、以前の最良アルゴリズム glass と比較して 100% 向上し、ベースライン アルゴリズム hnswlib と比較して 300% 向上します。

このベクターエンジンは、OceanBaseのストレージエンジンとSQLエンジンを深く統合し、統合されたSQL+AIソリューションを実現します。スカラー、ベクター、空間地理クエリなどの混合クエリを単一のSQL文で実行できます。

例えば、「王小静」のデモでは、ユーザーの提案は「2キロメートル以内で、評価が4.5以上、平均価格が1人あたり25元未満の、清潔で衛生的なミルクティーショップを推薦してください」というものです。これには、テキスト、画像、位置情報など、さまざまな種類のデータの処理が必要であり、より強力なデータ分析とクエリ機能が必要です。

最後に、OceanBase 4.3.3 では、特に大量のデータの分析において、AP (分析と処理) シナリオのパフォーマンスが大幅に最適化されており、応答時間が短縮され、スループットが向上します。

  • TPC-H 1Tシナリオのパフォーマンスが64%向上しました。
  • TPC-DS 1Tシナリオのパフォーマンスが36%向上しました。
  • ClickBench のホットランパフォーマンスが 49% 向上しました。
  • コールドランパフォーマンスが 149% 向上しました。

同時に、列のコピー、マテリアライズド ビュー、外部テーブル統合、高速インポートおよびエクスポートのサポートを含む、リアルタイム AP 機能が大幅に改善されました。

TP および AP 負荷に対応するために強力な物理リソース分離を実現することで、特にリアルタイム データ分析や意思決定のシナリオにおいて、トランザクション負荷を処理する際にシステムが分析負荷の影響を受けなくなり、システムの高いパフォーマンスと安定性を維持できるようになります。

ユーザビリティも向上しました。APパラメータのバージョンを提供することで、ユーザーはパラメータを個別に設定することなく、シナリオごとに適切なテンプレートを選択できます。また、APシナリオにおけるSQL診断機能のサポートも強化されました。

要約すると、OceanBase 4.3.3 は、基本的な分散機能に加えて、強化されたパフォーマンス、ベクトル マルチモーダル融合、および AI テクノロジー スタックの統合を実現します。

これは、AIとデータベースをさらに統合することを意味します。

これは理解しにくいことではありません。AIアプリケーションとAIエージェントの台頭により、様々なアプリケーションがインテリジェントなアップグレードと変革を遂げており、基盤となるデータベースもそのトレンドに対応していく必要があります。

しかし、OceanBase はこの議論の中で「統合」という重要な用語を繰り返し言及しました。

これはOceanBase自体の機能であるだけでなく、業界がAI時代を迎え入れるための最適なソリューションとしても徐々になりつつあります。

なぜ?

AIアプリケーションの大規模導入を加速

データベースの開発に関しては、業界内で徐々に合意が形成されてきています。

AI機能の大幅な向上により、世界的に非構造化データの80%以上が活用されるようになり、データマイニングと分析の需要が爆発的に増加しました。この新たな変化の下、データ処理は、大規模化、モダリティの増加、リアルタイム性への要求の高まり、データの断片化やサイロ化といった課題に直面しています。

これらの変更により、データベースに対する多くの新たな開発ニーズが生じました。

最も重要なのは、分散データベースが大きなトレンドになったことです。

華東師範大学データサイエンス学院長であり、CCFデータベース委員会常任委員の銭衛寧氏は、インターネット時代において、データはオープン環境へと移行していると指摘した。データが分散する時代において、データベースも分散化する必要がある。

分散データベースを使用すると、複数のサーバーが連携して、単一のサーバーでは処理できないタスク、特に同時実行性の高いタスクや大規模なデータ タスクを完了できます。

さらに、AIやクラウドコンピューティングなどの技術の発展により、データベースには次のような特徴も現れています。

まず、クラウドコンピューティングの普及が急速に進み、クラウドデータベースが急速に発展しました。クラウドデータベースは、オンデマンドのスケーリング、高可用性、そして優れたコスト効率を実現します。

第二に、ビッグデータと非構造化データへの需要の高まりとマルチモーダル処理が相まって、NoSQLデータベース(MongoDB、Cassandra、Redis、Couchbaseなど)の人気が高まっています。NoSQLデータベースは優れたスケーラビリティと柔軟性を備えており、ドキュメント、キーと値のペア、グラフデータなど、さまざまなタイプのデータの保存と処理に適しています。

第三に、 HTAPデータベースは注目を集めており、主流のデータベースの基本機能にまでなっています。これらのデータベースは、トランザクションと分析の両方のワークロードを同時に処理できるため、企業のリアルタイムのデータ処理と分析のニーズを満たします。

4つ目に、オープンソースも大きなトレンドです。オープンソースデータベース(PostgreSQL、MySQL、MariaDBなど)は、コミュニティ主導の開発モデル、強力な機能、柔軟な導入方法により、企業や開発者の間で人気のある選択肢となっています。

しかし、実際の実装になると、データとデータベースはより多様化、複雑化しているにもかかわらず、企業ユーザーは依然として、 1 つのシステムのみを使用してさまざまなワークロードを解決したいと考えています。

たとえば、TP と AP の組み合わせを必要とするトランザクション処理 (支払いや注文などの高頻度トランザクション シナリオなど) と複雑なリアルタイム分析およびクエリを同時に処理できます。

また、Rockset や Oracle などのデータベース システムによるハイブリッド検索テクノロジの使用など、AI とマルチモーダル クエリ機能の統合により、SQL クエリとベクトル化クエリが組み合わされ、テキスト、構造化データ、ベクトル データなどのさまざまな種類のデータを同時にデータ処理に含めることができるようになります。

さまざまな要因の影響を受けて、統合設計は徐々に市場で好まれるアプローチになってきました。

MongoDBやOracleに代表されるデータベースベンダーは、それぞれ統合データベースの開発を推進しています。国立産業情報セキュリティ開発研究センターなどが共同でまとめた「分散データベースの開発動向に関する調査報告書」でも、分散データアーキテクチャの設計が統合化へと進んでいることが示されています。

中でも、OceanBaseの統合コンセプトは非常に際立っています。これには以下が含まれます。

  • 統合製品: マルチワークロード (TP+AP)、マルチモード (SQL+NoSQL)、ベクター (SQL+AI)。
  • 統合エンジン: 統合ストレージ、統合トランザクション、統合 SQL。
  • 統合アーキテクチャ: 単一マシン分散統合とマルチクラウド ネイティブを含む。

OceanBase は、この統合アプローチは顧客ニーズの変化に応じて進化してきたと説明しています。

まず、基盤となるアーキテクチャ設計において、OceanBaseは単一マシン分散統合とマルチクラウドネイティブアーキテクチャを組み合わせ、あらゆる規模の企業の多様なニーズに対応します。OceanBaseは既に主要なクラウドベンダーと提携し、パブリッククラウドにおける「マルチクラウド共生」を実現するとともに、プライベートクラウドやハイブリッドクラウドといった多様な展開環境を提供することで、一貫したエクスペリエンスを確保しています。

第二に、データベースのシナリオが従来のシナリオから一般的なインターネットのシナリオへと変化し続けるにつれて、OceanBase は TP から TP+AP へと徐々に移行し、マルチワークロードの統合へと進んでいます。

例えば、OLTP+の第一段階では、山東モバイルのような顧客のニーズが顕在化します。彼らは主に複雑なクエリシナリオに関心を持ち、業務処理の効率化を求めています。

第2フェーズでは、Haidilaoのようなユーザーのニーズが明らかになりました。Haidilaoは当初、OLTPとOLAPを別々のシステムで処理していましたが、OLTPとOLAP間のデータ遅延が発生し、データの整合性を保証できず、2つのデータセットが必要となり、それぞれにコストが発生していました。OceanBaseはこれらのシステムを統合することで、全体的なコストを削減するだけでなく、既存のAPパフォーマンスも向上させます。

第 3 フェーズでは、リアルタイム マーケティングなどのシナリオも登場し、リアルタイム アプリケーション処理 (AP) に対する要求がさらに高まります。

実際の導入において、OceanBaseはキーバリューストレージとNoSQLの両方のシナリオで、あるいはHBaseやRedisの代替としてOceanBaseを利用するお客様が増えていることを確認しています。これは、OceanBaseが様々なシナリオにおける多くの困難な問題を解決できるためです。例えば、NoSQLの場合、最大の課題はデータのスケールですが、分散アーキテクチャはデータ拡張の問題を効果的に解決できます。

そのため、OceanBase はユーザーのニーズに応えて、さまざまなデータ タイプのサポートを継続的に拡大し、マルチモード統合を実現しています。

ついにAI時代到来。「DBのためのAI、AIのためのDB」がコンセンサスとなりました。

AIアプリケーションの大規模展開の前提条件は、大規模モデル技術が低コストで、さまざまな業界で簡単に利用できることです。

データベース開発の経験は、AIアプリケーションの推進において参考になります。例えば、データベースにベクトルプラグインを導入してSQL+AIを実現することで、既存のAI技術スタックを大幅に簡素化し、AIエージェント構築の参入障壁を大幅に下げることができます。

結論として、OceanBaseのような統合データベースは、企業に優れたデータ基盤を提供するだけでなく、AIアプリケーション開発のあらゆる側面のニーズを満たします。一般的に、OceanBaseには次のような特徴があります。

まず、効率的なデータ処理と分析です

HTAPをサポートし、同一システム内でトランザクション(OLTP)と分析(OLAP)のワークロードを同時に処理できます。企業はデータの同期や転送を待つことなく、トランザクションデータをリアルタイムで分析できるため、意思決定と応答時間を短縮できます。

リアルタイム分析では、データ生成と同時に分析を実行し、データのタイムリーさを確保できます。これは、リアルタイムの推奨、リスク管理、監視などのAIアプリケーションにとって非常に重要です。

2 番目は、データ管理の簡素化です

統合データベースでは、トランザクション処理と分析処理が同じシステム内で完了するため、データの一貫性と整合性が確保され、データの同期や変換中に発生する可能性のある遅延やエラーが回避されます。

モノリシックデータベースは、複数のデータタイプ(リレーショナルデータ、ドキュメントデータ、ベクターデータなど)を単一のシステムに統合することで、データの保存と管理を簡素化します。企業は複数のデータベースシステムを維持する必要がなくなり、データのサイロ化と運用の複雑さが軽減されます。

3番目は、柔軟性と拡張性です

統合データベースはマルチモーダルデータ処理をサポートし、構造化データ、半構造化データ、非構造化データの処理と分析を可能にします。この柔軟性により、企業は単一のプラットフォーム上でさまざまな種類のデータを処理し、多様なビジネスニーズに対応できます。

統合データベースは、パブリッククラウド、プライベートクラウド、オンプレミスデータセンターといったハイブリッド環境に導入でき、異機種混在環境におけるデータ管理とアプリケーションをサポートします。これにより、企業はビジネスニーズに合わせて導入ソリューションを柔軟に選択・調整できます。

4番目に、AIアプリケーションの構築を簡素化します

AIアプリケーションでは通常、効率的なベクトル検索と類似性検索が求められます。統合データベースは、ベクトルエンジンを深く統合することで、迅速なベクトル化計算と類似性クエリをサポートし、AIアプリケーションのパフォーマンスを向上させます。

統合データベースは、データストレージとAIモデルを緊密に統合し、複雑なAIワークロードをサポートします。この統合により、データ転送のレイテンシが短縮され、モデルのトレーニングと推論の効率が向上します。

5番目に、コストと複雑さを軽減します

統合データベースにより、企業が維持する必要のあるデータベース システムの数が減り、テクノロジ スタックが簡素化され、システム統合と運用の複雑さが軽減されます。

統合データベースは、リソースの使用率を最適化し、複数のシステム間でのデータの同期と変換を削減することで、総所有コストを削減し、投資収益率を向上させます。

AI時代では、データが力となります

Li Feifei 氏が ImageNet に取り組もうと最初に決意したのは、AI は世界を変える力があり、データこそがそれを実現する最もシンプルで直接的な方法であるという信念からでした。

今日、AIアプリケーションの導入が急速に進んでいます。生産要素としてのデータは、AI時代において水や電気と同じくらい不可欠なものとなっています。

統合データベースは、より包括的、柔軟、かつ効率的なデータの使用に向けた新しいアイデアを提供しています。

統合データベース「OceanBase」はアントグループのAIデータ基盤となり、「知小報」や「馬小才」など一連のAI時代の新アプリケーションや、アリペイツールボックスインテリジェントエージェント開発プラットフォームのデータ管理をサポートすることが分かっている。

統合はデータベース開発における明確な方向性になりつつあります。