618ZXW

Whale Cloud Technology は、アルゴリズムの優れた能力から現実世界の価値までをカバーする Whale Intelligence BI 大規模モデルをリリースしました。

中国の大規模産業モデルの様相は、純粋なアルゴリズムネットワークの競争から「実用化」を競うコンテストへと静かに移行しつつある。これはもはや単なる技術力の披露ではなく、誰が現実世界で真に卓越し、最も優れた「応用」を実証し、真に効率性を向上させて具体的な社会価値を創造できるかを競う場となっている。

9月20日、雲奇コンピューティングカンファレンスにてWhale Intelligenceビッグモデル発表会が開催され、BIビッグモデルが業界から大きな注目を集めました。Whale Intelligence BIビッグモデルを基盤とするWhale Intelligence ChatBIツールは、中国情報通信研究院(CAICT)のTrusted AI Assessmentにおいて、20項目の能力テストに合格し、4つの主要なインテリジェンス領域の閾値を突破したと報じられています。ビッグモデルを基盤とするビジネスインテリジェンスシステムの評価に合格した最初の製品の一つとなり、業界最高評価の4+を獲得し、総合的な能力とインテリジェント技術におけるリーダーシップを実証しました。

ホエールクラウドテクノロジーのデータインテリジェンス担当チーフエキスパートであるウー・ミンチャオ氏は記者会見で、BIシナリオに大規模モデルを採用する過程で、知識構築、データの精度、モデルの一般化の面で依然として多くの技術的課題が残っていると述べた。

大規模な BI モデルの実装には、依然として多くの課題が残っています。

デジタルトランスフォーメーションが進むにつれ、企業はデータ量の増加とビジネスの複雑化という課題に直面しています。効率的な意思決定を支援し、部門、プロセス、システムを横断する複雑なデータ分析ニーズに対応するためには、データアーキテクチャをアップグレードする必要があります。そのためには、アナリストが高度なデータ分析能力を備え、データ分析、ビジネスインテリジェンス、機械学習の統合ソリューションを提供することで、あらゆる種類のデータニーズに対応する統一されたシームレスなエクスペリエンスを確保する必要があります。

従来の解決策は、エンドツーエンドのText2SQLモデルを構築することです。このモデルは、ユーザーのデータ要求を意味的に理解し、実行可能なSQL文に変換して必要なデータを出力します。しかし、このアプローチは効果的である一方で、重大な限界も存在します。

  • 多様な質問形式と低いフォールト トレランス: ユーザーからの多様で口語的なデータ ニーズに直面すると、エンドツーエンドの Text2SQL モデルはアーキテクチャ レベルではやや弱くなります。
  • 多くの知識ポイントと複雑なロジックが存在します。大量の BI 知識がレポート、インジケーター メタデータ、ビュー、スクリプトに散在しているため、関係が壊れ、知識のギャップが生じます。

これらの課題に対処するため、Whale Cloud Technologyは、大規模モデリング技術とデータ分析エンジニアリングの緊密な統合を積極的に推進しています。大規模モデルの強力な自然言語理解機能とBI分野における長年の経験を組み合わせることで、会話型のデータクエリと迅速な分析を可能にし、ユーザーがデータを取得・理解するためのハードルを下げます。ユーザーはニーズを表明するだけで、システムはプロフェッショナルで視覚的に魅力的なデータチャートを迅速に生成します。

呉明超氏によると、Whale Cloud TechnologyのWhale Intelligence ChatBIは、「データ取得、データ閲覧、データ活用」という分析プロセス全体に焦点を当て、インテリジェントな意図認識、インテリジェントなチャート生成、インテリジェントなデータ推奨、インテリジェントなデータインサイトといった機能を実現します。ユーザーが使いやすいデータ分析「副操縦士」を構築できるよう支援し、企業ユーザーは複雑なクエリ文を記述することなく、チャットのようにたった一文で質問するだけで、必要なデータ分析結果を簡単に得ることができます。

技術的な実装: 標準化されたデータ管理と標準化されたデータ入力が最初のステップです。

技術的な実装の観点から見ると、セマンティック理解に基づくSQL生成タスクには、ユーザークエリのメトリクスと関連ディメンションの正確な理解が必要です。クエリサービス層のデータ精度と効率性を向上させるため、Whale CloudのBIビッグモデルチームは包括的なBIナレッジデータ管理システムの構築に注力しています。

このシステムは、ビジネス用語、同義語、アトミック用語、主要指標、多次元データ、データベース/テーブルモデルといったコア要素の精緻な管理を包括的に網羅しています。この取り組みは、業界知識の深化を図ることで、垂直産業における大規模基本モデルにおける知識ギャップを解消し、コンテキスト間の正確かつ緊密な相互接続を促進することで、ビッグデータ分析とユーザーの意思決定のためのより強固な情報基盤を提供することを目指しています。

業界固有の用語データベースを整理・最適化することで、あらゆるビジネスコンセプトを正確に表現することを保証します。同時に、自然言語処理における意味の曖昧さに対処するため、同義語データ管理システムを構築し、モデルが多様な言語表現を柔軟に処理できるようにしました。さらに、重要業績評価指標(KPI)と多次元データの精緻な管理のために、Whale Cloud Technologyは効率的な指標および多次元データ管理システムを構築し、ユーザーがデータ価値を深く掘り下げ、潜在的な傾向やパターンを発見できるよう支援します。

さらに重要なのは、データベーステーブルモデルのデータ管理を実装することで、大規模モデルに強力な構造化データサポートが注入されることです。これにより、モデルの複雑なデータ関係の理解能力が向上するだけでなく、事前知識に基づく推論・推論能力も向上します。このプロセスにより、知識データと大規模モデルの深い統合と相互促進が実現され、機械は人間の言語のより深い意味をより正確に理解し、実用アプリケーションにおいてより高い精度と堅牢性を発揮できるようになります。

インテリジェントな知識認識と検索により、複数指標のクエリの問題が解決されます。

BIクエリによるビジネス分析プロセスでは、ユーザーが言及した指標が複数の指標を含んでいるかどうかを正確に判断することがしばしば必要になります。ユーザーの説明が曖昧で意図が不明瞭な場合、特にクエリに複数の主語や修飾語句などの複雑な構造が含まれている場合は、まずこれらのクエリを慎重に分解し、それらを正確に識別して合理的に組み合わせることで、ユーザーが実際に分析したいすべての指標を正確に把握できるようにする必要があります。ユーザークエリを処理する際に複数の指標を識別して処理する際の難しさは、主に以下の点にあります。

  • 自然言語の不確実性と曖昧性:ユーザーは自然言語で問題を漠然と表現することが多く、複数の指標や条件を明示的に指定しない場合があります。このような場合、ユーザーの根底にある意図を推測し、関連する複数の主語、述語、または修飾語句を識別する言語理解技術が必要です。
  • 複数の指標の分解と組み合わせ:ユーザーのクエリに複数の指標が含まれる場合、これらの指標を分解し、それぞれの意味を個別に識別する必要があります。このプロセスでは、インテリジェント分析システムが強力な構文解析と文脈理解能力を備え、異なる構成要素間の関係性を判定し、それらの指標をクエリの検索条件として再組み合わせる必要があります。

多くのオープンソースソリューションと比較して、Whale Cloud TechnologyのWhale Intelligence BI大規模モデルは、知識検索モジュールと、やや弱められたText2SQL全体アーキテクチャをさらに採用しています。高精度で耐障害性の高いRAGコンポーネントを複数構築することで、大規模モデルを用いた垂直領域における複雑なシナリオ実装の難易度を軽減し、Text2SQLの錯覚問題を最大限に最適化することを目指しています。

  • 用語認識モジュール: 独自の辞書に基づいて独自の用語の単語分割を実行し、接続詞を含むフレーズに文を分割します。
  • セマンティック解析モジュール: クエリ時間 (時間の標準化)、行政地域、組織、並べ替え条件、表示チャート、クエリ対象、比較時間、統計関数 (数学的演算)、数値条件 (パーセンテージ、量、高さ、重量) などのさまざまなシナリオのエンティティ認識タスク モジュールを構築し、ユーザー クエリ内の重要な情報ポイントをマイニングします。
  • 用語リコール モジュール: このモジュールは、ユーザーのセマンティック ステートメント内の主要なエンティティを照会してリコールし、それらをメタデータと関連付けて照合し、一連のリコール強化操作を実装します。
  • 変換および融合モジュール: このモジュールは、特定の戦略を使用して複数の呼び出し情報セットを融合し、クエリを書き換えて、大規模モデルの推論を提供する標準情報を形成します。

仮想ビュー: BI マスターモデルを構築するための新しいパラダイム

BI データ取得の実践では、クエリ情報データは複数のディメンション テーブルに分散されることが多く、各ディメンション テーブルには、データを説明する異なる統計粒度または一意の属性が含まれます。

Whale Cloud Technologyは、仮想ビュー技術の統合において先駆的な企業です。BIクエリシナリオ特有のデータ分布特性に基づき、ディメンションフィールド、ビジネス指標、メトリクス、クエリ条件など、クエリプロセスに関係する様々なフィールドをインテリジェントな手法で統合し、特定のクエリニーズに対応する一連の一時ビューを構築することで、大規模モデル推論の基盤を構築します。

この「オンデマンドビルド」ビュー戦略により、大規模モデルの推論情報にはクエリに必要なフィールドのみが含まれるようになり、データ処理プロセスにおける冗長な情報が大幅に削減されるだけでなく、大規模モデルの実行効率と精度も向上します。

Whale Cloud TechnologyのBI大規模モデルは、特定のビジネスドメイン向けにSQL生成モデルをカスタマイズし、最適化することに重点を置いています。業界固有のデータベースアーキテクチャ(テーブル構造を含む)、ビジネスロジック内のセマンティック情報、そして膨大なデータを深く統合することで、その業界に最も適した効率的なSQLクエリを出力することを目指しています。広く普及しているText2SQLモデルとは対照的に、このソリューションは、大規模な事前学習済みモデルによる複雑な業界言語パターンの強力な理解力を巧みに活用し、洗練されたビジネスデータリソースを用いてさらに微調整を行います。これにより、ビジネス要件を的確に捉え、正確なSQL文に変換するモデルの能力が大幅に向上し、業界関連用語のSQL正答率は92%という驚異的なレベルに達しています。

このイノベーションは、自然言語処理とBIデータベースクエリ最適化の分野における深い統合と技術革新を象徴するだけでなく、実用化においては、ビジネスシステムのデータ処理効率と精度を大幅に向上させ、企業ユーザーにこれまでにないデータインサイト能力とビジネス意思決定支援をもたらすことを示しています。これは、技術と応用の両面の価値を強調するモデルであることは間違いありません。

記者会見の最後に、呉明超氏は「 BIビッグモデルがシナリオに完全に統合されるまでにはまだまだ長い道のりがありますが、私たちは業界パートナーや技術パートナーと協力し、複雑なシナリオにおけるさらなるアプリケーションの課題を克服していきたいと考えています」と述べました。