618ZXW

大きなモデルは Volcano Ark にあります: データはあなただけに表示されます。あなただけが使用できます。あなただけが所有します。

大規模モデルの開発は驚異的なスピードで進んでいますが、それに伴うセキュリティ上の問題も頻繁に露呈しています。

ChatGPT によって以前明らかにされたように、ハッカーは脆弱性を悪用して AI に偽の記憶を埋め込み、その後の応答に誤解を招く情報をもたらす可能性があります。

さらに、悪意のあるコマンドを埋め込んで、ユーザーのチャットデータを継続的に取得することもできます。

新しい会話を始めても無駄で、ただ単にしつこい迷惑でした。

そのような会話に機密情報が含まれていた場合、どのような結果と損失が生じるか想像してみてください。

恐ろしいですね、本当に恐ろしいです。

しかし、中国の大型模型愛好家を見ると、ハッキングやデータ漏洩といったセキュリティ上の問題はほとんどないようです。

なぜそうなるのでしょうか?

この疑問を念頭に、大規模モデルサービスプラットフォームであるVolcano Arkのチームに連絡を取りました。Volcano Engineのインテリジェントアルゴリズム責任者であり、Volcano Arkの責任者でもあるWu Di氏と綿密な話し合いを行った結果、次のような回答を得ました。

これは、Volcano Ark が初日から安全性を DNA に組み込み、それを基本的な製品機能にしているためです。

モデルやセッションなどのデータのライフサイクル全体にわたるセキュリティと信頼性が実現され、セッションは完全に追跡可能になりました。

つまり、あなたのデータはあなただけが閲覧でき、あなただけが使用でき、あなただけが所有することになります。

では、Volcano Arkは一体どうやってこれを実現したのでしょうか?続きを読んでみましょう。

Volcano Ark: 私にとって、会話は痕跡を残さない。

従来のデータ セキュリティ保護ソリューションは、大規模 AI モデルの時代には適用できなくなりました。

これは、安全性の面で、現在、大型模型コレクターが直面している最も根本的かつ現実的な問題です。

従来のプライベートデプロイメントソリューションでは、モデルが移動している間、データは静止したままであることがほとんどです。このアプローチでは、クラウドにおける大規模モデルの急速な反復処理に対応するのが難しく、基本的なコンピューティングパワーの単価は、パブリッククラウドにおける集中型スケジューリングの単価よりもはるかに高くなります。

したがって、現在より適切なアプローチは、モデルを固定したままデータを移動させることです。企業は、最先端の大規模モデルの機能を活用するために、データをクラウドにアップロードする必要があります。

クラウド内のデータのセキュリティに対するユーザーの完全な信頼を得ることは、常に課題でした。

さらに、技術レベルでは、主流のプライバシー コンピューティング テクノロジは、生産レベルのパフォーマンス要件を満たすことができません。

たとえば、利用可能な TEE テクノロジは成熟していますが、GPU などの異機種混合の高計算能力ハードウェアの保護についてはまだ議論と研究が進められており、大規模な実稼働環境で直接使用することはできません。また、MPC などのマルチパーティのセキュア コンピューティング テクノロジでは、大規模モデルのスループット、レイテンシ、パフォーマンスのバランスをとることが困難です。

Volcano Ark のフルサイクル安全ソリューションは、前述の問題点に直接対処し、優れたセキュリティ保護を提供します。

全体として、この計画は主に次の 4 つの側面に分かれています。

  • 完全に暗号化されたリンク
  • 高いデータ機密性
  • 強力な環境隔離
  • 業務は監査可能

次に、計画全体を分解し、各側面を詳しく調べて、Volcano Ark がどのようにセキュリティを確保しているかを確認します。

完全に暗号化されたリンク

大規模モデル アプリケーションでは、特にデータが処理のためにユーザー側からクラウドに送信される場合、データ フローのすべてのステップが危険にさらされる可能性があります。

これに対応して、Volcano Ark プラットフォームは、データ転送中にネットワーク層アプリケーション層で二重の暗号化を実装する「二重層暗号化」方式を採用しました。

まず、ネットワーク層では、Volcano Ark はHTTPS プロトコルを使用します。これは、データ チャネルに保護シールドを追加するようなもので、送信中にデータを安全にカプセル化できるようにします。

同時に、このプラットフォームはmTLS (Mutual Transport Layer Security) も使用しており、これはユーザーが Ark プラットフォームの ID を確認するだけでなく、Ark プラットフォームもユーザーの ID を逆に確認するため、「二重の保険」として理解できます。

この方法は荷物を送る方法に似ており、送信者と受信者の住所が検証されるだけでなく、宅配業者が各配達ノードで荷物が宛先住所に安全に到着し、改ざんされていないことを確認します。

このセキュリティ層は、攻撃者が伝送リンク内のデータを傍受または改ざんしようとする攻撃である中間者攻撃を効果的に防止します。

ただし、ネットワーク層の暗号化だけに頼っていては、絶対的なデータセキュリティを保証するには不十分です。ネットワーク送信中にデータが誤ったアドレスに送信された場合、暗号文さえも解読されてしまう可能性があるからです。

そのため、Volcano Ark では、アプリケーション層のセッション暗号化も追加し、データが誤った受信側に渡った場合でも、データが復号化されて読み取られないようにしています。

ネットワーク層暗号化はファイルにセキュリティボックスを追加するようなものですが、アプリケーション層暗号化はそのセキュリティボックスにさらに鍵をかけるようなものです。この二重の保護により、たとえ誰かがファイルを傍受したとしても、ファイルを開くことはできません。

アプリケーション層の暗号化では、全員が独自の ID 番号を持っているのと同様に、各推論インスタンスに一意の認証証明書が割り当てられます。

ユーザー データは証明書の公開キーを使用して暗号化され、対応する秘密キーを含む Volcano Ark セキュリティ サンドボックスにデータが到達した場合にのみ復号化されます。

この設計は、ユーザー データが Volcano Ark に配信される前に一意にマークされているようなもので、一致する「キー」を持つプラットフォーム セキュリティ環境のみがそれを復号化して使用できます。

このようにして、プラットフォームは、ユーザーデータが送信中に常に閉じられた「安全なチャネル」内にあることを保証し、許可のない人はデータをロック解除して表示することはできません。

高いデータ機密性

このステップの中核は、プラットフォーム上でのデータの送信、使用、保存の全過程を通じて、データの機密性が高度に保たれることを保証することにあります。

高いデータ機密性は、データ保存と暗号化のための多層的な保護を網羅するだけでなく、サンドボックス環境に基づいて、データがプラットフォーム内を循環しているときでも、権限のないユーザーに公開されないことを保証します。

このセキュリティ戦略は、データを「暗号金庫」にロックするのに似ており、外部の攻撃者も内部のプラットフォーム担当者も暗号化されていない生データに直接アクセスすることはできません。

これに対して、Volcano Ark は次の戦略を採用しました。

データはアップロードされた瞬間から暗号化され、暗号化された形式で保存され、サンドボックス メモリに入ったときにのみ復号化されます。

モデルのトレーニングでは、ユーザーは Volcano Engine が提供するキー管理サービス (KMS) を使用してカスタム キーを設定し、データを暗号化して独自の TOS (オブジェクト ストレージ サービス) に保存できます。

このステップは、データをプラットフォームに送信する前に「装甲化」するステップと見ることができます。たとえデータが傍受されたとしても、攻撃者は暗号化された「暗号文」しか見ることができず、データの真の内容を把握することはできません。

次に、プラットフォーム内で、データは安全なサンドボックスに割り当てられ、暗号化された形式で保存されます。このデータは、トレーニングの目的で安全なサンドボックスのメモリ内で短時間のみ復号化できます。

この設計により、Volcano Ark プラットフォームは「サンドボックスだけがデータを理解できる」キー システムを確立し、サンドボックスを離れた後もデータが暗号化された形式で維持されることを保証します。

これは、各データセットに「ロック」と「復号化キー」が装備されている「キー制御」に似ています。

このキーはユーザーによって管理され、ユーザーが許可した場合にのみ使用できます。例えば、企業のお客様がトレーニングデータセットをアップロードする必要がある場合、TOSの暗号化機能を使用して事前にデータを処理することができます。

Volcano Arkプラットフォームは、暗号化されたデータを安全なサンドボックス環境にマウントします。メモリ内で復号化が完了すると、データはトレーニングシステムに送られます。

さらに、Volcano Ark プラットフォームの高度なデータ セキュリティ機能は、微調整モデルの保存と管理にも拡張されています。

プラットフォームは、微調整された各モデルを暗号化された形式でオブジェクト ストレージまたはクラウド ファイル システムに保存し、許可されたユーザーだけがそれを読み取り、使用できるようにします。

一方、効率的なモデルの読み込みと実行パフォーマンスを確保するために、Volcano Ark プラットフォームはGPU 暗号化ライブラリを利用しており、読み込みと実行中にモデルを GPU 上で直接復号化および暗号化できます。

このアプローチにより、データ フローの効率が大幅に向上し、モデルの推論速度を犠牲にすることなくデータのセキュリティが維持されます。

セキュリティ サンドボックス内には、 「タスク レベルの分離」戦略もあります。

プラットフォーム上では、各モデルタスクが独立した「安全なコンパートメント」に分割されているため、マルチテナント同時実行の場合でもユーザーデータが互いに干渉することはありません。

この分離戦略により、各タスクは独自の「小さなコンパートメント」にロックされているように感じられ、他のテナントでセキュリティ インシデントが発生しても、現在のタスクのセキュリティには影響しません。

強力な環境隔離

Volcano Ark の「強力な環境分離」ソリューションは、前述のタスクレベルの分離だけでなく、データ漏洩の防止、安全な運用の確保、内部トラフィックの監視など、多層的な対策も含まれています。

強力な環境隔離の主な目的は、各モデルタスクに独立した隔離された「安全領域」を提供することです。これは、各タスクに「安全キャビン」を割り当てるのと似た設計です。

実際には、Volcano Ark は各タスクに分離されたコンテナを使用して、各タスク インスタンスが安全で閉じられたコンテナ環境で独立して実行されるようにします。

高いセキュリティを実現するために、これらのコンテナは互いのネット​​ワーク トラフィックを分離するだけでなく、コンテナ内の操作権限を制限して、タスク間の横方向のデータ転送を防ぎ、異なるタスクのデータが互いに干渉しないようにします。

ミッションの分離をさらに強化するために、Volcano Ark はコンテナの上に動的ネットワーク分離のレイヤーを設計しました。

このテクノロジーにより、各タスクが独自の独立した専用のネットワーク戦略を持つことが保証されます。

具体的には、タスクが作成されると、システムはタスクのライフサイクル全体に適用可能な動的なネットワーク構成を自動的に生成します。タスクの作成から完了まで、タスクが同じクラウド ネットワーク環境に配置されているかどうかに関係なく、ネットワーク接続は常に厳密に分離されます。

さらに、Volcano Arkはミッションインスタンスにコンテナサンドボックス技術を導入しました。コンテナサンドボックス技術は、多層的なセキュリティ保護を追加することで、コンテナの分離性を大幅に向上させます。

これは、ByteDanceが開発したオープンソース技術「VERM Armor」を利用しています。この技術は、コンテナに脅威をリアルタイムでブロックするメカニズムを提供します。コンテナが潜在的なセキュリティ脆弱性を検出すると、危険な動作の継続を直ちに停止します。

Volcano Arkは高度に分離された環境設計により、重要なデータに対して「読み取り専用アクセス」も確保しています。タスクインスタンスはモデルとデータを使用する際に読み取り権限のみを持ち、データを変更することはできません。

さらに、Volcano Ark は、データの分離とセキュリティをさらに強化するために、信頼できるデータ アクセス プロキシ システムを導入しました。

このシステムは、データ要求のソースと権限のチェックを確実に行うだけでなく、コンテナから外部環境に不正なデータが送信されるのを防ぎます。

この設計は税関検査手順のようなもので、ミッション区画に出入りするすべてのデータ要求が厳密に審査され、許可されていないデータ送信はすべて傍受されます。

この多層保護戦略により、タスク コンパートメント内でもユーザー データが厳重に監視されます。

業務は監査可能

このステップの中核は、「検証可能なセキュリティ」を実現し、データに関連するすべての操作が完全に記録され、必要に応じてその出所を追跡できることを保証することです。

操作は主に「監査ログ」機能を通じて監査できます。

プラットフォーム内でユーザーデータにアクセス、送信、処理、または削除されるたびに、システムは詳細な操作ログを自動的に生成します。

これらのログは、操作の時間、操作者、内容、結果などを詳細に記録する「監視映像」のようなものです。

「データ使用の完全な追跡」と同様に、ユーザーは銀行の明細書を確認するのと同じように、自分のデータが不正にアクセスされたり、操作されたりしていないかを調べることができます。

この設計により、データのセキュリティが向上するだけでなく、プラットフォームに対するユーザーの信頼も高まります。

さらに、Volcano Ark の監査ログは、「透明性と信頼性」の原則を念頭に置いて設計されています。

ユーザーは、Ark コンソールを通じていつでもデータ操作ログを表示し、プラットフォーム上のデータの流れを把握できます。

Volcano Ark は複数の検証メカニズムも提供しており、ユーザーはプラットフォームの操作ログを自分のシステムの操作記録と比較して、データ処理の信頼性と正確性を確保できます。

この相互検証の仕組みは「複数バックアップ検証」に似ており、ユーザーはより安心してデータのセキュリティを監視できます。

一方、Volcano Ark の監査ログは、標準的な操作を記録するだけでなく、異常な操作をマークして自動的にアラートをトリガーします。

不正アクセスや不適切な操作が発生した場合、システム内の監視メトリックは直ちに変更されます。

この設計は銀行の「リスク警告システム」のようなもので、疑わしい活動があればすぐにフラグが立てられ、ユーザーはプラットフォームのセキュリティ保護に対する責任と能力を明確に把握できます。

つまり、火山プラットフォームでは、データが送信されるあらゆる場所に安全対策が施されています。

「悪事をしてはいけない」ということだけではなく、「悪事をしてはいけない」ということも重要です。

ウー・ディとの会話の中で、彼はまた、数日ごとに「火山アークとブルーチームの攻撃と防御」を伴う内部セキュリティメカニズムについても具体的に言及しました。

このメカニズムは、Volcano Ark が内部システムを厳密にテストする方法であるだけでなく、プラットフォームが常に最善の防御状態にあることを保証するための重要な方法でもあります。

これらの攻撃および防御訓練を通じて、Volcano Ark チームは実際の攻撃環境をシミュレートし、セキュリティ システムの堅牢性をテストし、潜在的な脆弱性を迅速に特定して修正することができます。

この演習は軍事訓練から生まれたもので、ブルーチームが攻撃をシミュレーションし、ボルケーノアークがそれを防御して阻止します。

ブルーチームは、社内の専門チームで構成され、パスワードクラッキング、権限昇格、データ窃取といったサイバー攻撃をシミュレートし、プラットフォームの防御を突破しようとします。Volcano Arkは、これらの侵入を監視、特定、ブロックする責任を負い、リアルタイム監視、迅速な対応、脆弱性パッチ適用などの対策を講じます。

これらの演習には、日次、小規模、大規模の攻撃および防御演習が含まれます。小規模演習は毎月または隔月で実施され、大規模演習は四半期ごとまたは半年ごとに実施されます。通常、より複雑な攻撃シナリオをシミュレートするために、外部のホワイトハットチームと連携して実施されます。

Wu Di 氏は、このメカニズムにより、チームがセキュリティの脆弱性を継続的に発見して修正し、実際の攻撃に対応する能力を向上させることができると指摘しました。

さらに、これは Volcano Ark セキュリティ システムの重要な部分となり、チームのセキュリティ意識と技術レベルが向上しただけでなく、ユーザーがプラットフォームのセキュリティ保護に対する継続的な取り組みを実感できるようになりました。

多くのステップの中でどの側面が最も重要であるかを議論する際、Wu Di 氏は、内部要員の業務がセキュリティ リスクの大きな原因であると考えています。

まさにこの理由から、先ほど述べたように、Volcano Ark では信頼できるプロキシと要塞ホストの二重管理メカニズムを導入し、保守担当者によるすべての操作が厳格な許可要求を経て、プロセス全体を通じて記録されるようにしています。

ウー・ディ氏はまた、ボルケーノアークの安全コンセプトは「悪事をするな」から「悪事をしてはならない」へと進化していると指摘した。

「邪悪になるな」というフレーズは、プラットフォームが暗号化や分離などのテクノロジーと組み合わせた検証可能なセキュリティ監査を使用して、プラットフォームスタッフを含むユーザー以外のあらゆる当事者がデータセキュリティポリシーに違反した場合には直ちに検出され、責任を問われることを意味します。

「悪意を持たせない」とは、プラットフォームが更なる技術的手段を用いて悪意のある行為を根本的に不可能にすることを意味します。これには、信頼測定や状態ベースコンピューティングといった技術の適用が含まれ、攻撃対象領域を積極的に縮小し、ユーザーデータのプライバシー保護レベルを向上させることができます。

さらに、ボルケーノ・アークの安全機能は、最初に組み立ててから装飾するのではなく、鉄筋コンクリートのように製品自体に組み込まれた状態で、初日から構築されています。これは、以下のタイムラインからも明らかです。

今後、ウー・ディ氏は、生成AI技術の発展は極めて急速であり、それがセキュリティ保護に前例のない課題をもたらすと考えています。

特に、ビデオやオーディオを含む複数の入出力モードを備えたマルチモーダル生成 AI アプリケーションでは、ますます複雑化する技術の中で高いセキュリティ基準を維持することが、将来の大きな課題の 1 つです。

同氏は、Volcano Arkは、急速な技術開発とユーザーエクスペリエンスの最適なバランスを確保するために、暗号化されたハードウェア技術や業界間の協調セキュリティソリューションなどの新興技術を継続的に探求していくと述べた。

ウー・ディ氏に、セキュリティの仕事で印象に残るエピソードがあるか尋ねると、次のように答えた。

私たちには物語がありません。もし物語があったら、それは事故になってしまいます。

結論として、Volcano Ark の総合的なセキュリティと相互信頼ソリューションは、「技術的な道筋は無数にあるが、セキュリティが最も重要である」という原則を実現しました。

参考リンク:
[1]https://www.youtube.com/watch... [2]https://mp.weixin.qq.com/s/dL...