|
意外なことに、企業のウェブサイトをダウンさせた犯人は、OpenAI のウェブサイトをクロールしていたロボット「GPTBot 」でした。 (GPTBot は、インターネット全体からデータを自動的にクロールするために数年前に OpenAI によって開始されたツールです。) たった2日前に、7人のチームからなる会社(Triplegangers)のウェブサイトが突然ダウンし、CEOと従業員は何が問題なのかを調べるために急いでいました。 確認するまでは信じられないでしょうが、発見したことは衝撃となるでしょう。 犯人は OpenAI の GPTBot です。 CEO の説明から判断すると、OpenAI の Web クローラーの「攻撃」はいくぶん必死のようだ。
チームは同社の前週のログを分析し、OpenAIがデータの収集に600以上のIPアドレスを使用していたことをさらに発見した。 △Triplegangers サーバー ログ: OpenAI ボットが許可なく Web をクロールしています。 このような大規模なウェブクローラーのせいで同社のウェブサイトがクラッシュし、CEO も不満を表明しました。 これは本質的にはDDoS 攻撃です。 さらに重要なのは、OpenAI の積極的な Web スクレイピングにより、CPU 使用率とデータ ダウンロードが急増し、AWS (クラウド コンピューティング サービス) 上の Web サイトのリソース消費が劇的に増加し、結果として費用が大幅に増加することです。 確かに、大手 AI 企業は必死になって Web スクレイピングを行っていますが、その費用を負担しているのは中小企業です。 この小規模チームの経験はネットユーザーの間でかなりの議論を巻き起こし、GPTBot の行為はスクレイピングではなく、 「盗難」の婉曲表現であると主張する者もいる。 一部のネットユーザーも同様の体験を共有し、大企業による大量のAIウェブスクレイピングをブロックすることで多額の費用を節約できたと述べている。 ウェブクローラーのせいでシステムがクラッシュし、ユーザーは未だに何が盗まれたのかわかっていません。では、なぜ OpenAI はこのスタートアップからデータをクロールしたのでしょうか? 簡単に言えば、彼らのデータは確かに高品質です。 トリプルガンガーズの7人のメンバーは、10年以上かけて「人間のデジタルツイン」の最大規模のデータベースを作成したとされている。 ウェブサイトには実際の人間モデルからスキャンされた 3D 画像ファイルが掲載されており、写真には人種、年齢、タトゥーや傷跡、さまざまな体型などの詳細な情報もタグ付けされています。 これは、3D アーティスト、ゲーム開発者、および実際の人間の特徴をデジタルで再現する必要があるその他の人々にとって、間違いなく大きな価値があります。 Triplegangers の Web サイトには利用規約のページがあり、画像の無許可の AI スクレイピングは禁止されていると明記されています。 しかし、現在の結果から判断すると、これは全く効果がなかったようです。 重要な問題は、Triplegangers がrobots.txtファイルを正しく設定していなかったことです。 robots.txt (ロボット除外プロトコルとも呼ばれます) は、Web のインデックス作成時にどのコンテンツの Web サイトがクロールすべきでないかを検索エンジンに伝えるために作成されます。 つまり、ウェブサイトが OpenAI によってクロールされることを望まない場合は、特定のタグを使用して robots.txt ファイルを正しく構成し、GPTbot にウェブサイトにアクセスしないように明示的に指示する必要があります。 ただし、GPTBot の他に、OpenAI にはChatGPT-UserとOAI-SearchBotもあり、それぞれに対応するタグがあります。 なお、OpenAIが公開したクローラー情報によると、robots.txtファイルを正しく設定してもすぐには反映されないとのこと。 OpenAI がこのファイルを更新するには最大 24 時間かかる場合があります... CEOはこれについて次のようにコメントした。
このため、Triplegangers の Web サイトは営業時間中にダウンし、高額な AWS 料金が発生しました。 水曜日(東部時間)の時点で、Triplegangers は要求どおりに正しい robots.txt ファイルを設定していました。 念のため、チームはBarkrowlerやBytespiderなどの他のAIクローラーもブロックするためのCloudflareアカウントも設定しました。 木曜日に業務が再開された後、トリプルガンガーズはそれ以上のダウンタイムを経験しなかったが、CEOは未解決の疑問を抱えていた。 OpenAI がウェブサイトからどのようなデータをスクレイピングしたのかはわかりませんし、OpenAI に連絡することもできません... CEO がさらに心配しているのは次の点です。
最後に、CEOは、大企業が許可なく自社のWebをクロールするのを防ぐために、多くのオンライン企業に対し、問題を積極的かつ積極的に調査するよう促した。 これは初めてのケースではありません。しかし、Triplegangers は OpenAI の横行する Web スクレイピングによるシステム クラッシュを経験した最初の企業ではありません。 これに先立ち、 Game UI Databaseという会社がありました。 ゲーム デザイナーが参照できる、ゲーム ユーザー インターフェイスのスクリーンショットが 56,000 枚以上収録されたオンライン データベースが含まれています。 ある日、チームは、Web サイトの読み込みが遅く、ページの読み込み時間が 3 倍長く、ユーザーが頻繁に 502 エラーに遭遇し、ホームページが 1 秒あたり 200 回再読み込みされていることを発見しました。 当初彼らは DDoS 攻撃だと思ったが、ログを確認すると、それは OpenAI によるもので、1 秒あたり 2 回のクエリが実行され、Web サイトがクラッシュしそうになった。 しかし、OpenAI がこれほど積極的に Web をクロールする唯一の企業だと思いますか? いやいや。 たとえば、 Anthropic は以前にも同様の問題に直面したことがあります。 デジタル製品スタジオPlanetary の創設者 Joshua Gross 氏は、クライアントの Web サイトを再設計したところトラフィックが急増し、クライアントのクラウド コストが 2 倍になったと述べています。 監査の結果、大量のトラフィックが Web クローラーから発生しており、そのほとんどは Anthropic によって生成された無意味なトラフィックであり、多くのリクエストが 404 エラーを返していることが判明しました。 この現象を受けて、デジタル広告会社 DoubleVerify の新しい調査によると、AI クローラーによって 2024 年に「一般的な無効トラフィック」(実際のユーザーからではないトラフィック)が 86% 増加したことが示されています。 では、なぜ AI 企業、特に大規模なモデル企業は、インターネットで必死に「情報収集」しているのでしょうか? つまり、トレーニング用の高品質なデータが大幅に不足しているのです。 一部の調査では、世界で利用可能な AI トレーニング データが 2032 年までに枯渇する可能性があると推定されており、AI 企業はデータ収集のペースを加速させています。 このため、OpenAI や Google などの AI 企業は、AI トレーニング用の「独占的」コンテンツをより多く入手するため、コンテンツ クリエイターにこれまで未公開のビデオを購入するよう多額の報酬を提示しています。 また、料金も明確に定められており、YouTube、Instagram、TikTok向けに用意された未公開動画の場合、 1分あたり1~2ドル(合計で概ね1~4ドル)で、動画のクオリティやフォーマットに応じてさらに料金が上がることもあります。 この現象について、あなたはどう思いますか?ぜひ下のコメント欄にご意見をお寄せください! 参考リンク: |
OpenAI の積極的なウェブクロールにより、ある企業のシステムがクラッシュした。CEO はこれを DDoS 攻撃に匹敵するものだと述べた。
関連するおすすめ記事
-
AI が論文が受理されるかどうかを予測、8B モデルが 70B モデルを上回る、HKU がグラフとテキストを融合するマルチエージェント モデル GraphAgent をリリース。
-
DeepSeekのフルパワー微調整の秘密を公開!巨人の肩に乗って自分だけのモデルを構築しよう ― チュートリアルはこちら
-
DeepMindの新たな成果は広告に似ていると批判されている。AlphaProteoは標的タンパク質の結合剤を効率的に設計し、親和性を300倍に高めることができる。
-
[オープンソースと私の関係] | オープンソースに対する私の印象
-
ByteDanceと清華大学AIRが共同研究センターを設立し、大規模モデリングにおける産学研究協力を推進。
-
2024 OSCAR | 企業オープンソースガバナンス実装ガイドと「OSGMM2.0-2024 中国企業におけるオープンソースガバナンスの全体像」を徹底公開!