618ZXW

OpenAI の積極的なウェブクロールにより、ある企業のシステムがクラッシュした。CEO はこれを DDoS 攻撃に匹敵するものだと述べた。

意外なことに、企業のウェブサイトをダウンさせた犯人は、OpenAI のウェブサイトをクロールしていたロボット「GPTBot 」でした。

(GPTBot は、インターネット全体からデータを自動的にクロールするために数年前に OpenAI によって開始されたツールです。)

たった2日前に、7人のチームからなる会社(Triplegangers)のウェブサイトが突然ダウンし、CEOと従業員は何が問題なのかを調べるために急いでいました。

確認するまでは信じられないでしょうが、発見したことは衝撃となるでしょう。

犯人は OpenAI の GPTBot です。

CEO の説明から判断すると、OpenAI の Web クローラーの「攻撃」はいくぶん必死のようだ。

当社には 65,000 を超える製品があり、それぞれに専用のページがあり、各ページには少なくとも 3 枚の画像があります。

OpenAIは、数十万枚の写真とその詳細な説明を含むすべてのコンテンツをダウンロードしようと、数万件のサーバーリクエストを送信しています。

チームは同社の前週のログを分析し、OpenAIがデータの収集に600以上のIPアドレスを使用していたことをさらに発見した。

△Triplegangers サーバー ログ: OpenAI ボットが許可なく Web をクロールしています。

このような大規模なウェブクローラーのせいで同社のウェブサイトがクラッシュし、CEO も不満を表明しました。

これは本質的にはDDoS 攻撃です。

さらに重要なのは、OpenAI の積極的な Web スクレイピングにより、CPU 使用率とデータ ダウンロードが急増し、AWS (クラウド コンピューティング サービス) 上の Web サイトのリソース消費が劇的に増加し、結果として費用が大幅に増加することです

確かに、大手 AI 企業は必死になって Web スクレイピングを行っていますが、その費用を負担しているのは中小企業です。

この小規模チームの経験はネットユーザーの間でかなりの議論を巻き起こし、GPTBot の行為はスクレイピングではなく、 「盗難」の婉曲表現であると主張する者もいる。

一部のネットユーザーも同様の体験を共有し、大企業による大量のAIウェブスクレイピングをブロックすることで多額の費用を節約できたと述べている。

ウェブクローラーのせいでシステムがクラッシュし、ユーザーは未だに何が盗まれたのかわかっていません。

では、なぜ OpenAI はこのスタートアップからデータをクロールしたのでしょうか?

簡単に言えば、彼らのデータは確かに高品質です。

トリプルガンガーズの7人のメンバーは、10年以上かけて「人間のデジタルツイン」の最大規模のデータベースを作成したとされている。

ウェブサイトには実際の人間モデルからスキャンされた 3D 画像ファイルが掲載されており、写真には人種、年齢、タトゥーや傷跡、さまざまな体型などの詳細な情報もタグ付けされています。

これは、3D アーティスト、ゲーム開発者、および実際の人間の特徴をデジタルで再現する必要があるその他の人々にとって、間違いなく大きな価値があります。

Triplegangers の Web サイトには利用規約のページがあり、画像の無許可の AI スクレイピングは禁止されていると明記されています。

しかし、現在の結果から判断すると、これは全く効果がなかったようです。

重要な問題は、Triplegangers がrobots.txtファイルを正しく設定していなかったことです。

robots.txt (ロボット除外プロトコルとも呼ばれます) は、Web のインデックス作成時にどのコンテンツの Web サイトがクロールすべきでないかを検索エンジンに伝えるために作成されます。

つまり、ウェブサイトが OpenAI によってクロールされることを望まない場合は、特定のタグを使用して robots.txt ファイルを正しく構成し、GPTbot にウェブサイトにアクセスしないように明示的に指示する必要があります。

ただし、GPTBot の他に、OpenAI にはChatGPT-UserOAI-SearchBotもあり、それぞれに対応するタグがあります。

なお、OpenAIが公開したクローラー情報によると、robots.txtファイルを正しく設定してもすぐには反映されないとのこと。

OpenAI がこのファイルを更新するには最大 24 時間かかる場合があります...

CEOはこれについて次のようにコメントした。

ウェブサイトの robots.txt ファイルが正しく設定されていない場合、OpenAI や他の企業はコンテンツを自由にクロールできると想定します。

これはオプションのシステムではありません。

このため、Triplegangers の Web サイトは営業時間中にダウンし、高額な AWS 料金が発生しました。

水曜日(東部時間)の時点で、Triplegangers は要求どおりに正しい robots.txt ファイルを設定していました。

念のため、チームはBarkrowlerやBytespiderなどの他のAIクローラーもブロックするためのCloudflareアカウントも設定しました。

木曜日に業務が再開された後、トリプルガンガーズはそれ以上のダウンタイムを経験しなかったが、CEOは未解決の疑問を抱えていた。

OpenAI がウェブサイトからどのようなデータをスクレイピングしたのかはわかりませんし、OpenAI に連絡することもできません...

CEO がさらに心配しているのは次の点です。

GPTBot がウェブサイトをクラッシュさせるほど「貪欲」でなかったら、GPTBot が常にデータをクロールしていることに気づかなかったかもしれません。

このプロセスにはバグがあります。大手AI企業はrobots.txtを設定すればウェブクローラーをブロックできると言っているのに、責任を私たちに押し付けているのです。

最後に、CEOは、大企業が許可なく自社のWebをクロールするのを防ぐために、多くのオンライン企業に対し、問題を積極的かつ積極的に調査するよう促した。

これは初めてのケースではありません。

しかし、Triplegangers は OpenAI の横行する Web スクレイピングによるシステム クラッシュを経験した最初の企業ではありません。

これに先立ち、 Game UI Databaseという会社がありました。

ゲーム デザイナーが参照できる、ゲーム ユーザー インターフェイスのスクリーンショットが 56,000 枚以上収録されたオンライン データベースが含まれています。

ある日、チームは、Web サイトの読み込みが遅く、ページの読み込み時間が 3 倍長く、ユーザーが頻繁に 502 エラーに遭遇し、ホームページが 1 秒あたり 200 回再読み込みされていることを発見しました。

当初彼らは DDoS 攻撃だと思ったが、ログを確認すると、それは OpenAI によるもので、1 秒あたり 2 回のクエリが実行され、Web サイトがクラッシュしそうになった。

しかし、OpenAI がこれほど積極的に Web をクロールする唯一の企業だと思いますか?

いやいや。

たとえば、 Anthropic は以前にも同様の問題に直面したことがあります。

デジタル製品スタジオPlanetary の創設者 Joshua Gross 氏は、クライアントの Web サイトを再設計したところトラフィックが急増し、クライアントのクラウド コストが 2 倍になったと述べています。

監査の結果、大量のトラフィックが Web クローラーから発生しており、そのほとんどは Anthropic によって生成された無意味なトラフィックであり、多くのリクエストが 404 エラーを返していることが判明しました。

この現象を受けて、デジタル広告会社 DoubleVerify の新しい調査によると、AI クローラーによって 2024 年に「一般的な無効トラフィック」(実際のユーザーからではないトラフィック)が 86% 増加したことが示されています。

では、なぜ AI 企業、特に大規模なモデル企業は、インターネットで必死に「情報収集」しているのでしょうか?

つまり、トレーニング用の高品質なデータが大幅に不足しているのです。

一部の調査では、世界で利用可能な AI トレーニング データが 2032 年までに枯渇する可能性があると推定されており、AI 企業はデータ収集のペースを加速させています。

このため、OpenAI や Google などの AI 企業は、AI トレーニング用の「独占的」コンテンツをより多く入手するため、コンテンツ クリエイターにこれまで未公開のビデオを購入するよう多額の報酬を提示しています。

また、料金も明確に定められており、YouTube、Instagram、TikTok向けに用意された未公開動画の場合、 1分あたり1~2ドル(合計で概ね1~4ドル)で、動画のクオリティやフォーマットに応じてさらに料金が上がることもあります。

この現象について、あなたはどう思いますか?ぜひ下のコメント欄にご意見をお寄せください!

参考リンク:
[1]https://techcrunch.com/2025/0... [2]https://www.reddit.com/r/webs...\_did\_openai\_scrap\_the\_entire\_internet\_for/ [3]https://www.marktechpost.com/... [4]https://platform.openai.com/d... [5]https://www.businessinsider.c...