618ZXW

クロード氏のチームは、クローラーの名前を変更したり禁止規則を無視したりするなど、データスクレイピングに必要なあらゆる手段を講じたことで世間の激しい怒りを買っている。

クロードのチームが今回世間を怒らせてしまった!

理由: Web クローラーが 24 時間以内に企業のサーバーに 100 万回アクセスし、料金を支払うことなく Web サイトのコンテンツをスクレイピングしました。

彼らは「クロール禁止」の通知を露骨に無視しただけでなく、サーバーのリソースを強制的に占有しました。

「被害者」企業は実際に全力を尽くして防御しようとしましたが、阻止できず、そのコンテンツデータは依然としてクロードによって取得されました。

会社のトップは怒り狂い、ほとんど激怒し、X について激しく非難し始めた。

やあ、アントロピック。データが欲しいのは分かるよ。クロードは本当に賢いね!
でもね、知ってる?全然そんなことはないよ!すごいね!ああ!

多くのネットユーザーがこれに憤慨しており、コピーライティングの仕事をしているあるネットユーザーは次のようにコメントしている。

Anthropic の行動を説明するには、「支払わない」という言葉ではなく、「盗む」という言葉を使うことをお勧めします。」

直ちに、世論は激怒した!

コメント欄は大混乱で、非難を支持する人もいれば、クロードに金銭の支払いを要求する人もいた。

どうしたの?

Anthropic を強く非難しているのは、アメリカの電子商取引および操作ガイド Web サイトのiFixitです。

iFixit の事業の一部は、Wikipedia に似た、消費者向け電子機器やガジェットの無料オンライン修理ガイドを提供することです。

この Web サイトには、修理ガイド、ガイド改訂履歴、ブログ、ニュース投稿および調査、フォーラム、コミュニティ寄稿の修理ガイド、Q&A セクションなど、数百万ページが含まれています。

しかし、iFixit は、Claude のクローラーである ClaudeBot が数時間以内に 1 分あたり数千件のアクセス要求を受信して​​いることを突然発見しました。

これは、同社のウェブサイトへの 1 日あたりの訪問数がほぼ 100 万回に相当します。

統計によると、1日で10TBのファイルにアクセスし、5月は合計73TBにアクセスした。

これに対して、iFixit CEOのカイル・ウィーンズ氏は次のように述べた。

ClaudeBot が許可なくすべてのデータを盗み、サーバーをいっぱいにしました... まあ、大したことじゃないですけどね。
弊社のライセンス指示にまで及んでいるのだろうか?

はい、その通りです、「許可なし」です。

iFixitは実際に声明を出した。

iFixit の事前の書面による明示的な許可なしに、機械学習や人工知能モデルのトレーニングを含む、その他の目的でこの Web サイトのコンテンツ、資料、またはデザイン要素を複製、コピー、または配布することは固く禁じられています。

しかし、それはすべて無駄でした。

クロードは、チェックを受けずに積極的なアクセスとスクレイピングの取り組みを継続しただけでなく、iFixit の防御を回避しました。

iFixit は実際に、「ANTHROPIC-AI」と「CLAUDE-WEB」という 2 つの Anthropic AI クローリング ボットをブロックすることに成功しました。

しかし、これら 2 つの AI クロール ロボットは過去のものとなったようです。現在の主なクローラーは「ClaudeBot」ですが、これはブロックできませんでした。

他に選択肢がなかったため、Old K 氏は、iFixit が今週、Anthropic のクローラー ボットをブロックするために robots.txt ファイルを変更したと述べました。

それで、Anthropic の反応はどうですか?

彼らは黙らず、メディアに対して次のように答えた。

ANTHROPIC-AI と CLAUDE-WEB は確かに同社が使用していた古い Web クローラーですが、現在は使用されていません。

もちろん、Anthropic は、現在アクティブな ClaudeBot がクロールを防止する robots.txt のクロール防止対策を尊重しているかどうかという質問を避けました。

AI企業がこのようなことを行うのは今回が初めてではない。

Anthropic の公式 Web サイトをざっと見てみると、「Anthropic は Web からデータをスクレイピングしますか? Web サイトの所有者はどのようにしてスクレイピング ツールをブロックできますか?」というタイトルの記事が見つかります。

それは次のように述べています:

業界標準に従い、Anthropic は、Web クローラーを通じて収集されたインターネット上の公開データなど、さまざまなデータ ソースをモデル開発に使用します。

私たちのクローリングは侵入的または破壊的なものであってはなりません

私たちの目標は、同じドメインのクロール速度を考慮し、必要に応じてクロールの待ち時間を尊重することで、干渉を最小限に抑えることです。

しかし、世間の抗議のなか、Anthropic が明らかにそうしなかったことは明らかだ。

他人のデータを許可なくスクレイピングする常習犯です。

今年 4 月に、Linux Mint フォーラムがハッキングされました。

数時間にわたって、ClaudeBot は繰り返しフォーラムにアクセスしてデータを収集したため、フォーラムは数時間にわたって非常に低速またはクラッシュの状態になり、最終的には完全にクラッシュしました。

同時に、ClaudeBot がトラフィックの最大シェアを占めており、第 2 位の 20 倍、第 3 位の 40 倍を占めているという意見もあります。

4 月の事件と今回の事件に関する議論スレッドでは、次のような意見が述べられています。

データスクレイピングを禁止しても効果がない場合は、誰がデータを盗んだのかを検出できるように、追跡可能な詳細や固有の詳細を含む偽の情報を Web サイトに掲載してみてはいかがでしょうか。

iFixit は確かにそれをやりました。

そしてそれは本当にうまくいきました。クロードがウェブサイトの情報を完全にスクレイピングしただけでなく、OpenAI もそれをクロールしていたことが判明したのです...

正直、私たちに何ができるでしょうか?本当に解決策は一つではありません。

クロードやGPT以外にも、このように強制的に拠点を襲撃するAIは結構いるからね。

数日前、Tollbitというロボット検出のスタートアップは、Perplexity、Claude、OpenAIはクロールしたウェブサイトのrobots.txt設定を無視すると主張した。当時、誰かがOpenAIに意見を求めたが、OpenAIはコメントを拒否した。

さらに遡ると、先月も別の事件がありました。

フォーブスは、AI検索製品「Perplexity」が自社のニュース記事を盗用したとして非難した。これが批判の波を引き起こし、さらに多くのメディアが、Perplexityのウェブクローラー「PerplexityBot」が自社のウェブサイトから違法に情報を収集したと告発するようになった。

Perplexity の一貫したスタンスは次のとおりです。

コンテンツをスクレイピングしないよう出版社の要請を尊重し、著作権法の公正使用の範囲内で運営してください。

理論上、ClaudeBot と PerplexityBot は両方ともプロトコルに準拠し、「Do Not Crawl」または「Do Not Robot.txt」とマークされたファイルに遭遇した場合、宣言 Web サイトのコンテンツのクロールを回避するはずです。

この主張は無効であるため、無制限のスクレイピングを防ぐために、クリエイターにコンテンツを可能な限り有料エリアに移動するよう呼びかける人もいます。

この方法は効果的だと思いますか?

参考リンク:
[1]https://www.404media.co/websi... [2]https://www.404media.co/anthr... [3]https://twitter.com/kwiens/st... [4]https://x.com/Carnage4Life/st... [5]https://support.anthropic.com...