ウェブ上の情報を記録・保存するインターネット・アーカイブが予期せぬ大量アクセスにより約2時間にわたりダウン

GIGAZINE


by drosen7900

カリフォルニア州サンフランシスコに本拠を置く非営利団体のインターネット・アーカイブが運営するサービス「ウェイバックマシン」は、削除されたり非公開にされたりして見ることができなくなったサイトなどを閲覧できるサービスです。現地時間2023年5月28日、インターネット・アーカイブはウェイバックマシンに対して毎秒数万件ものリクエストが殺到して約2時間にわたりウェイバックマシンのサービスがダウンしていたことを発表しました。

Let us serve you, but don’t bring us down | Internet Archive Blogs
https://blog.archive.org/2023/05/29/let-us-serve-you-but-dont-bring-us-down/


インターネット・アーカイブの創設者であるブリュースター・ケール氏は現地時間2023年5月28日に、「本日ウェイバックマシンに起こったこと」として「ウェイバックマシンで公開されているパブリックドメインの光学文字認識(OCR)ファイルに対する毎秒数万件ものリクエストが、AmazonのAWSサービス上にある64台の仮想ホストから送信されました」と報告しています。

ケール氏によると、ウェブ標準においても毎秒数万件ものリクエストは処理しきれないほどの過剰なアクセスとのこと。

大量のアクセスにより、インターネット・アーカイブの全サービスが約1時間にわたりダウンしました。インターネット・アーカイブは本来休日であった日曜日の午後に緊急召集をかけられ、復旧に努めたエンジニアに対して感謝の意を表明しています。大量アクセスに対して、インターネット・アーカイブは特定のIPアドレスをブロックすることでサービスのバックアップを取るとともにダウンからの復旧を行いました。

しかし数時間後、別の64個のIPアドレスが先ほどと同様の大量のリクエストの送信を行いました。結果としてウェイバックマシンは再度ダウンし、サービスが一時的に停止されました。その際、目的のサーバーが正しく動作しておらず、リクエストが拒否されたことを示す「502エラー」の画面が表示されていました。502エラーは通常、短期間でサーバーにアクセスが集中し、大きな負荷がかかって一時的な通信エラーが発生している際に表示されます。


大量のリクエストが送信された要因について、インターネット・アーカイブは「インターネットアーカイブのテキストを異常な速度で収集し、学習に役立てようとしているAI開発企業からのものであると考えています」と推測しています。

Sorry, but https://t.co/rvOhn0c6zM is down temporarily– working to restore service.

(details: this is our second blast of abusive traffic from an AWS customer today apparently from an AI company harvesting Internet Archive texts at an extreme rate)

— Internet Archive (@internetarchive)


2度目のシステムダウンから約1時間後、インターネット・アーカイブはウェイバックマシンが復旧したことを報告しました。

https://t.co/KbdcLkyWhO is back!

(and it may not have been an AI company, maybe just an eager user)

— Internet Archive (@internetarchive)


一方でHacker Newsでは「ウェイバックマシンでウェブサイトのアーカイブを行う際にはレート制限が設けられていますが、インターネット・アーカイブはORCファイルのダウンロードを行う際の制限を忘れたに違いありません」と推測されています。

今回のサービスダウンを受けてケール氏は「私たちのウェイバックマシンを一度に大量に使用したい場合は、常識的な速度でゆっくりとダウンロードなどを行ってください。また、大規模なAIでのプロジェクトなどを開始している場合は、問い合わせがあれば我々は手を差し伸べることが可能です」と忠告しています。

ケール氏は「インターネット・アーカイブとウェイバックマシンの使用の際には、サービスをダウンさせるような極端な使い方は控えてください」と述べています。

この記事のタイトルとURLをコピーする

Source

タイトルとURLをコピーしました