Q&Aサイト・Stack Overflowのアーカイブが更新停止、オープンなナレッジベースとしての在り方に暗雲

GIGAZINE


AIによる投稿の扱いをめぐる運営会社との対立により、ボランティアのモデレーターら多数がストライキを行っているQ&AサイトのStack Overflowで、過去の投稿をまとめたアーカイブである「Stack Exchange Data Dump」が無効化されたことが分かりました。これに対し、ストライキ中のユーザーからは、プラットフォームの存在意義にかかわると懸念する声が上がっています。

June 2023 Data Dump is missing – Meta Stack Exchange
https://meta.stackexchange.com/questions/389922/june-2023-data-dump-is-missing/390023

Stack Overflowでは2009年から、質問や回答をデータベースとしてまとめるStack Exchange Data Dumpが作成され、3カ月に1回の頻度で更新されてきました。しかし、Internet Archiveにあるデータダンプの2023年6月分が見当たらず、更新が前回の3月を最後に途絶えていてると指摘する書き込みが、Stack Overflowの運営などについての話題を扱うサイト・Meta Stack Exchangeに投稿されました。

そして、Stack Overflowの運営会社であるStack Exchangeから最近解雇されたばかりだという元データベース管理者は、投稿への回答で「Archive.orgにデータダンプをアップロードするジョブは3月28日に無効化され、シニアリーダーの承認なしでは再有効化されないようにマークされています」と述べて、会社側の判断によりデータダンプが更新されなくなっていたことを明かしました。


Stack Overflowのユーザーの中には、データダンプがアップロードされなくなったのをストライキと結びつける向きもありましたが、3月28日という日付はストライキの開始前であるため、少なくとも直接的な関係はないと見られています。

回答者が引用した声明の中で、Stack Overflowの最高技術責任者であるジョディ・ベイリー氏は、「私たちはダンプ、API、Stack Exchange Data Explorer(SEDE)へのアクセスをゲートで制限する方法を探しています。これは、私たちのコミュニティの仕事で稼ごうとする組織による悪用を防ぎながら、個人がデータにアクセスすることを可能にするものです」と説明しました。ベイリー氏が言及した組織とは、インターネットから集めたデータで大規模言語モデルをトレーニングするAI企業だと考えられています。

回答者によると、SEDEは毎週末に更新されており、Internet ArchiveにアップロードされるデータダンプはSEDEのデータベースのダンプであるとのこと。データダンプとSEDEの内容は同じではないものの重複しているので、Stack Overflowのデータは依然として利用可能です。


しかし、クリエイティブ・コモンズのライセンスにより広く公開されていたデータダンプの更新停止を危惧する声もあります。ストライキを表明する書簡にも署名をしているStack Overflowユーザーのニック(Nick)氏は、ストライキの進展を報告する<a href="https://meta.stackexchange.com/questions/390106/moderation-strike-update-data-dumps-choosing-representatives-gpt-data-and-wh
” target=”_blank”>投稿
の中で「データダンプはユーザーから問い合わせられるまで、事前の通知や警告もなしに停止されました。このような形でデータダンプを無効化させるのは、コミュニティとのコミュニケーション不足を示す事例のひとつです」と指摘しました。

また、ニック氏は続けて「さらに重要なのは、データダンプが『知識の宝庫へのアクセスを保証し無料提供すること』というこのプラットフォームの存在意義そのものを強調するものだという点です。このネットワークは、有料プラットフォームに代わって、情報が自由に流通することを保証するために設立されたものであり、データダンプは『会社が将来どうなっても共有された情報にはいつでも誰でも自由にアクセスできる』という保険でもありました。これを無効にすることは、Stack Overflowの創設理念を裏切ることになります」と非難しました。

ニック氏はこのほか、Stack Exchangeによりストライキの代表者としてモデレーター3人を選ぶよう要請を受けており、選出のための投票が行われている最中であることや、Stack Exchangeがメディアに「ストライキに参加したモデレーターは11%」としているものの実際にはモデレーター業務の多くが滞っていること、モデレーターによるGPTコンテンツの判断精度についてStack Exchangeが公開したデータに疑わしい点があることなどを報告しています。

この記事のタイトルとURLをコピーする

・関連記事
Q&AサイトのStack Overflowが「AI投稿OK」に方針転換して物議、抗議のためモデレーターら600人以上が大規模ストライキに署名 – GIGAZINE

会話AI「ChatGPT」の回答の投稿がコーディングQ&AサイトのStack Overflowで一時的に禁止される – GIGAZINE

開発者7万人に聞いたソフトウェア開発の今をまとめた「Stack Overflow Developer Survey 2022」 – GIGAZINE

IT技術系Q&Aコミュニティ「Stack Overflow」の4000万件以上ある質問&回答で最も多く引用された「プログラマー必読」な書籍トップ10リスト – GIGAZINE

Stack Overflowに高校時代から10年間書き込みを続けたエンジニアが学んだ15のこと – GIGAZINE

・関連コンテンツ

2023年06月12日 17時00分00秒 in ネットサービス, Posted by log1l_ks

You can read the machine translated English article here.

Source

タイトルとURLをコピーしました