「中国が大規模抗議デモを隠すためにポルノ広告を流しまくった」という主張はバイアスによる誤りだと研究者が指摘

GIGAZINE



2022年11月、中国では新疆ウイグル自治区で起きた集合住宅火災で10人が死亡したことをきっかけに、厳しい「ゼロコロナ政策」への不満を訴える抗議デモが全土で発生しました。そんな中、Twitterで「中国の都市名を検索するとデモではなくポルノ広告が表示される」と話題になり、スパム急増はデモを隠すための中国政府によるキャンペーンではないかとも指摘されています。しかし、この件について調査したスタンフォード大学インターネット観測所のDavid Thiel氏が、スパムの「急増」についての主張はバイアスによる誤りだと解説しています。

Content Moderation Survivor Bias | FSI
https://cyber.fsi.stanford.edu/io/news/content-moderation-survivor-bias

2022年11月29日、「Twitterで『北京』や『上海』など中国の都市名がハッシュタグで付けられたポルノのスパム広告が急増しており、抗議デモに関する情報が見つけにくくなっている」と、さまざまなメディアが報じました。これらのスパム広告を投稿するアカウントの多くは新しく作られたものか、長らく休眠状態だったアカウントであると指摘されており、中国政府による対外的な情報操作キャンペーンではないか主張されていました。

Twitterで中国のポルノ広告が爆増、大規模抗議デモを海外の目から隠す狙いか – GIGAZINE


ところがThiel氏は、「データバイアスと認知バイアスの両方が原因で、このスパムの『急増』の多くは幻想だと主張します」と述べ、メディアによる報道はバイアスに基づく誤りだと主張しています。Thiel氏によると、確かにスパムが抗議活動に関連するコンテンツを押し流してしまったものの、意図的にそう設計されたという証拠はなく、中国政府による意図的なキャンペーンだという証拠もないとのこと。

まずThiel氏が指摘しているのが、ソーシャルメディアの分析は「どの時点でデータを収集したのか」に大きく左右されるという点です。TwitterなどのSNSでは、ユーザーやプラットフォームがコンテンツを削除することがあります。つまり、ある時点で過去1カ月のデータを収集し、「この1週間で問題のあるコンテンツが急増した」という結果が出たとしても、それは「もっと古い問題のあるコンテンツの多くが削除された」ため、そう見えてしまっただけという可能性があるわけです。実際、問題のあるコンテンツのすべてが投稿後ただちに削除されるわけではなく、問題のコンテンツを削除するには時間がかかったり、複数のコンテンツをまとめて削除したりするケースもあります。

Thiel氏は、これと同様の効果はソーシャルメディア分析におけるさまざまなデータに現れると指摘し、「ある意味で過去のクエリは一種の生存バイアスになりがちです。過去のデータはすでに検閲されている一方で、ごく最近のデータはまだ検閲されていないかもしれません。『生き残った』コンテンツに基づいて分析すると、実際に起こったことをゆがめる可能性があります」と述べています。

さらに、データ分析においてはその他の認知バイアスも働きます。たとえば今回の事例では、古くから存在しているのに気づいたのが最近だったために「これは最近現れたものだ」と錯覚してしまう、「recency illusion(最近の錯覚)」という効果が働いた可能性があります。この認知バイアスにより、これまで中国の都市名でTwitter検索をかけたことがないユーザーが、デモをきっかけに都市名を検索して大量のポルノ広告に出くわすと、「これは怪しい」と感じて少量のデータから結論を出す可能性が高まるそうです。


そこでThiel氏は、中国の都市名を含む大量のスパム広告が発見された11月29日の時点で、中国の主要都市名を簡体字で検索して得られた過去1週間のデータを収集しました。実際にThiel氏が検索したのは以下の39都市です。

「北京」」「上海」「天津」「重庆」「哈尔滨」「长春」「沈阳」「呼和浩特」「石家庄」「乌鲁木齐」「兰州」「西宁」「西安」「银川」「郑州」「济南」「太原」「合肥」「长沙」「武汉」「南京」「成都」「贵阳」「昆明」「南宁」「拉萨」「杭州」「南昌」「广州」「福州」「海口」「香港」「澳门」「大连」「青岛」「苏州」「无锡」「厦门」「深圳」

11月29日の時点で得られたデータは以下の通り。11月21日21時~11月29日5時までの間に投稿されたツイート数は371万3674件で、大規模デモが発生した27日と28日には都市名を含むツイートが急増しており、その大部分はスパムだったとのこと。しかし、24日の集合住宅火災やそれに伴うデモが頻発する以前から、一定数のツイートが存在していることもわかります。


また、同期間における「苏州」を含むツイート数推移を見てみると、ピークは28日だけでなく22日にも存在していることが判明。


「兰州」を含むツイート数推移は26日~28日にかけて増加したものの、29日になって急激に減少するなど、都市名によってツイート数の推移が違うこともうかがえます。


さらにThiel氏は、ツイートに見られる特徴を利用し、同じスパムキャンペーンであるクラスターを特定しました。最も活発な10個のクラスターによるツイート頻度をグラフ化したものがこれ。10個のクラスターによるツイート数は332万6311件とかなりの数を占めており、確かに24日以降にツイート数のピークが来たクラスターもあるものの、一部のクラスターは24日以前の方が活発であり、必ずしも「デモに関するツイートを隠すためにスパムが急増した」という傾向はみられません。なお、これらのクラスターが使用するアカウントは頻繁に停止するため、過去1カ月間に作成されたアカウントが多いのは自然なことだそうです。


Thiel氏はこれらのスパムが本質的に商業的なものであり、火事や抗議活動とは無関係であるという仮説を立てて、さらに詳細な検索を行いました。まず、11月30日の時点で、11月15日~30日におけるツイートの検索を行いました。その結果を示した以下のグラフを見ると、都市名を含むスパムは新疆ウイグル自治区での火災以前から一般的であり、27日や28日に匹敵するピークもそれ以前に繰り返し発生していることがわかります。また、28日以降もデモは続いていたにもかかわらず、スパムの数は急減しています。


12月4日の時点で過去1週間のツイートを検索したところ、都市名を含むスパムはデモがかなり収まった12月に入ってからの方が多いことが判明。この結果についてThiel氏は、アクティビティの増加やTwitterのスパム対策システムの障害などが原因かもしれないと指摘し、少なくとも「中国政府がデモを隠すために組織的なキャンペーンを支援した」というシナリオにはそぐわないと述べています。


さらに、期間を空けて12月8日の時点で、再び11月21日~29日のツイートを検索しました。すると、ツイートの総数は「337万5069件」であり、11月29日の検索時点で確認された「371万3674件」より30万件以上も減少していることがわかりました。グラフを見ると、特に28日のピークがかなり小さくなっていることがうかがえます。


なお、Thiel氏はそもそも中国政府が抗議活動を海外の目から隠したい場合、抗議活動に関連する「白纸革命」「白纸行动」「白纸抗议」「A4纸革命」「#A4Revolution」「#WhitePaperRevolution」「#ChinaProtest2022」「#ChinaUprising」といったワードをスパムでかき消した方が効果的だったものの、そうした形跡はなかったと述べています。

一連の分析からは、中国政府が組織的に抗議デモを覆い隠すキャンペーンを展開し、都市名を含むスパム広告を急増させたというパターンはみられませんでした。Thiel氏は、「ソーシャルメディアのデータは複雑で、しばしば奇妙なものです」と述べ、研究者やメディアはセンセーショナルな結論に飛びついてしまいがちなものの、最近のイベントを分析するにはバイアスを考慮に入れる必要があると主張しました。

この記事のタイトルとURLをコピーする

Source

タイトルとURLをコピーしました