海外の技術者が日本語の「文字化け」を本気で解説、日本人顔負けの日本通っぷりが披露される

GIGAZINE
2021年11月02日 20時00分
メモ


by Whooym

文字が適切に表示されずに読めなくなってしまう「文字化け」は、海外の技術者の間でも「Mojibake」で通用するとのこと。そんな文字化けの種類について、東京で自然言語処理(NLP)の開発をしているポール・オリーリ・マッキャン氏が解説しました。

A Field Guide to Japanese Mojibake
https://www.dampfkraft.com/mojibake-field-guide.html

マッキャン氏によると、文字化けは作成した時と異なる文字コードで文書を開くことで発生するとのこと。文章が文字化けすると無意味な文字列になってしまうので読めませんが、どのような文字コードが使われたかによって異なるパターンが表れるので、慣れると使われている文字コードの種類を推測することができるそうです。


◆UTF-8
UTF-8はインターネット上では最も一般的な文字コードで、日本でも近年普及してきました。そんなUTF-8で作成したサンプル文章をシフトJISで開くと、以下のようになります。

まず、以下をサンプル文章とします。

吾輩は猫である。名前はまだない。
エンコードの設定を間違えると文字が化けてしまう。
東京タワーの高さは333mです。


そして、上記をUTF-8でエンコードしてからシフトJISで開いて文字化けさせたものが以下。


マッキャン氏はこの文字化けについて「特定の文字が頻出しているのが分かりますが、デイリーポータルZにはその意味を探求した面白い記事があります。それによると、文字化けした中にある『繧』という文字は、繧繝(うんげん)といって織物に使われる色付きの縞模様のことを指すそうです」とコメントしました。

以下の画像で足利義満が座っている畳の縁が「繧繝縁」です。「これは、元は位が高いことを意味するものでしたが、今日ではひな祭りに使われるひな人形で見ることができます」とマッキャン氏は説明しています。


またマッキャン氏は、この知識を生かして2021年に放送されたアニメ「裏世界ピクニック」に登場した文字化けした看板が、UTF-8をシフトJISで表示したものだということを見抜きました。


◆シフトJIS
シフトJISは、以前は日本語のサイトで最も一般的に使われていた文字コードです。近年のサイトはほとんどUTF-8に取って代わられていますが、古いフィーチャーフォン、いわゆる「ガラケー」のメールにはシフトJISが使われているとのこと。

シフトJISで作成された前述のサンプル文章をUTF-8で開くと以下のようになります。


マッキャン氏は、「シフトJISで文字化けした文章によく見られるのが、一般的な文字の珍しいパターンです。特に目立つのは『高』の異体字の『髙』で、線がつながっていることから『はしごだか』と呼ばれ、名字によく使われます。『崎』の『大』が『立』になっている『﨑(たつさき)』も似たようなケースですが、『髙』に比べると少ないようです」とコメントしました。

◆EUC-JP
UNIX用に開発されたEUC-JPは、後述のISO-2022-JPと基本的な規格を共有していますが、エンコードの方式がよりシンプルになっています。シフトJISと同じような使われ方をしましたが、それほど普及はしませんでした。

EUC-JPを前述のUTF-8で表示するとこんな感じになります。


シフトJISで開いても、うまく表示されません。


マッキャン氏は、「EUC-JPをシフトJISで開いた文字化けで興味深いのは、半角カタカナがよく出てくる点です。これは、シフトJISが半角カタカナを1バイトで表しているからです」とコメントしています。

◆ISO-2022-JP
ISO-2022-JPはメール以外ではあまり使われていませんが、時折見かける機会があるとのこと。しかし、派生が多いので、あるシステムでは読めても別のシステムでは読めないという問題が発生してしまうそうです。

ISO-2022-JPで作成したサンプル文章をUTF-8・シフトJIS・EUC-JPで開くと、いずれの文字コードでも以下のようになります。


マッキャン氏によると、ISO-2022-JPの文字をUTF-8・シフトJIS・EUC-JPで開いた際の文字化けが同じなのは、他の文字コードではエスケープと解釈される文字がないからだとのことです。

この記事のタイトルとURLをコピーする

Source

タイトルとURLをコピーしました