近代書籍の旧字や複雑なレイアウトに対応したOCRソフト発売、90%以上の読み取り精度 モルフォAIソリューションズ、図書館向けに「FROG AI-OCR」

INTERNET Watch

異体字・旧字体。カッコや句読点などの記号も正しく認識できる

 株式会社モルフォAIソリューションズは、近代書籍に対応したAI-OCRソフト「FROG AI-OCR」を7月1日より販売する。既存のOCRでは読み取りができなかった近代書籍の旧字や旧仮名、複雑なレイアウトに対応。特に明治期~昭和初期の近代書籍・雑誌においては、既存のOCRでは40%程度の読み取り精度なのに対し、その約2倍の90%以上の読み取り精度を達成しているという。図書館での利用が想定されており、価格は応相談。

「FROG AI-OCR」で処理した近代書籍。縦書きや多段組、図表、ルビ(ふりがな)も正しく認識できる

書籍種別・年代種別の精度比較

 同社は2021年度より、国立国会図書館の委託事業として図書館向けAI-OCRの開発に従事。その成果となるAI-OCRプログラム「NDLOCR」は、国立国会図書館がCC BY 4.0ライセンスでGitHubにて公開している。

 今回販売を開始するFROG AI-OCRは、NDLOCRを活用した市販ソフトとして提供するもの。デジタル田園都市国家構想により進められている図書館の蔵書のデジタルアーカイブ事業やバリアフリー法への対応のニーズを受け、NDLOCRの高精度なOCR処理に加え、校正・テキスト出力機能も1つのパッケージとして提供する。

 FROG AI-OCRで書籍を電子化する際は、スキャナーで書籍を取り込みPDF化。クラウドにアップロードすると、校正やテキスト出力ができる。今後はEPUB形式にも対応するとしている。

「FROG AI-OCR」のインターフェース

Source