日本電信電話株式会社(NTT)は6月15日、撮影された画像から照明条件によらない「真の色」である物体固有の反射率(アルベド)を推定する技術を開発したと発表した。同社が提唱するIOWN構想の一面である、デジタルツインなど実世界データのデジタル化に向けた重要な技術であり、超リアルなメタバース空間の構築や、照明制御を可能にするとしている。
従来、街並みなどを撮影した映像をデジタルデータとして取り込む際には、撮影時の照明条件によってAI解析の精度やユーザー体験の品質に大きく影響することが課題だった。
例えば、物体認識や自己位置推定においては、撮影時の照明条件が推定精度に影響を与えるため、さまざまな照明条件のもとで撮影した画像データを集めて検討する必要があった。また、メタバース空間の構築では、複数のデータを統合する際に、さまざまな日照条件で計測したデータがツギハギになることで、メタバース空間に撮影時の影が残ってしまうことがあった。
今回開発した技術では、LiDAR(Light Detection And Ranging:レーザー光を反射させ、対象物までの距離やその形状などを計測する技術)で計測した反射強度を利用して、効率な学習を実現したという。
レーザー光の反射によって得られるLiDARの計測結果は、太陽光など照明条件の影響を受けない。同社では、反射光計測時に得られる反射強度の情報が、照明条件に依存しない情報としてアルベドを推定する有力な手がかりになることに着目した。
従来の固有画像分解(機械学習において、共通する特徴を持つ画像データから学習を行う手法)では、正解となるアルベド情報が付与された画像から学習する教師あり学習や、事前知識をもとにアルベドらしさを反復学習させる教師なし学習などが行われていた。
今回の技術では、LiDARにより得られた反射強度を併用。これにより、従来では難しかった日陰とテクスチャの区別を行いながら学習でき、教師なし学習としては最高精度、教師あり学習手法と比較しても遜色のない精度を達成した。
同社では、今後もさらなる精度向上に向けて研究開発を推進するとともに、画像認識やメタバース空間構築などにも適用していくとしている。
本技術に関する論文は、6月18日~22日(太平洋標準時)にカナダのバンクーバーにて開催されているコンピュータービジョン分野の国際会議「CVPR(Conference on Computer Vision and Pattern Recognition)2023」にて採択された。