NEDOと東工大、26.5TOPS/W相当の高性能かつ低消費電力なエッジ向け推論チップ

PC Watch

試作されたLSIの顕微鏡写真

 新エネルギー・産業技術総合開発機構(NEDO)および東京工業大学による研究チームは23日、エッジ機器向けの高効率なCNN推論処理チップを開発した。

 畳み込みニューラルネットワーク(CNN)は、アプリケーションが高度化するとともに大規模化することで応用範囲が急速に広がる一方で、電力や面積的な制約のあるエッジ機器への実装には、要求される計算量やメモリ容量の肥大化が課題となっている。CNNの枝刈りなどを用いてモデルを縮小する手法も用いられているが、メモリアクセスが不規則になることから、並列処理の計算効率が低下する問題があった。

 研究チームでは、CNN推論処理におけて、データ再利用性を高く保ちつつ、カーネル要素の計算を一部スキップできるよう処理することで、メモリアクセスや演算処理を省けるる手法を検討。既存のCNNモデルを変形し、高精度かつ高効率な処理が可能なかたちに変換する学習アルゴリズムを開発した。

 実際に、並列演算アレイサイズ32×32、活性値、計数値にINT4量子化を採用する試作チップを作製し実測したところ、最大534MHz/1.1Vにおいて400mW以内の消費電力を実現。9分の1まで枝刈りした後のスパース化した不要カーネル要素の省略を考慮すると、実行効率としては26.5TOPS/Wに相当するという。

 今回の結果によって、これまでクラウド処理が前提とされていた大規模CNNモデルによる高度なAIアプリケーションが、データ通信量や電力などの制約が厳しいスマートフォンなどでも利用できるようになるという。研究チームでは、本技術をさらに発展させ、より高精度で高効率な推論チップの実現を目指すとしている。

直積型並列演算の概念図

畳み込み演算の分割と枝刈りされたカーネルにおける処理効率化

連続的枝刈り・再学習技術とその効果

Source

コメント