グーグル、曖昧な指示を理解し対応できるロボットをテスト中–AI言語モデルを応用

　Googleは、ロボットが現実世界の複雑さに対処するための驚くべき新たな手法を見つけた。それは、ロボットに言語を理解する方法を教えることだ。

提供：Stephen Shankland/CNET

　Googleは、親会社Alphabetのロボット事業部門Everyday Robotsのロボットに、言語を扱う最新の人工知能（AI）技術「PaLM」（Pathways Language Modelの略）を組み合わせた。その結果生まれた「PaLM-SayCan」という技術を、米国時間8月16日に公開した。

　この技術により、GoogleのAI言語モデルに現実世界に関する知識が十分に組み込まれると、ロボットは人間の曖昧な指示を解釈し、それに応える一連の動作を組み立てられるようになる。これは、自動車の組み立てラインでフロントガラスを取り付けるような厳密に制御された状況で、大部分のロボットが正確にスクリプトで指定された動作に従っているのとは対照的だ。

　PaLM-SayCanは研究プロジェクトだが、すぐに実用化できそうなほどの成果をあげている。同社は、予測不可能で複雑な実生活の中で役立つロボットを開発するため、比較的制御された実験環境ではなく、実際のオフィス内のキッチンでテストを行ってきた。テスラの人型ロボット「Tesla Bot」（「Optimus」）、Boston Dynamicsの「SpotMini」、Amazonの「Astro」などのプロジェクトと同様に、この技術はロボットがやがてSFの世界から現実のものとなる可能性を示している。

　PaLM-SayCanは、AIの研究者から「飲み物をこぼしたので、手伝ってくれる？」と頼まれると、オフィス内のキッチンのフロアを滑らかに車輪で移動し、デジタルカメラの映像でカウンターに置かれたスポンジを見つけ、モーター駆動のアームでつかみ上げて、研究者の所まで運ぶ。また、「ペプシ」と「コカコーラ」の缶を判別したり、引き出しを開けてポテトチップスの袋を探したりもできる。さらに、PaLMの抽象化能力により、黄色、緑色、青色のボウルがそれぞれ砂漠、ジャングル、海を象徴していることまで理解できるという。

　Googleは、6144基のプロセッサーで構成される巨大なスーパーコンピューターを使用し、PaLMに膨大な多言語のウェブ文書、書籍、Wikipediaの記事、会話、MicrosoftのGitHubにあるプログラミングコードを学習させた。こうしてトレーニングされたAIシステムは、ジョークを理解し、文章を完成させ、質問に答え、自身の思考の連鎖をたどって推論できるようになった。

　PaLM-SayCanは、この言語理解とロボットの運動能力を融合させたものだ。ロボットが指示を受けると、言語モデルの提案と、学習した約100のスキル（技能）を組み合わせる。PaLM-SayCanは、こうした言語とロボットのスキルの組み合わせのうち最もスコアが高い行動を選択する。

　カリフォルニア州マウンテンビューにあるEveryday Robotsのオフィスでは、車輪付きのロボット約30台が巡回している。安定性を保ち、移動するためのベース部分から、太い胴体が人の胸の高さまで伸びて、関節のある「頭部」を支えている。顔に相当する面には各種のカメラが取り付けられ、輪郭に沿った緑色の光はロボットが作動中であることを示す。物をつかむための多関節アームを備え、レーザーを使って周囲を3Dスキャンする回転式LiDARセンサーを搭載している。背面には大きな赤い停止ボタンもあるが、衝突を避けるようにプログラムされている。

　一部のロボットは台の前に立ち、物を拾い上げるスキルなどを学習している。時間はかかるが、1台が覚えてしまえば、同じスキルを他のロボットにも共有できる。

　1本のアームを後ろに折り曲げ、窓や消火器、大きな「Android」マスコットなどに貼られたQRコードに顔を向けて読み取りながら、オフィス内を滑るように移動するロボットもいる。Googleの著名なサイエンティストで、ロボット研究部門のディレクターVincent Vanhoucke氏によると、これらの歩行ロボットの仕事は、人間の周りにいて礼儀正しく振る舞う方法を学ぶことだという。

　「AIはデジタルの世界では大きな成功を収めたが、現実世界で人間が体験している問題を解決するには、まだ大きな進歩が必要だ。われわれは今が、AIが現実世界で活動し始めるのに絶好の機会だと考えている」（Vanhoucke氏）

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。

Source