対談 CONVERSATION

行動から人の内面状態を読み取るAI!?岡田将吾の気になる研究 前編

長谷川茂雄

人と人とのコミュニケーションに必要なものは、言語だけにあらず。視線やジェスチャー、表情といった非言語情報も不可欠であることはいうまでもない。岡田将吾氏は、それを社会的信号処理という新しい領域に基づいた研究を通して読み取ることを実践する先駆者のひとり。同氏の試みは、人間の内面の状態を理解するためのAIの新分野として世界から注目を浴びる。これらの研究は認知症の初期症状などを読み取る手がかりにもなるという。編集長・杉原が、最先端の研究の現状とその先に広がる未来について伺った。

人の行動から内面状態を理解するという試み

杉原:もともと岡田さんは、大学でいわゆるAIに関する研究をされていたんですか?

岡田:そうですね。人工知能を基本に、修士、学士と約5年間研究をしまして、少しずつ人の行動を予測するとか、人の行動からコンテキストを推定するということにフォーカスするようになりました。 例えば、この人のしゃべり方や使う言葉の特徴がこうなら、この人はロボットとのおしゃべりを楽しんでいるとか、いくつかの行動から、人の内面を予測するというような研究です。

杉原:今日は、話していて僕の思惑がバレるかもしれないから、サングラスか何か掛けたい気分です(笑)。

岡田:いや、僕自身は(内面を予測することは)できないですよ(笑)。システムにはできてしまうことがありますけどね。

人の行動から内面を読み取るという研究を続ける岡田氏。「最近は、手の動きと感情の関係性が気になる」という。

杉原:ならよかったです(笑)。岡田さんのそういった研究は、AIなどを通じて出口がたくさん出てきたという段階ですか?

岡田:そうですね。最近は動作を測るセンサーが安くなったりもして、状況が変わってきましたし、企業でも自分たちのような研究をしているところが出てきました。そういうプロジェクトに自分が加わることも増えてきて、出口は広がったと感じています。

杉原:もともと岡田さんがAIに興味を持ったのは、どういった経緯でしょうか?

岡田:最初は大学で物理をやっていたのですが、物理の世界っていろいろと難しくて挫折してしまいました。それで物理の先生にはちょっと失礼なんですが(笑)、もう少し目に見えてわかりやすいことがやりたいと思って、ロボットに顔の認識や画像の認識をさせて動かすという研究をやっている研究室に入ったんです。AIを研究し始めたのは、そこからですね。

杉原:岡田さんのような分野の研究者は、日本にどのくらいいらっしゃるんですか?

岡田:もちろん産官学で人工知能の研究をされているグループは山ほどありますけど、ピンポイントで、人の行動から内面状態を理解するみたいなことに焦点を当てているのは、僕たちと数えるくらいしかないです。

こちらは、2018年にジョージ・アンド・ショーン合同会社(現株式会社)と岡田研究室が共同で開設したG&S Labのイメージビジュアル。IoTデバイスであるbiblle(ビブル)を活用して、行動学習に特化した機械学習プログラムの開発を行っている。

もう多くの企業ではAIが採用面接をしている!?

杉原:表情から何かを読み取るということは、なんとなく僕もイメージできるんですが、そこから購買意欲だったり、そこに出口を見つけていくというのは、なんだか大学でやる研究っぽくないなと思いますね(笑)。

岡田:そう言われれば、そうかもしれないですね。

杉原:僕自身のイメージでは、大学の先生は研究を突き詰めて、あとはアウトプットを第三者に見つけてもらう、そんなスタイルが多いなと常々感じているんですよ。それが出口までしっかりとしていて、岡田さんの研究は面白いなと思います。

岡田:そう言っていただけるとありがたいです(笑)。確かにそれは狙っていて、研究室でコンピューターの前に座って突き詰めるのではなく、実際のインパクトのあるデータに対して、なんらかの回答を出していくほうが、世の中的にも出口がわかりやすいですし、そういうことは意識していますね。

岡田氏の研究に興味津々の杉原。感情という抽象的なものを数値化するという試みには、シンパシーを感じているようだ。

杉原:世界的にはどうなんですか?

岡田:コンピューティング分野の国際会議のような場には、アメリカ、ヨーロッパの有名大学の研究者が集まってきますが、そこでは感情を理解するという研究が一番多いように感じます。コンピューターにいろいろな感情を理解させるということが基本ですけど、話している声や内容、表情からコミュニケーションのスキルを推定するということも盛んになってきてはいます。AIによる企業の採用面接みたいなものもそうですね。

杉原:確かにそういう面接は、実際にあるようですね。

岡田:面接で一言、二言答えたことから推測して、その人(のスキル)を判定するということですよね。あらゆる企業は、もうAIを様々活用しているのですが、採用には特定の人しか受からないとか、雇用差別・公平性の問題が出てきたりもしています。自分も就職面接のように実際に多くの人を呼んで、はじめて会った学生同士でディスカッションをしてもらい、そのビデオを人材派遣の会社に送って、人事の採用担当者に点数をつけてもらうという試みをしたことがあります。同じようにAIにも判断してもらったら、熟練の採用担当者と同じように人を選ぶのかどうかを検証しました。その実験は、学会でも良い評価をもらいましたが、アプリケーションとして見た場合、考慮すべき課題が多いと感じます。ですので、そういうスキル判定の技術を使って、スキルを上達させるための訓練に活かすことを、これからはやっていきたいですね。困っている人が喜ぶようなアプリとして機能できればと思っています。

感情を数値化するには、大きな課題がいくつもある

杉原:なるほど、それは興味深いですね。もうひとつお聞きしたいのが、“感情”っていうのは数値化も可視化もしにくいのではないか、ということです。実際に研究は進んでいるんでしょうか?

岡田:そうですね、難しいところも確かにあります。いま主にやっていることは、心理学者たちがこれまでに作った評価指標に則って、実験後に、いまあなたの感情はいくつでしたか? というように被験者に問いかけたり、第三者に被験者の映像を見せて、被験者の感情状態はどうなっていると考えられますか? というようにアンケートを書いてもったりする手法なんです。それをもとに人工知能が答えを導き出すわけですから、そもそものアンケートの答えが間違っていると、人工知能的にはもう破綻してしまう。そこが弱点でもありますね。

杉原:まず、ちゃんとしたデータを取ることが難しいんですね。

岡田:正解のデータがしっかりと作れなければ、人工知能は動けませんから。正直、感情って自分で数値をつけるのは難しいですよね。

杉原:自分でも自分の感情が一番わからないこともありますよね(笑)。

岡田:そういうものなんですよ(笑)。

杉原:以前の心理学者の研究だったり、研究論文なんかを追っかけながら、感情を紐解く要素を分析していくという手法はもちろんわかりますが、IoTを使ったデータ集めというのは、どうなんでしょう。世界的にはビッグデータは集まってきているんですか?

岡田:それも難しいところではあるんです。GAFAは、画像・音声を含めWeb上でたくさんの情報を集めていますが、普段の人同士の会話や、自然に対面コミュニケーションしているときのデータを膨大に集めるのは、まだまだ実際には難しいですよね。例えば感情データを集めるために、誰かが怒っているところをずっとビデオで撮るわけにもいかないですし、これからデータを取るので怒ってください、っていうのもおかしいですしね(笑)。多くの人が、AI speakerと友達のように頻繁に話す未来が来たら変わるかもしれませんが、AIの対話機能レベルから言って、それはもう少し先になりそうです。

杉原:確かにそうですね。

岡田:だから、自然にそういうデータをどうやったら取れるのか? っていうのは自分たちの研究の大きな課題ですね。

杉原:ライフログ的なところですね。とはいえ、無理やりIoT的な要素をくっつけたものを開発して使ってもらっても、結局使わなくなりますしね。

岡田:そうですよね、スマートウォッチとかもその一例だと思います。

杉原: スマートウォッチが出た当初はすぐに買いましたけど、3日後にはこれまで使っていた普通の時計が恋しくなってしまいました(笑)。でもいまは、Apple Watchなどがセンシングに使われていますよね。睡眠だったり、バイタルだったり。そういう使われ方をしているのは有意義だと思います。

岡田:そうですね、そのような使い方は興味深いです。最近私たちもスマートウォッチのようなセンサを使った研究を始めています。とはいえ自分たちの研究は、いまはデータを採取するのにビデオの前に人を座らせなきゃならないので、常に記録するのが難しい状況です。なので、毎日何かを記録すれば、健康がチェックできるとか、そういう多くの人に受け入れやすいアプリなどを通して、効率よくデータを取る方法を模索して行こうと思っています。

後編へつづく

岡田将吾(おかだ・しょうご)
国立大学法人北陸先端科学技術大学院大学(JAIST)准教授。2008年東京工業大学大学院知能システム科学専攻博士課程修了。京都大学特定助教、東京工業大学大学院助教、IDIAP research institute 滞在研究員等を経て、2017年より現職。「社会的信号処理に基づく人間の行動やコミュニケーションの理解」を主要テーマに、AIの新たな領域の研究に取り組む。専門は、マルチモーダルインタラクション、データマイニング、機械学習、パターン認識ほか。

(text: 長谷川茂雄)

(photo: 増元幸司)

  • Facebookでシェアする
  • LINEで送る

RECOMMEND あなたへのおすすめ

対談 CONVERSATION

音を感じる世界が、声を出すきっかけに!「Ontenna」開発者・本多達也が届けたいもの 前編

宮本さおり

光とバイブレーションにより、音を伝えてくれるデバイス「Ontenna」(オンテナ)。この新しいデバイスが聾学校の子ども達が言葉を話すきっかけをも作り出しているという。そんな「Ontenna」の開発者、本多達也氏は「Ontenna」を使いどのような未来を切り開こうとしているのか。開発当初から親交のある編集長・杉原行里が迫る。

杉原:お久しぶりです。「Ontenna (参考:http://hero-x.jp/movie/2692/)」やっと実用化になりましたね。この日を心待ちにしていました。

本多:ありがとうございます。行里さんにぜひ見ていただきたいと思っていました。

杉原:パッケージもこだわりを感じますね。充電もこれでできるっていうところがいいですね。

※注:充電にはmicro USBでの接続が必要です。

本多:よくぞ気づいてくれました。そうなんです。試行錯誤しながらやっとここまできまして、3段スイッチにしています。スライドを真ん中にカチッとしていただくと、電源が入るようになっています。「あー、あー」(発話)

杉原:バイブレーションがしっかりと伝わります。感度がものすごくいいですね。

本多:はい。大きい声だとバイブレーションの強度も強くなり、小さな声だと弱くなります。音の強弱も伝えることができるようにしています。それから光。音に反応して光も出ますから、見ていても楽しいですよ。

杉原:本当だ!

本多:「Ontenna」は何を話しているかまでは分からないのですが、音が出ていることを掴むことはできる。そこに特化させたものです。聾学校の生徒さんたちに体験していただいているのですが、太鼓を叩いたり、笛を吹く合奏で「Ontenna」をつけてもらったところ、音を感じることができるので、リズムが取れるようになったんです。もちろん、彼らが発する声にも反応する。言葉の受け手はバイブレーションで音をキャッチできますし、発話者は光で自分の声が相手に届いていることが分かります。聾学校に通う子どもの中にはなかなか発話をしない子もいるのですが、「Ontenna」を使うことで子ども達が声を出しはじめたというケースの報告も先生方から受けています。

当事者との出会いから開発へ

杉原:なるほど。聞こえないと、本当に自分は声を発しているのかとか、声が届いているのかは分かりにくいものですが、こうしてきちんと見えて感じられたら、確かに楽しいでしょうね。子どもたちが飛びつくのも分かります。そもそも、なぜ、本多さんはこれを開発しようと思われたのですか?

本多:大学1年生の時にある聾者の方と出会ったのがきっかけでした。手話の勉強をはじめて、手話通訳のボランティアをしたり、手話サークルを作ったり、NPOを立ち上げたりと、いろいろと活動していました。

杉原:やはり、人との出会いがきっかけなのですね。

本多:そうですね。僕が出会った聾者の方は、生まれてすぐに出た高熱により、神経に障がいがでてしまい、全く耳が聞こえないという方でした。人工内耳も補聴器も使えなかった。なので電話が鳴ってもわからないし、アラームが鳴ってもわからない。動物の鳴き声なんかもわからないなかで生活をしていたんです。もともと自分がデザインやテクノロジーの勉強をしていたので、そういった知識を活用してなんとかできないものかと考えはじめたのがきっかけでした。そこで思いついたのが、バイブレーションと光で音を伝えるということでした。「Ontenna」は、60〜90dBの音の大きさを256段階で光と振動の強さにリアルタイムに変換し、リズムや音のパターンといった音の特徴を着用者に伝えます。

杉原:60~90㏈っていうのはなにか医学的領域の話ですか?

本多:聾学校に行っていろいろとヒアリングをすると、「喋りかけている声を知りたい」「声の大小の出し方を練習したい」という話が出たんです。60㏈は人がしゃべっているくらいの大きさ、90㏈はものすごく大きい声を出したり、楽器を強く叩いたりだとか、工事現場の雑音くらいの音の大きさです。ここのグラデーションを伝えたい、表現したいというので、この値を設定しました。ただ、「小さな音にも反応してほしい」というリクエストもあって、販売製品はサウンドズーム機能を取り入れたり、ユーザー自身で感度を変えられたりできるようにしています。

サードパーティーの可能性

杉原:ここの振れ幅を思いっきり変えるというよりは、振れ幅の補完、拡張みたいなものをほかのデバイスを使ってやるってことですね。

本多:そうです。そして、見た目にこだわりました。クリップ型になっているので髪の毛につけたり服につけたり、いろいろな場所につけていただけます。

杉原:いやー、本当によくここまできたと思います。これだけコンパクトにするにはかなりの苦労があったのではないですか?

本多:ハードウェアは作るのが本当に大変で、とくに、「Ontenna」のようなものの場合、ソフトウェアのエンジニアと、ハードウェアのエンジニアの協力が必要です。あんまり小さすぎるとバッテリーの持ちが悪くなるし、大きくしすぎるとアクセサリーのようなお洒落さがなくなる。バイブレーションも、マイクと振動マットがこれだけ近い位置にあると、ハウリングの問題も出てきます。どうやったらハウリングせずにできるか。ここも頭を悩ませたポイントでした。

杉原:初期のころはほんと、まだビヨンといろいろと線が出ている状態でしたもんね。

本多:本当に苦労しました。

杉原:「子供たちを笑顔にする」っていうのがビジョンなのですか? すごくいいですね。

本多:開発する時に思い描いたのが、聾学校の子供たちに使ってもらうことだったんです。だからキービジュアルも聾学校の子どもさんにモデルになってもらいました。聴覚に不自由を感じる人の数でいけば、おじいちゃんおばあちゃんのほうがビジネスになるんじゃないかっていう話も何度もあったのですが、やっぱり子どもの時にリズムを知っておくってことがめちゃくちゃ大事なので、子どもたちのために作りたいという気持ちが強かったんです。

杉原:未来を感じるね。今後、サードパーティーとか、これを使って何かビジネスをしたいっていう人たちも増えてくるのでは?

本多:前振りありがとうございます!(笑) それがまさに今富士通でやっている研究の話にもなるんですけど、「Ontenna」って、今のものだとうるさいところに行くとずーっと振動してしまうんです。これを機械学習などを入れることによって特定の音を学習し、それに対してのみ振動するように研究をはじめています。

杉原:具体的にはどういう使い方を想定しているのかなど、興味が湧きますね。後編ではそのあたりをもう少し掘り下げて伺いたいです。

後編へつづく

本多達也(ほんだ・たつや)
1990年 香川県生まれ。大学時代は手話通訳のボランティアや手話サークルの立ち上げ、NPOの設立などを経験。人間の身体や感覚の拡張をテーマに、ろう者と協働して新しい音知覚装置の研究を行う。2014年度未踏スーパークリエータ。第21回AMD Award 新人賞。2016年度グッドデザイン賞特別賞。Forbes 30 Under 30 Asia 2017。Design Intelligence Award 2017 Excellcence賞。Forbes 30 UNDER 30 JAPAN 2019 特別賞。2019年度キッズデザイン賞 特別賞。2019年度グッドデザイン賞金賞。現在は、富士通株式会社にてOntennaプロジェクトリーダーを務めている。

(text: 宮本さおり)

(photo: 増元幸司)

  • Facebookでシェアする
  • LINEで送る

PICK UP 注目記事

CATEGORY カテゴリー