2023年11月17日 Friday Lunch Seminar (英語で開催します)
12:15 〜 13:00
CiNet棟大会議室にて開催
演題:私たちのグループの年次更新情報
情報通信研究機構(NICT)
未来ICT研究所
脳情報通信融合研究センター
脳情報工学研究室
主任研究員 細田 一史
担当PI : 細田 一史
Abstract:
私は私達のグループのこの1年間のアップデートを共有します。グループ発足から2年たちましたが、恐らく私自身が脳の研究者ではなかったためCiNet内での認知は低いと思いますので、現在進行形の研究や研究以外のことも含め、活動内容を情報を共有します。本当は広く紹介したい気持ちもありますが、機密情報や、各グループメンバーが何を行っているのかも含みますので、対面限定となりますこと、お許しください。なお、対面限定により当日に来られない方もいらっしゃるかと思いますので、以下に研究部分のLong abstractとして紹介させていただこうと思います。
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
私たちの大きな目標は、今の人工知能にはない、脳の機能をモデル化することで、生命、人間、自己とは何かを理解し、そして超省エネの脳型計算機の構築に繋げることです。そのため、具体的には主に劣化画像の認識におけるひらめきに注目しています。実はこのひらめきには生命や自己に直結する要素や、超省エネ計算機につながるような要素が含まれているからです。
例えば何だかわからないぐらい劣化したリンゴの画像を認識するタスクをよく考えてみましょう。リンゴだとわかる前には、どこに何が映っているのか分からないとします。よって、いわゆる深層学習分類機にあるように、1000分類のそれぞれの尤もらしさを計算して最大値を答えとするようなものではありません。たくさんのゴミ情報の中で、どこに注目してよいのかわからない状況で、限りない選択肢の中から、リンゴに到達しなければなりません。つまり、問題のフレーム自体を決めるというタスクを内包しています。また、適当に創造すればよいわけではなく、唯一の答えが決まっています。さらに、これまで似たようなタスクを学習したことがないため、統計的あるいは論理的な飛躍を必要とし、別の「経験」を用いなければなりません。一見して関係ない複数のタスクを統合して、未学習の新しいタスクに適用することが必要です。注意すべきこととして、これは未学習なので転移学習ではなく、学習無しに利用することです。つまり、ここでの経験とは、未学習のあらゆる状況に適用できるように蓄えられた情報だと考えることができます。このように予期せぬ環境への適応能力は、情報理論、複雑系理論、計算生物学を融合した分野において『適応性』と呼ばれ、生命システムの本質と考えられています。同様のことは、自由エネルギー原理でも提唱されています。私達は、この『経験』は、私達が『自己』にもつ印象と近いように感じています。皆様はいかがでしょうか?よって、未学習のタスクに対する経験を用いたひらめきを可能とする人工知能を構築することで、自己を持つ人工知能に割と直接的に迫れると考えています。
具体的なメカニズムはどうなっているのでしょうか?過去の研究(Murata 2014 PlosOne)では、ここには、足りない情報を生成し、劣化画像を創造的に補完する操作が含まれることが知られています。注意すべきこととして、リンゴとして何が足りないのかということは、リンゴとわかってからでないとわかりません。つまり、リンゴであることの認識と、リングの認識に必要な情報の補完は同時に起こります。fMRIを用いた研究により、一般的に人間の創造性が働くときには、脳のデフォルトモードネットワークと、実効性ネットワークが同時に働くことが知られています。しかし、ひらめきのfMRI測定に関しては困難が伴います。そもそも、ひらめきとは瞬間の現象です。また上記のように、視覚系だけでなく、脳全体が関わっていると考えられます。これはつまり、その瞬間の前後で、脳の状態が全体的に劇的に変化し、相転移を起こすということが考えられます。さらに、実験では『わかった』というタイミングでボタンを押してもらうことは可能ですが、これは意識が完了した時点であり、脳の別の部位は、その直前に答えを判明しているかもしれません。もちろん、脳の各部位は関係性をもって連動しますから、その瞬間の中でも、細かく見ると順序があります。これこそが、ダイナミクスを解読するカギとなることは間違いありませんが、fMRIで高い時間解像度を求めるためには高度な技術を要します。私たちは、これまでに開発した解析手法(Murata 2022 JNeurosci)をさらに発展させ、この解明に挑戦しています。
このような実験的解明の一方で、私達はソフト的およびハード的に再構築するというアプローチも行っています(むしろこっちがメインです)。まずは、人間が劣化画像のひらめきに要する統計的特徴を再現する簡単なモデルを作成しました。これは、人間の実験で用いた入力画像と全く同じ画像データを入力とし、深層学習を用いた確率モデルによって再現しました。人間の実験で用いた入力画像は一般的な深層学習器にはない分類を含むので、Hebb則を用いた一発学習(Hosoda 2022 arxiv)により補完しました。結果、統計的特徴が再現され、また畳み込みニューラルネットワーク(CNN)ではなく、Vision Transformer(ViT)を用いた場合には、絵の難しさに関して人間との相関も見られました(Hosoda 2023 KICSS)。しかし、このモデルはひらめきが起こるまでの時間の統計的特徴を模倣しただけであり、ひらめきにより答えに達したわけではありません。またこれは完全に確率的であり、経験を用いていません。経験を実装するために、現在では大自由度カオスを用いて挑戦しています。
語弊を招かないよう、私達が『劣化画像の認識タスク』自体に注目しているわけではないことを追記します。私たちが注目しているのは、『未学習である難解なタスク』です。というのも、学習済みであれば、『劣化画像の認識タスク』は人間よりも現在の深層学習の方が得意だと考えているからです。これを試すために、まずは簡単な画像ライブラリ(CIFAR100)を二値化により劣化させて、これを深層学習に学習させました。まだ人間とはきちんと比較できていませんが、恐らく人間には不可能ではないかという分類まで正解していました。さらに、CNNではなくViTを用いた場合には、二値化画像を学習しただけで、元のカラー画像を、学習した二値化画像よりも高い正解率で回答することがわかりました(Lim 2023 SfN発表予定)。これらの研究はひらめきに関するものではないですが、劣化画像認識のひらめきを研究する際には、これらの理解が必須です。
私達は、計算モデリングのハードウェア実装を目論んでいます。仮に、例えば現在の深層学習の基礎であるSelf attentionを用いることで、ひらめきを実装できたとします。しかしそれが汎用化された際には、世界中で大きなエネルギーが消費され、それは地球や生態系として持続可能ではないでしょう。私達は、熱ノイズを利用した、大自由度カオスによる情報処理原理を探索しました。具体的には、情報処理の基本として、最も簡単なエンコーダーデコーダーを構築しました。結果、熱ノイズの10倍程度のシグナルにより、ロバストに情報処理が可能である原理を発見しました(国際特許出願)。仮に、ノイズが0.1mVだとすると、1mVで動く可能性があります。現在のシリコントランジスタを基礎とした計算機では1V程度が必要ですので、これを用いない1mVの計算機を作成できれば、理想的には100万倍(1000の2乗)の効率が得られるかもしれません。もちろん多くの挑戦が残されていますが、未だ不可能だという見解は得られておらず、夢の脳型計算機と言えるでしょう。
当日は、以上のような私たちのグループの研究のこの一年のアップデートを紹介します。恐らく、当日に来られる方が少ないと思いましたので、長々と説明しましたこと、お許しくださいませ。それでは、皆様ご多忙の中に大変恐縮ではございますが、できる限りのご来場と、楽しい議論をお願い申し上げます!