第2回 人工知能が描く絵を見れば、今の彼らになにができるかわかる

人工知能に全く縁のない人が、今の人工知能に何ができるか、ということを知るためにはどこをとっかかりとすればいいか。それをとても端的に、効果的に知ることができるのは彼らが描いた絵を見ることだ。

今の人工知能は絵を描く。しかも、いとも簡単に描いてしまう。描写の巧さ、という点では、私は既に今のAIに負けている。もちろん人間の名人に勝つにはまだまだ時間がかかるだろうが、囲碁ほどは手間どらないかもしれない。
第1回「人工知能にできること、できないこと」を読む

手書き数字もうまく書けるAI

たとえば今の人工知能は、8万字という大量の手書き数字だけを学習して、そうした手書き数字の特徴をうまく掴み、自分なりに解釈したものを再び手書き数字風の絵として再現できる。

上図をパッと見て、どれが人間の描いた手書き数字で、どれがAIが描いた手書き数字であるか瞬時に言い当てるのは難しいのではないだろうか。

さらにAIは人間にはかなり難しいことができる。
AIがあるデータ群、この場合は8万字の手書き数字を大量に学習して、「特徴」を掴むのだが、この掴んだ特徴は人間が把握するそれと違い、「ベクトル」としてかなり具体的なデータの組み合わせで表現できる。AIの専門家はこれを「特徴ベクトル」と呼ぶ。特徴ベクトル化してしまえば、手書き文字でも数学的に扱うことができるようになるため、たとえば、ある点と別の点を一直線上に結んでみるということもできる。

数字の手書き文字をAIが解釈して、3Dの特徴空間に置いたもの

すると奇妙なことに、この2つの点(ベクトル)を結ぶ途中にあるベクトルは、2つの手書き数字の形を見事に補間するかのようになめらかな形状変化を呼び起こす。

人間は手書き数字の8と4の間について何も考えたりしないが、AIはその途中に9の形を挟むことで8から4への変形を見事に実現したのだ。

そしてこのような形状変化は、このAIをプログラムした人間が意図したものでも仕掛けたものでもなく、AIがあくまで大量のデータ群を学習した結果、自発的に獲得した結果であるということが素晴らしい。

笑顔の女性から男性の顔もつくれる

これと同じことが、手書き数字ではなく人間の顔のような複雑な絵に関しても可能なのが今のAIの面白いところである。

たとえば、金髪の白人男性と黒髪の黒人女性の写真があるとき、この中間はどのように変化するか、手書き数字の8と4の場合と同じように中間の状態を得ることができる。

注意したいのは、これは二次元的な変形と合成でごまかす「モーフィング」といった昔ながらの手法と異なり、AIが自発的に獲得した表現であるということ。AIはある状態の絵を内部的には1つの特徴表現として持ち、この特徴表現はベクトルであるため、足し算や引き算が可能である。

たとえば、笑っている顔の女性の絵から普通の顔の女性の絵を引き、そこに普通の顔の男性の絵を足すと、笑った男性の絵を得ることができる。

こうしたことが可能なのは、AIが学習させた絵の特徴を”彼ら”なりに理解し解釈した結果である。
AIの驚異的な成果はここに留まらない。

AIには1組の画像をペアとして学習する手法があり、これもまた興味深いのだ。

たとえば衛星写真と、同じ場所の地図の画像をセットでAIに学習させる。すると、そのAIは衛星写真と地図の特徴を学習し、どんな衛星写真を与えても自動的に地図の絵を描くことができるようになる。

ここまでは想定の範囲だと思う。しかし面白いのは、それと同時に、「地図から衛星写真」を生成することもできるようになるのだ。

我々の感覚では、本来、衛星写真とは衛星から撮影されるものであって、地図を作るもとになるものだが、AIにとっては地図と衛星写真はどちらも学習対象となる絵であり、区別がない。従って衛星写真から自動的に地図が得られるなら、同じように地図から衛星写真を得られてもなんら不思議はないのである。

私(男)がもしも女優だったら……?

これを応用したイタズラを私は考えてみた。
まず、地上波テレビ放送を受信し、画面の中からAIが自動認識して、日本の女優の顔写真だけを大量に抜き出す。
この女優の顔から、顔認識ソフトを用いて目や鼻の位置、輪郭などを抽出した線画を得る。
この線画と女優の顔とをペアで学習させると、顔の線画から女優の顔を生成するAIが完成する。

このAIに対して、下手くそな手書きの顔の絵を入力すると、やはり下手くそな写真が生成される。

この下手くそな絵は、よく見ると鼻の形や口の形などがちゃんと元の入力と整合性がとれている。そこで私自身の顔を線画化し、そうして得られた線画をもとに女優の顔を生成すると、私と同じ表情の女優の絵が得られる。

ただし、この方法では、今のところ手書き数字なら手書き数字、顔なら顔、と、ある程度は学習する領域(ドメイン)を絞らないとうまく学習できないことが分かっている。あまりに詰め込みすぎるとAIの頭のなかがごちゃごちゃになってしまうらしい。

たとえばカバンを線画の状態から色を塗った状態に変換するAIはうまくいく。

しかしこれにカバンだけでなく靴や時計なども学習させようとすると、うまくいかない。あまりにも違うものが交じると難しいらしい。

Amazonの商品写真を使ったさらに面白い研究

ペア画像の学習は革命的な進歩だったが、AIが我々に見せてくれる驚異は、ここに留まらない。さらに最近の研究では、ペアを作ることもなく、ただひたすら、複数の種類(ドメイン)の画像を大量に学習させることで面白い結果が得られる。

ここでは、Amazonの商品写真の中から、大量のカバンの画像と、大量の靴の画像をそれぞれ独立して学習させている。

その後、カバンの画像を与えると、「このカバンがもしも靴だったら……」ということをAIが想像して描くことができるようになる。

もちろんその逆、「この靴がもしもカバンだったら……」ということも想像できる。

AIがカバンと靴、双方のドメインの特徴をうまく掴んだからこそこうした類推が可能になる。AIは今、ここまで来ているのだ。

<今回のまとめ>
●AIは自分が学習した絵の特徴を、自分なりに理解し解釈して再現する
●AIには1組の画像をペアとして学習する手法があり、相互に再現できる
●最近の研究では、ペアを作ることもなく、複数の種類の画像を大量に学習させることで面白い結果を得ている