進化するAI画像生成ツール、弱点は「手」。その理由は…

    AIによる画像生成ツールが話題だが、AIはどうやら「手や歯を正確に描くこと」が苦手らしい。しかし、古来より人間による芸術では「手の描写」は重要な位置付けにあった。

    2023年1月、サンフランシスコに住むプログラマーのマイルズ・ジマーマンさん(31)は、画像生成ツール「Midjourney」をいじっていて衝撃を受けた。Midjourneyは、簡単なテキストを入力して指示を出すと、AIを使って画像を作ってくれるツールだ。

    ジマーマンさんが対話型AI「ChatGPT」を使って生成した指示文は、とても細かい。

    20代が数人、夜に遊びに出かけるときの服装で写っている2018年のスナップ写真で、都市部の誰かのアパートメントで開催されているパーティーで、楽しそうに踊っているところ。撮影は写真家のナン・ゴールディン、カメラは富士フィルムのInstax Mini 9、フラッシュあり、自然な姿をとらえたスナップ、若くて屈託のない、ハツラツとした感じ。縦横比3:2。

    テキストを入れて数秒後、Midjourneyは画像を出した。キラキラした若者が、パーティーを楽しんでいる写真ができあがった。

    人物の顔、肌、髪、着ている服は本当の写真のようにリアルで、表情などは指示に書いたとおりだ(ただし、あとから指摘する人がいたように、やや合成っぽさはある)。 

    だが凝視するうち、妙な点に気がついた。

    写っている女性の1人がカメラに向かって笑顔で友人とポーズを決めているのだが、小型カメラを持った左手の指の数がやけに多いのだ。数えてみると指が9本ある。別の写真では指の数は5本だが、不気味なくらい長い。また、写っている人物の多くが、歯の数が妙に多かった

    この写真をTwitterに投稿すると、たちまち反響があった。

    Midjourney is getting crazy powerful—none of these are real photos, and none of the people in them exist.

    Twitter: @mileszim / Via Twitter: @mileszim

    「Midjourney、すごいな。これは全部本物の写真じゃないし、写っている人も実在しない」

    「手と歯があまりにもおかしいので、見ているうちに笑えてきました」。ジマーマンさんはBuzzFeed Newsに対し、TwitterのDMでそう説明する。

    「投稿にはたくさんの反応があったのですが、多くの人が抱いたらしい嫌悪感のようなものは自分にはありませんでした。ほぼ完璧に近いのにありえない欠陥があるところが、いかにもAIらしくておもしろいなと思いました」

    AIによる画像生成の弱み:手を忠実に描くこと

    この数カ月のあいだ、Midjourneyをはじめ「Stable Diffusion」や「DALL-E 2」といった画像生成ツールが急速に普及している。

    簡単なテキストで指示文を入れると、ジェネレーティブAIと呼ばれる新しいタイプの人工知能を搭載したこれらのツールで、誰でもあらゆる種類の画像が作れてしまう。ツールをめぐっては現在、感嘆と否定的な声が入り混じっている。

    この種のツールは、ネット上からかき集めた無数の画像と、それに添えられた文章の関連性を認識するべく「訓練」されている。

    訓練を重ねると、プログラムは例えば「イヌ」という言葉がイヌの写真と結びつくことを「理解」する。これらの画像と画像を説明する文章が、まとめて「データセット」となる。

    このようなデータセットによって訓練されたAIがアート作品を創作し、いまやコンテストで賞を取ったり、クリエイターが記事やニュースレターを飾るのに使われたりしている。

    ただ、急速に進化しているにもかかわらず、AIの画像生成にはどうしてもまだ苦手な分野があるようだ。それが「本物らしい人間の手を作る」こと。

    Stable Diffusion、DALL-E 2、Midjourney。世界の先端を行く3つのAI画像生成ツールに、「人間の手」とお題を出して画像を作らせたところ、出てきたのが下の画像だ。

    これをネタにしたツイートも出てきた。

    「AIがあればデザイナーの仕事は消える。仕事のオファーを受けるAIの図」

    Twitter: @weirddalle / Via Twitter: @weirddalle

    しかしなぜ、AIは手(裸足もだが)の描写がここまで下手なのだろう?ネット掲示板などでも、多くの人が同じ疑問を挙げている。

    そこで、Midjourney、Stability AI(Stable Diffusionの開発者)、OpenAI(DALL-E 2の開発者)の3メーカーにメールで質問してみた。Stability AIだけから回答が来たので、紹介したい。

    手はAIにとってのソースが少なく、複雑な構造をしている

    「一般的に、AIデータセットにある人間の画像では、顔と比べて手はあまりはっきり見えないと理解されています」と、Stability AIの広報担当は説明する。

    「ソース画像の中でも、手はかなり小さいことが多いです。クローズアップの場合、手はほとんど写っていません」

    さらなる答えを求めて、米フロリダ大学のアメリア・ウィンガー・ベアスキン氏に話を聞いた。ベアスキン氏はアーティストをしながらAIとアート分野の准教授を務め、AIの作品を分析したアート論をブログで展開している。

    手についてたずねると「その疑問は私もずっと考えているんです!」と熱く応じてくれた。

    ジェネレーティブAIはネット上から集めた無数の画像を元に訓練されるが、「手」とはどういうものかを真の意味で理解しているわけではない、とウィンガー・ベアスキンは説明する。少なくとも、手が人体の構造上どんな仕組みになっているかは理解していないそうだ。

    AIは訓練に使われた画像の中で「手がどのように描かれているかを見ているだけ」なのだとウィンガー・ベアスキンは言う。

    「手は、だいたい何かを持ったりつかんだりしています。他の人につかまっていることもあります」

    AIが手とはどんなものかを学習する題材になる写真や絵、スクリーンショットに出てくる手は、例えば何かの布地をつかんでいたり、マイクを握っていたりするかもしれない。ひらひらと振っていたり、指が3本しか見えない向きで写っていたりするかもしれない。こぶしを握って指が見えない場合もあるだろう。

    ウィンガー・ベアスキンは手を広げて5本の指がはっきり見える状態にしてみせ、こう続けた。

    「画像の中の手が、このように見えているケースは稀です。どの画像でも手がこの形になっていれば、AIも完璧に再現できるでしょう」

    ルネサンス時代、芸術家たちは解剖学的に手を分析して詳細な描写が可能に

    AIは人間の身体がどんなつくりなのか、手は身体とどう連動するものなのか、どんな制約があるのかを把握する必要がある。

    手は芸術の世界でも根源的な位置づけにある。はるか昔、洞窟の壁に残された手形は、私たちが知るかぎり人類が最初に残したアートだと言っていい。

    デッサンや絵画で、手は描くのが難しい題材の筆頭とされる。古代ギリシャから中世ヨーロッパの時代まで、作品に描かれた手はまだ平面的で、複雑な部分は表現されていない。

    手の描写に変化がみられるのは、14~16世紀にかけてのヨーロッパ、ルネサンスの時代になってからだ。レオナルド・ダ・ヴィンチをはじめとする芸術家が現れ、骨格や靭帯など構造上の要素を含めて手を分析し描画するようになったのが、この時代だった。

    そこで初めて、人間の手は複雑な細部まで描かれるようになった。ふたつの手が印象的に描かれた、代表的なフレスコ画が生まれたのもこのころだ。ミケランジェロの「アダムの創造」では、髭をたくわえた神が右腕を伸ばし、アダムが伸ばした左手に触れようとしている。

    「ダ・ヴィンチは手の描写を熱心に追求していて、手を描いた多数の習作を手がけています」

    「(一方、AIが画像を元に学習する際は)画像を見て、ああ、ここでは半分だけの親指があるな、と理解します。残りの半分は布地の下に隠れていたり、物を持っていたりして見えないのです。そうすると、AIが手を再現したときに、どこかがゆがんで不自然な手になります」

    それでもいずれ、ジェネレーティブAIが飛躍的に進化して、手足や歯をうまく表現できるときがくるかもしれない。そうなるべきだとウィンガー・ベアスキンは言う。

    「AIが人類にとって役立つツールになるためには、人間とはどういうものなのか、構造上どんなつくりをしているのかを理解しなくてはなりません」

    この記事は英語から翻訳・編集しました。翻訳:石垣賀子 / 編集:BuzzFeed Japan