ニートの言葉

元ニートがやってみたこと・その過程で学んだこと・考えたこと・技術メモあたりを主に書いています。情報革命が起きた後に訪れるであろう「一億総ニート時代」の生き方を考え中です。

AIに絵本を描いてもらった

f:id:takuya0411:20211008040930p:plain

どうもこんにちは、あんどう(@t_andou)です。

最近『何かを生成するAI』に興味があり、触ってみました。

しかし、ただ「試してみた」だけでは面白みが無いので、何か作品を作りたいと考え、絵本を描いてもらうことにしました。

 

まずは完成作品をご覧ください。

youtu.be

 

違和感がすごいですね。

 

お気づきになった方も多いかとは思いますが、実はこちらの作品

絵だけじゃなく、物語、読み上げ音声、BGM、全てがAIによる生成物です。

 

完成度はまだ低いものの、あと数年もすれば違和感の無い作品が作れるようになりそうな予感がしますね。

使用した技術

全てを把握しているわけではないため自分用のメモ程度になりますが、使った技術を記載しておきます。

絵にはVQGANとCLIPという技術を使っています。

これは凄くて、描いて欲しいものを文章で伝えると描いてくれます。
しかも、どんな画風で描いて欲しいかまで理解してくれるのはやばいです。

本作品でははらぺこあおむしで有名なエリック・カールさんの画風でお願いしました。

ちなみに、今回はお遊び程度の試行、且つ絵本という分野なため深く追及せずに「よく分からないけどなんとなくそれっぽい」くらいの絵の品質で終わらせていますが、お題の指定次第ではよりちゃんとしたものが出来上がります。

次に挙げるのは割とよく出来たものの一例ですが、誰かが描いたものとして出されたらAIによる生成物だと見抜く自信は僕には無いです。

ハロウィンの夜

f:id:takuya0411:20211009085423p:plain

雲の上の山・リアルに

f:id:takuya0411:20211009085230j:plain

他に試したのはこんな感じです

物語

文章の生成にはGPT-2を使いました。

これは最初の文章だけを指定すると残りは全て書いてくれるというものになります。

今回指定した書き出しは
『あることろに小さな男の子が歩いてました。その後ろに犬も歩いてました。その後ろには』
です。これ以降は全てGPT-2が書いた文章になります。

 

理想的には「絵本風の物語」を出したいのですが、そこまでの指定方法がわからないため何度か生成をした上でこれなら使えるかも というものを選びました。

 

当初はrinna株式会社さんが公開されているモデルを利用しようと思ったのですが、試したところ会話風やwebの記事風になった印象を受けたため、tanreinamaさんのモデルを使わせていただきました。

読み上げ

@hiho_karutaさんが作られているVOICE VOX(四国めたん)を利用しました。

文章を入れると中品質の読み上げをしてくれます。

チューニングをすればそれらしく聞こえますが、時間がかかるため今回は話すスピードを遅くしただけになります。

詳細は理解できていないため、公式サイトGithubをご覧ください。

BGM

Performance RNNというものを使いました。

こちらも詳細は理解できていないため紹介だけに留めておきます。

こちらの本で知りました。

終わりに

「あと数年もすれば違和感の無い作品が作れるようになりそうな予感がする」と先述しましたが、実はもう(僕の目では)見分けがつかないレベルの分野もあります。

次の写真をご覧ください。これらは全てAIによって描かれたものになります。

f:id:takuya0411:20211009075850p:plain

f:id:takuya0411:20211009080051p:plain

f:id:takuya0411:20211009080058p:plain

これまで「何かを生成するAI」の技術はほとんど追っていなかったのですが、すごいところまで来てますね。

もうそろそろAI写真家やAI画家が活躍する世の中になりそうです。(知らないだけで既にそうなっているのかも)

参考

github.com

物語

github.com

読み上げ

voicevox.hiroshiba.jp

BGM

magenta.tensorflow.org

最後の写真

github.com