ニートの言葉

元ニートがやってみたこと・その過程で学んだこと・考えたこと・技術メモあたりを主に書いています。情報革命が起きた後に訪れるであろう「一億総ニート時代」の生き方を考え中です。

24時間生放送をし続ける人工知能youtuberを作る その4「顔を作る」

↑今回の成果

こんにちは、あんどう(@t_andou)です。

24時間生放送をし続ける人工知能Youtuberを作る企画、第4回目の記事です。
前回はコメントを取得をして返信をしつづけるというものが完了しました。

今回は少しだけ見た目に手を加えていきます。

前回の記事 

blog.takuya-andou.com

改めて やりたいこと

最終的にやりたいこととしては実写の自分の顔・声を人工知能で操作して、リアルアバターが24時間放送をし続ける何かを作ることです。

放送をするコンテンツは雑談でもニュースでも朗読でもなんでも良いのですが、そういったものに汎用的に使える技術を試行錯誤していくことがこの企画の目的になります。

今回やったこと

今回は顔の生成に関わる技術を試してみました。

結論

結論から言うと今回の目的に対して、現時点では使えそうにないことが分かりました。

その試行錯誤の記録を書いていきます。

使った技術

どのように使えるかは考えていなかったのですが、その1に記載していたdeepfakesという技術を使って、自分の顔を何かしら操作できないかと考えました。

というのも、この企画を思いついたのは このdeepfakesという技術に触発されたからです。

そこで、まずはdeepfakesがどんなものなのかを把握するために自分の顔を福山雅治さんの顔に変換してみました

試した結果

考察

画像の質が悪いのは教師データや学習時間を重ねることである程度はなんとかなると考えています。

ですが、次にあげる2点から今回の企画では使えそうにないと判断しました。

  1. 学習ほどではないにせよ、リアルタイムに顔を生成するには時間がかかる
  2. ニュースを読み上げるとした時に、口パクを合わせる方法がイメージできない

リアルタイム性については今後の技術発展でなんとかなるとは思いますが、何かのテキストを読み上げさせるタイミングに合わせて口パクさせることが今の僕の知識ではイメージできなかったため、今回の企画に使うことは断念しました。

まとめ

今回はフェイクポルノで問題になっていたdeepfakesを試してみました。

この企画では使えそうにないと判断しましたが、面白い技術なので機会があればまた触ってみようと思います。

また、発音に合わせて口パクをさせることについてはObamaNetというものがありましたので、本企画にはこちらの方が向いてそうです。

リアルタイムに生成しなければいけないと言う課題は残っていますが、最終的にはこれを使って形にできたら良いなと考えています。

参考にしたページ

https://github.com/deepfakes/faceswap

https://github.com/karanvivekbhargava/obamanet

次回

24時間生放送をするYoutuberを作るということを目的に、まずはLive2Dのキャラに口パクをさせて放送をするくらいまでやってみたいと思います。