↑今回の成果
こんにちは、あんどう(@t_andou)です。
24時間生放送をし続ける人工知能Youtuberを作る企画、第4回目の記事です。
前回はコメントを取得をして返信をしつづけるというものが完了しました。
今回は少しだけ見た目に手を加えていきます。
前回の記事
改めて やりたいこと
最終的にやりたいこととしては実写の自分の顔・声を人工知能で操作して、リアルアバターが24時間放送をし続ける何かを作ることです。
放送をするコンテンツは雑談でもニュースでも朗読でもなんでも良いのですが、そういったものに汎用的に使える技術を試行錯誤していくことがこの企画の目的になります。
今回やったこと
今回は顔の生成に関わる技術を試してみました。
結論
結論から言うと今回の目的に対して、現時点では使えそうにないことが分かりました。
その試行錯誤の記録を書いていきます。
使った技術
どのように使えるかは考えていなかったのですが、その1に記載していたdeepfakesという技術を使って、自分の顔を何かしら操作できないかと考えました。
というのも、この企画を思いついたのは このdeepfakesという技術に触発されたからです。
そこで、まずはdeepfakesがどんなものなのかを把握するために自分の顔を福山雅治さんの顔に変換してみました。
試した結果
イケメン(福山雅治さん)の顔と入れ替えてみた
— あんどう@競艇・競馬AI (@t_andou) 2019年1月22日
分かった事としては
・メガネは生成してくれないので外さないとダメ
・顔の大きさ?解像度?は合わせないと雑コラ感が酷い
・角度を付けすぎると顔として認識してくれないっぽい
・動き(目や口の開閉)の再現度はなかなか良い#deepfakes pic.twitter.com/SjugF362vg
考察
画像の質が悪いのは教師データや学習時間を重ねることである程度はなんとかなると考えています。
ですが、次にあげる2点から今回の企画では使えそうにないと判断しました。
- 学習ほどではないにせよ、リアルタイムに顔を生成するには時間がかかる
- ニュースを読み上げるとした時に、口パクを合わせる方法がイメージできない
リアルタイム性については今後の技術発展でなんとかなるとは思いますが、何かのテキストを読み上げさせるタイミングに合わせて口パクさせることが今の僕の知識ではイメージできなかったため、今回の企画に使うことは断念しました。
まとめ
今回はフェイクポルノで問題になっていたdeepfakesを試してみました。
この企画では使えそうにないと判断しましたが、面白い技術なので機会があればまた触ってみようと思います。
また、発音に合わせて口パクをさせることについてはObamaNetというものがありましたので、本企画にはこちらの方が向いてそうです。
リアルタイムに生成しなければいけないと言う課題は残っていますが、最終的にはこれを使って形にできたら良いなと考えています。
参考にしたページ
https://github.com/deepfakes/faceswap
https://github.com/karanvivekbhargava/obamanet
次回
24時間生放送をするYoutuberを作るということを目的に、まずはLive2Dのキャラに口パクをさせて放送をするくらいまでやってみたいと思います。