ニートの言葉

元ニートがやってみたこと・その過程で学んだこと・考えたこと・技術メモあたりを主に書いています。情報革命が起きた後に訪れるであろう「一億総ニート時代」の生き方を考え中です。

高精度な文字起こしAIで古い映画の字幕を作ってみたら酷かった

 

どうもこんにちは、あんどう(@t_andou)です。

前回、高精度なAIを使って動画の字幕を作る方法を書きました。

前回の記事

blog.takuya-andou.com

今回やったこと

講演などの動画ではだいぶ良い精度が出ていたため、字幕がついていないパブリックドメインの古い映画に対しても自動的に良い感じの字幕が付けられたら良いなと思い試してみました

結果として、全然ダメでした。

供養のために記事に残しておきます。

字幕無しの方が映画をお楽しみいただけるかと思います。

youtu.be

 

こちらはついでにカラー化しました。

youtu.be

 

それではまた。

文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法

どうもこんにちは、あんどう(@t_andou)です。

前回宣言した通りに誰でも簡単にYoutubeの字幕ファイルを作る方法を書きます。
「Youtubeの」と書いていますが、実際はどの動画でも対応してます。

前回の記事

blog.takuya-andou.com

まずはGoogleColabの共有

colab.research.google.com

 

使い方

GoogleColabに記載していますが

1.GPUを使用するように切り替え

上の「ランタイム」→「ランタイムのタイプを変更」からからGPUを選択

2.右上の接続

下のセルを実行すると自動的に接続されるので省略可能です

3.動画をアップロード

ここにドラッグ&ドロップでアップできます

大容量のデータの場合、GoogleDriveと連携した方が効率的です

4.入出力のパスの変更

ファイル名に合わせて変更してください

5.全セルを実行

あとは待つだけで完了です。

注意

whisperの不具合なのか、たまに終了の時刻が開始の時刻よりも先になっていたり、時間がおかしいことがあります。
Youtubeにインポートする際にどの行にエラーがあるかが表示されるので手作業で修正してください。

気分が乗ったら修正する処理を追加するかもしれません。

高精度な文字起こしAIでYoutubeの字幕を作ってみた


どうもこんにちは、あんどう(@t_andou)です。

今回はOpenAIの高精度な文字起こしAI「whisper」を試してみました。

ただ試すだけでは面白くないのでもう少し実用的なことを…と言うことで、Youtube用の字幕を作ってみました。

実行環境

GoogleColabでGPUはT4でした。

使用した動画と結果

以前、リアルな顔がしゃべるAIを作ったので、その動画を使います。

声もAIによるもののため、僕の耳には聞き取りやすいですが、whisperにとってはどうでしょうか。気になります。
(ちなみに、この動画内で話しているニュースの文章もAIによる生成物です。)

www.youtube.com

↑こちらの動画の字幕としてすでに含まれているので、結果が気になる方はご覧ください。

日本語(自動生成)はYoutubeが自動でつけてくれたもの、日本語が今回生成したものになります。

まずはモデルごとに精度確認

whisperでは「tiny」「base」「small」「medium」「large」の5つのモデルが用意されているようです。

tinyなどはリアルタイムな処理には向いているかもしれませんが、今回は精度が良いことを確認したいためsmall / medium / largeの三つで試します。

small

処理時間

14.6

結果

[00:00.000 --> 00:03.360] おはようございます。 朝の核雲ニュースです。
[00:03.360 --> 00:08.360] 昨夜午後10時前頃金川県山とし静桃の路上で
[00:08.360 --> 00:13.400] 道路脇に止まっていたケートラックにダンプカーが消滅したという通報がありました。
[00:13.400 --> 00:19.520] この事故の影響でケートラックに載っている50代の男が全身を強く売って死亡し、
[00:19.520 --> 00:23.120] 女子席の男を含む3人が重宅となっていました。
[00:23.120 --> 00:28.480] 警察の調べによりますと、「男は山とし内の飲食店従業員で
[00:28.480 --> 00:37.280]  early 正を見状態で運転していたというのですが取調べに対しては アクセルを踏み間違えたという趣旨を話しているとのことです
[00:37.280 --> 00:44.800] また 事故を起こした際に車の全部が大きくへ込んだため修理に出していたところだったということなのですが
[00:44.800 --> 00:52.160] 警察は火失地症罪にあたる可能性もあるとして操作を続けています 次はスポーツ関連のニュースです
[00:52.160 --> 00:54.480] 機関をはつきました。
[00:54.480 --> 00:59.000] DFの唱片ぼしく魔法を固め、聖俊とキャンプthingをゲットしています。
[00:59.000 --> 01:02.080] Jリーグという人を気に入れて、
[01:02.080 --> 01:05.300] 私の体験を受け取るようになるようになりました。
[01:05.300 --> 01:08.260] でも、私がぜんぜんの风に祈りに行ったのは、
[01:08.260 --> 01:12.420] 私が作られてくれる他們を参考にしてきました。
[01:12.420 --> 01:15.620] 私は曲を引き込んでいきたいと思っていました。
[01:15.620 --> 01:19.300] 私のしかとに、私が拝手する言語のようです。
[01:19.300 --> 01:25.680] ました日本代表 mf 端部まこと選手は このあと午後七時から都内で記者会見
[01:25.680 --> 01:29.560] を開き今年の目標などについて 語ります
[01:29.560 --> 01:35.560] 最後にお天気情報です東京は晴れの 地雲り最高気温は平年より
[01:35.560 --> 01:39.960] 厚度高い30度になる見込みです 雨雲レーダーによると午後からは
[01:39.960 --> 01:44.480] 天気が崩れ始め湯が耐敷 校は極地的に激しい雷雨となる
[01:44.480 --> 01:53.600] ところもあるため稼莉を持ってお出かけください 週末にかけて気温が上がる予想なので熱中小隊作にも気をつけてくださいね
[01:53.600 --> 01:58.020] それでは今日も良い1日をお過ごしください

所感

約2分の動画に対して15秒かからずに処理できています。だいぶ早い。

ただ、精度の方は…まだまだ全体的にひどいですね。それでは次。

medium

処理時間

35.8秒

結果

[00:00.000 --> 00:13.380] おはようございます。朝の架空ニュースです。昨夜午後10時前頃、神奈川県山敷委の路上で、道路脇に止まっていた経トラックにダンプカーが衝突したという通報がありました。
[00:13.380 --> 00:23.120] この事故の影響で、経トラックに乗っている50代の男が前身を強く打って死亡し、助手席の男を含む3人が重体となっていました。
[00:23.120 --> 00:31.720] 警察の調べによりますと男は山斗市内の飲食店従業員で 式曜日状態で運転していたというのですが
[00:31.720 --> 00:43.040] 取調べに対してはアクセルを踏み間違えたという趣旨を話しているとのことです また事故を起こした際に車の全部が大きく凹んだため修理に出していたところだった
[00:43.040 --> 00:49.700] ということなのですが 警察は可視症症罪にあたる可能性もあるとして捜査を続けています
[00:49.700 --> 00:59.460] 次はスポーツ関連のニュースですサッカージェリーグ バンフォーレ候補が昨シーズン限りで現役を引退した df 三上正cıろ選手が
[00:59.460 --> 01:06.060] 今シーズンから vfb シュトラルト で現役復帰することが決まりました契約は3年間
[01:06.060 --> 01:12.920] セバン号は8番に決まりましたサッカーのワールドカップ アジア最終予選で日本と対戦し
[01:12.920 --> 01:20.120] 惜しくも破れたうずべキスタン代表は今週末に行われる試合に向けて最終調整を行いました
[01:20.120 --> 01:29.460] 日本代表MF長瀬部誠選手はこの後午後7時から都内で記者会見を開き 今年の目標などについて語ります
[01:29.460 --> 01:37.980] 最後にお天気情報です 東京は晴れのち曇り最高気温は平年より5度高い30度になる見込みです
[01:37.980 --> 01:48.080] 雨雲レーダーによると午後からは天気が崩れ始め 夕方以降は極地的に激しい雷雨となるところもあるため、傘を持ってお出かけください
[01:48.080 --> 01:53.480] 週末にかけて気温が上がる予想なので熱中傷対策にも気をつけてくださいね
[01:53.480 --> 01:56.300] それでは今日も良い一日をお過ごしください

所感

時間はだいぶかかるようになっていますが、まだ結構漢字の変換に失敗していたり、選手名の聞き取りに失敗していたりします(固有名詞が苦手?)が、全体的に良くなっています。それでは最後にlargeモデル。

large

処理時間

57.5秒

結果

[00:00.000 --> 00:05.000] おはようございます 朝のか空ニュースです昨夜午後10時前頃
[00:05.000 --> 00:12.820] 神奈川県ヤマト市下鶴間の路上で道路脇に泊まっていた軽トラックにダンプカーが衝突したという通報がありました
[00:12.820 --> 00:19.460] この事故の影響で軽トラックに乗っている50代の男が全身を強く撃って死亡し
[00:19.460 --> 00:28.020] 助手席の男を含む3人が渋滞となっていました 警察の調べによりますと男はヤマト市内の飲食店従業員で
[00:28.020 --> 00:31.100] 四季折々状態で運転していたというのですが
[00:31.100 --> 00:36.920] 取調に対してはアクセルを踏み間違えたという趣旨を話しているとのことです
[00:36.920 --> 00:41.700] また事故を起こした際に車の全部が大きく凹んだため
[00:41.700 --> 00:44.080] 修理に出していたところだったということなのですが
[00:44.080 --> 00:49.600] 警察は過失致死罪に当たる可能性もあるとして捜査を続けています
[00:49.600 --> 00:51.840] 次はスポーツ関連のニュースです
[00:51.840 --> 00:53.620] サッカーJリーグ
[00:53.620 --> 01:03.440] 晩法嶺幸夫が昨シーズン限りで現役を引退したdf三上 masahiro 選手が今シーズンから vfb シュトゥッドガルトで現役復帰することが決まり
[01:03.440 --> 01:12.880] ました契約は3年間 背番号は八番に決まりましたサッカーのワールドカップアジア最終予選で日本と対戦し
[01:12.880 --> 01:20.040] 惜しくも敗れたウズベキスタン代表は今週末に行われる試合に向けて最終調整を行い ました
[01:20.040 --> 01:29.480] 日本代表mf長瀬弁誠選手はこの後午後7時から都内で記者会見を開き 今年の目標などについて語ります
[01:29.480 --> 01:37.960] 最後にお天気情報です 東京は晴れのち曇り最高気温は平年より5度高い30度になる見込みです
[01:37.960 --> 01:45.940] 雨雲レーダーによると午後からは天気が崩れ始め夕方以降は極刺的に激しい雷雨と なるところもあるため
[01:45.940 --> 01:53.680] カサを持ってお出かけください 週末にかけて気温が上がる予想なので熱中症対策にも気をつけてくださいね
[01:53.680 --> 01:58.240] それでは今日も良い一日をお過ごしください

所感

処理時間は流石にかかりますが、2分の動画に対して1分かからないので思ったより早いです。
精度も気になるところはありますが、mediumでも良かったような?
過失致死罪を正しく書けているのはすごいですが固有名詞はやはり苦手っぽい印象です。

それでも、自動でここまでやってくれるのは素晴らしいですね。

使用した動画と結果その2

www.youtube.com

ある程度使えそうだということがわかったので、次は「全国的にプログラミングスクールを展開しているSUNABACO」のナカムラ(@nakamakoko)さんが講演されている動画をお借りして字幕を作成してみました。こちらも「日本語」の字幕のところに適用済みです。(@campa_rabbさん動画提供・字幕適用ありがとうございます。)

結果として、最初の導入が少し怪しいかと思いましたが、全体的にめちゃくちゃ精度がいいです。良すぎてびっくりします。

動画の時間が55分くらいで、処理時間は20分程度でした。

最後に

最近、画像生成AIによってイラストレーターの仕事がなくなると騒がれていましたが、文字起こしの仕事の方が先になくなりそうな勢いですね…

 

Youtubeの文字起こしのお仕事ください。

 

次回は「文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法」をお届けしたいと思います。

 

→書きました

blog.takuya-andou.com

 

それでは。

【画像生成AI】素材画像を作るWebサービスを作りました【無料】

 

どうもこんにちは、あんどう(@t_andou)です。

今回はかいどうさん(@odiak_)と一緒に、画像を入れるとそれに似た画像素材を生成してくれるサービスを作りましたので紹介させてください。

経緯

以前、画像生成AIで書き出した画像を配布するサイトを作りましたが、その際に

今後は『検索をするように画像を生成して使うようになる。』そして『生成をするための文章をうまく表現する力 が重要になる』ということに気づきました。

しかし、全員がそんな力を持っているわけでもなく、その力を伸ばそうとするわけでもないため、そういう力を持っていない無い人でも気軽に使えるサービスを作ろうと考えました。

作ったもの

こちらになります。

ImageMart

・今は完全無料です(2022/09/12時点)
・ベータ版として招待制で公開しております。
・Googleアカウントでログイン出来るアドレスをご登録ください。
・サーバーの負荷などを見つつ、順次ご招待する予定です。

機能紹介

現時点での機能としては、「画像を入れるとそれに似た画像を生成してくれる」という機能の一点だけになります。

最近話題の画像生成AI「StableDiffusion」でも画像を入力としたimg2imgという機能はありますが、そちらでは文章の指定が必要になります。

ですが、今回作成したものではそれが不要です。

比較

それではStableDiffusionの呪文を入れない場合と今回作ったものを比較してみます。

比較1.お皿に何個かのいちごが乗っている写真

比較1-1.StableDiffusionのimg2imgを呪文無しで使った場合

 

1枚目は棚、3枚目はipodでしょうか?かろうじて2枚目に皿が写っていますが、どれも全然違うものになっていますね。

「お皿に乗ったいちごを真上から見た写真」などの呪文を書いた上で試行錯誤していくことで似た画像を生成することは可能だと思いますが、呪文無しでは全然ダメだということがわかります。

比較1-2.ImageMartで生成したもの

それではここからは今回作ったImageMartで生成した画像をご覧ください。

ちゃんとどれもお皿に乗ったいちごの画像になっています。

比較2.某魔法の映画に出てきそうな男の人の画像

この画像自体も生成AIが描いたものです

比較2-1.StableDiffusionのimg2imgを呪文無しで使った場合

これはこれで面白いですが、全然違うものが出ていますね。

比較2-2.ImageMartで生成したもの

ツッコミどころはありますが、先程の結果よりはだいぶ良い感じかと思います。

その他の例

その他にもImageMartで生成した例をあげておきます

最後に

今後は高品質で高画質な画像を作れるようにするなど、少しずつ機能を追加していく予定なので、ぜひご利用ください。

登録はこちらから → ImageMart

本記事で利用した画像

strawberries-strawberry-X4WYW1PWL5

Frog Leaf Free Stock CC0 Photo - StockSnap.io

Sunflower Field Free Stock CC0 - StockSnap.io

Autumn Colorful Free Stock CC0 Photo - StockSnap.io

AIでコウメ太夫さんのツイートを生成してみた その2

画像生成AIで書かれたコウメ太夫さん風の人物

どうもこんにちは、あんどう(@t_andou)です。

以前、コウメ太夫さんのツイートをAIに学習させたという記事を書きました。

以前の記事

blog.takuya-andou.com

 

今回は以前学習させたGPT-2よりも進化したバージョンであるGPT-3でコウメ太夫さんのツイートを生成してみたいと思います。

GPT-3に関しては精度がすごく良いので学習する必要がない*1と聞いたことがあるので、そのまま試してみます。

まずは前回のおさらい

 

意味はわからないですが、それがご本人っぽいですね。

GPT-3

それではGPT-3による生成です。

まずは参考に本物のツイートを二つほど見せて、そこから先は「〇〇かと思ったら〜」の部分だけを入力します。

背景色の無い文章が入力、緑背景の文章がAIによる生成です。

文章としての意味が通るようになっていますね。明らかに進化してます。

しかし、文章としての意味が通るようになったせいで、面白さは低下しているように見えます。

面白いって難しいですね。

 

GPT-3でも学習させるとご本人らしくなるのでしょうが、GPT-3の学習は重そうなので誰かがやってくれるのを待ってます。

おしまい。

StableDiffusionを使った画像素材サイトを作って気づいたこと

どうもこんにちは、あんどう(@t_andou)です。

前回、StableDifffusionを使って生成したテクスチャ画像の素材サイトを作ったと書きましたが、あれから写真素材についても少し試して追加しました。

前回の記事

blog.takuya-andou.com

今回追加した素材

今回は「水がグラスに注がれてるシーンの写真」で200枚ほど生成して、良さそうな24枚をアップロードしました。

気づいたこと

さて、ここからが本題です。

今回「水がグラスに注がれてるシーンの写真」を生成している途中に、今後の画像素材サイトのあり方について次のように確信しました。

これまで素材画像を探す時には自分のイメージに近い画像を検索で探して使っていたけれど、今後は(検索をするように)その場で自分のイメージに近い画像を生成して使うようになる

ということです。

前回ゴミを大量に生み出している気分になったと書きましたが、その感覚の正体はここにあって、今は僕が書き出してリストアップしているけれどそれは古いサイトの形であって、こういう素材サイトはnヶ月後かn年後には需要は無くなるだろう→ゴミになるだろうという確信からゴミを生み出してるという感覚になったようでした。

今では当たり前のように『検索をする力』が重要だと考えられていますが、今後は同じように『生成をするための文章(prompt / いわゆる呪文)をうまく表現する力』というのが重要になってくる=次に必要なリテラシーになるのだと感じました。

おしまい。

画像生成AIで無料の画像素材サイトを作ってみた【Stable Diffusion】

みなさんこんにちは、あんどう(@t_andou)です。

最近、画像生成AIの「Stable Diffusion」がとても話題になっていますね。

オープンソース・商用利用可能・精度も良いということで、僕もこれを使って何かしたいと思いましたが、ただ画像を生成するだけでは面白くありません。

そこで、

・AIが生成した画像や「呪文(画像生成に使う文章)」を売買出来るマーケット
・生成した画像のNFT化をするサイト

などを作れたら面白そうだと思ったのですが、時間がかかりそうなので、まずはサクッと着手できそうなところから試してみました。

作ったもの

前置きが長くなりましたが、今回作ったのはタイトルにもあるように『画像の素材配布サイト』です。

 

imagemart.net

画像の生成、ドメイン取得やサイト構築など全てを5時間くらいで作ったため、使い勝手はまだまだですが、どうぞ自由に使ってください。

画像の例

木目

古くなった赤い皮

新しい鉄板

黄色い石

他にも大量にあるので是非ご覧ください。

ぱっと思いついた単語を組み合わせて1000枚以上を作成しました。色々とエラーが起きたりで少し減って850枚程度がサイトにアップされています。

こんな素材が欲しいなどありましたらお気軽に@t_andouまでご連絡ください。

終わりに

たまに謎な画像が生成されていますが、この短時間でここまで出来るのはやはり凄いですね。
これは革命と言われるだけはあるなという印象でした。

ただ、全人類がこの画像生成AIを使いこなせるようになれば、このように大量の画像をリストアップしておくサイトは必要無いため、途中でゴミを大量に生み出しているるような感覚を覚えました。

とは言え、画像生成AIを使えない人がいる現時点ではこういうサイトの価値も残っていると信じて今後もゴミを生み出していきます。

それでは。