様々なアニメの声優の音声データを学習して作成された音声モデルを使って、好きな文章を日本語英語中国語などで音声読み上げさせる方法を解説します。
簡単に扱えるようGUIで操作できるものをWindows上でローカル稼働できるようにしていきます。
最後の方で実際に読み上げさせた音声をおいておきました。ぜひ試聴してみてください!
なお、学習元音声さえあれば声質を学習&変換できるRVCがおすすめです。
RVCなら、従来のSO-VITS-SVCで100分かけて作ったモデルと同等の品質のものが、2分ちょいでできます☆
音声変換は元の音声の長さの等速~1.5倍速くらいの所要時間でできます。
1,AI 音声生成 MoeGoeとそのGUIをダウンロード
MoeGoe(Moe TTS)
MoeGoeは様々な音声モデルを読み込むことで文章を音声へと変換するためのソフトウェアです。
MoeGoe.7zをダウンロード後 7-Zipで展開してください。
ダウンロード時Edgeだとやたら危険なファイルです!と警告されるので少々手間です。
Chromeあたりでダウンロードした方がストレスがありません。
このような中身ですが、とりあえず気にせず適当なMoeGoe用フォルダを作成し、その中にMoeGoeフォルダを設置します。
MowGoe GUI化ソフト
ダウンロードしたら、MoeGoe関連フォルダに設置しておきます。
まだ起動しなくて大丈夫です。
いよいよ次は音声モデルをダウンロードします。
2,音声モデルと設定ファイルをダウンロード
↑404NotFound化したので代替ダウンロード先を、モデルの配置方法の後に書いておきました。
ダウンロードはお早めに!!!
追記:リポジトリが復活したようです。また消えるかもしれないので代替ダウンロード先はそのまま記載します。
モデルは作品ごとに分かれて色々あるので、好きなモデルをダウンロードしましょう。
通常はこのような「Japanese」欄のモデルを選びます。
まずは「Config File」をクリックして設定ファイルをダウンロードします。
設定ファイルと音声モデルモデルは2つで1セットなので、音声モデルごとにわかりやすい名前を付けて保存してください。
次に「Model」をダウンロードします。
こんな感じに先程作ったフォルダに配置しておきます。
次はGUIを用いてMoeGoeをセットアップします。
追記:Githubが404になったのでモデルダウンロード代替先
ということで代替ダウンロード先。
モデル置き場:https://huggingface.co/spaces/skytnt/moe-tts/tree/main/saved_model
huggingfaceのMoeTTSにいくつかモデルが残っています。
番号と作品の対応はinfo.jsonに載ってますが、見るのが面倒な方向けに引用しときます。
{
"0": {"title": "サノバウィッチ & 千恋*万花 & RIDDLE JOKER", "author": "[CjangCjengh](https://github.com/CjangCjengh)", "cover": "cover.jpg", "lang": "日本語 (Japanese)", "example": "こんにちは。", "type": "vits"},
"1": {"title": "ハミダシクリエイティブ", "author": "[CjangCjengh](https://github.com/CjangCjengh)", "cover": "cover.jpg", "lang": "日本語 (Japanese)", "example": "こんにちは。", "type": "vits"},
"2": {"title": "喫茶(カフェ)ステラと死神の蝶", "author": "[Francis-Komizu](https://github.com/Francis-Komizu/)", "cover": "cover.jpg", "lang": "日本語 (Japanese)", "example": "こんにちは。", "type": "vits"},
"3": {"title": "ヨスガノソラ", "author": "[Francis-Komizu](https://github.com/Francis-Komizu/)", "cover": "cover.jpg", "lang": "日本語 (Japanese)", "example": "こんにちは。", "type": "vits"},
"4": {"title": "美少女万華鏡", "author": "[Francis-Komizu](https://github.com/Francis-Komizu/)", "cover": "cover.jpg", "lang": "日本語 (Japanese)", "example": "こんにちは。", "type": "vits"},
"5": {"title": "綾地寧々+在原七海+小茸+唐乐吟", "author": "[CjangCjengh](https://github.com/CjangCjengh)", "cover": "cover.jpg", "lang": "日本語 & 中文 (Japanese & Chinese)", "example": "[JA]こんにちは。[JA][ZH]你好。[ZH]", "type": "vits"},
"6": {"title": "당신을 기다리는 여우", "author": "[CjangCjengh](https://github.com/CjangCjengh)", "cover": "cover.jpg", "lang": "한국어 (Korean)", "example": "안녕하세요.", "type": "vits"},
"7": {"title": "13 Galgame Characters", "author": "[luoyily](https://github.com/luoyily)", "cover": "cover.jpg", "lang": "日本語 (Japanese)", "example": "こんにちは。", "type": "vits"},
"8": {"title": "ゼロの使い魔", "author": "[CjangCjengh](https://github.com/CjangCjengh)", "cover": "cover.jpg", "lang": "日本語 (Japanese)", "example": "こんにちは。", "type": "vits"},
"9": {"title": "ゼロの使い魔", "author": "[CjangCjengh](https://github.com/CjangCjengh)", "cover": "cover.jpg", "lang": "日本語 (Japanese)", "example": "", "type": "soft-vits-vc"},
"10": {"title": "とある魔術の禁書目録", "author": "[Francis-Komizu](https://github.com/Francis-Komizu/)", "cover": "cover.jpg", "lang": "日本語 (Japanese)", "example": "", "type": "soft-vits-vc"},
"11": {"title": "四季ナツメ", "author": "[Francis-Komizu](https://github.com/Francis-Komizu/)", "cover": "cover.jpg", "lang": "日本語 (Japanese)", "example": "", "type": "soft-vits-vc"},
"12": {"title": "DRACU-RIOT!", "author": "[CjangCjengh](https://github.com/CjangCjengh)", "cover": "cover.jpg", "lang": "日本語 (Japanese)", "example": "こんにちは。", "type": "vits"},
"13": {"title": "To LOVEる", "author": "[CjangCjengh](https://github.com/CjangCjengh)", "cover": "cover.jpg", "lang": "日本語 (Japanese)", "example": "こんにちは。", "type": "vits"},
"14": {"title": "CJKS (Multi-Language)", "author": "[CjangCjengh](https://github.com/CjangCjengh)", "cover": "", "lang": "中文 & 日本語 & 한국어 & संस्कृत & English (Chinese & Japanese & Korean & Sanskrit & English)", "example": "[JA]こんにちは。[JA][ZH]你好。[ZH][KO]안녕하세요.[KO][SA]नमस्कार।[SA][EN]Hello.[EN]", "type": "vits"},
"15": {"title": "Voistock (2891 Anime characters)", "author": "[CjangCjengh](https://github.com/CjangCjengh)", "cover": "", "lang": "日本語 & English & 한국어 & 中文 (Japanese & English & Korean & Chinese)", "example": "[JA]こんにちは。[JA][ZH]你好。[ZH][KO]안녕하세요.[KO][EN]Hello.[EN]", "type": "vits"},
"16": {"title": "上海话 (Shanghainese)", "author": "[CjangCjengh](https://github.com/CjangCjengh)", "cover": "", "lang": "上海话 (Shanghainese)", "example": "侬好!", "type": "vits"},
"17": {"title": "中文方言 (Chinese Dialects)", "author": "[CjangCjengh](https://github.com/CjangCjengh)", "cover": "", "lang": "中文方言 & 日本語 & English (Chinese Dialects & Japanese & English)\n\nlanguage identifier: 日本語[JA], English[EN], 普通话[ZH], 上海话[SH], 广东话[GD], 苏州话[SZ], 无锡话[WX], 杭州话[HZ], 绍兴话[SX], 宁波话[NB], 靖江话[JJ], 宜兴话[YX], 嘉定话[JD], 真如话[ZR], 平湖话[PH], 桐乡话[TX], 嘉善话[JS], 硖石话[HN], 临平话[LP], 萧山话[XS], 富阳话[FY], 儒嶴话[RA], 慈溪话[CX], 三门话[SM], 天台话[TT], 温州话[WZ], 遂昌话[SC], 游埠话[YB]", "example": "[SH]侬好。[SH][GD]你好。[GD][JA]こんにちは。[JA][EN]Hello.[EN]", "type": "vits"}
}
https://huggingface.co/spaces/skytnt/moe-tts/blob/main/saved_model/info.json
例えば「禁書目録」モデルが欲しい時は、10番のフォルダ内の.pthファイルと.jsonファイルをダウンロードするといった具合です。
繰り返しになりますがダウンロードはお早めに!!!
3,MoeGoeGUIで設定
MoeGoe実行ファイルのパス指定
「MoeGoe_GUI.exe」を起動します。
まずは左上のボタンをクリックしてMoeGoe.exeの絶対パスを入力します。
「C:\中略\MoeGoe\MoeGoe\exe」を指定しましょう。
なお日本語が含まれるパスではエラーが発生しました!
フォルダ名を変更してやり直したのでこの記事のスクショのように日本語名フォルダ内にMoeGoe関連を置くのはやめましょう!!!
音声モデルと設定ファイルの選択
続いてこちらに音声モデルと設定ファイルの絶対パスを入力します。
まずは上の方のボタンをクリックして音声モデル(.pthファイル)を選択します。
次に下の方のボタンをクリックして音声モデルとセットになっている設定ファイル(.jsonファイル)を選択します。
ここまで手順通りに進めるとこのようになっています。
4,キャラ名を選択して好きな文章を打ち込む
文章を入力&キャラ選択
入力欄に好きな言葉を打ち込んで、プルダウンメニューから好きなキャラを選びます。
出力フォルダとファイル名を指定
「保存」をクリックして適当な名前に.wav拡張子を付けて指定します。
いざ文章読み上げ
左から3番目のボタンを押すと生成された音声を再生できます。
「保存に成功しました」と表示されてから押してください。
色々キャラを変えて遊ぶ際に一々メディアプレーヤーなどを起動せずに済むのでありがたいですね。
キャラや文章を変えて一番左の「重新合成」っぽい漢字が書いてあるボタンを押すと、生成された音声ファイルが先程保存先に選んだ.wavファイルに上書きされた保存されます。
実際に読み上げてもらった
適当にいくつか出力してみました。
このキャラはそんなこと言わないってなるかもしれませんので再生は自己責任でお願いします。
「どんなことを言わせても、良いんだよ」 と言ってもらう
ここではベタ打ちで「どんなことを言わせても、良いんだよ」とだけ入力して何も調整しませんでした。
金色の闇:
ララ:
モモ:
結構様になっていますね。
「economylife.net」と読み上げてもらう
このウェブサイトのURL「economylife.net」と言ってもらいました。
ここでは「清理文本」を押して色々調整してみます。
最終的には「[CLEANED]e konomiiirai fu, do↑Qto neQto.」と入力してみました。
金色の闇:
ララ:
イントネーションはもう少し設定を詰める必要があるかもしれません。
まとめ アニメキャラ約3000人を学習した文章読み上げAI MoeGoeの導入方法とその実力
- MoeGoeとそのGUIをダウンロード
- MoeGoe.exeが文字を読み上げ音声化
- MowGoe GUI化ソフトで簡単に扱えるように
- 音声モデルと設定ファイルをダウンロード
- MoeGoeGUIで設定
- MoeGoe実行ファイルのパス指定
- 音声モデルと設定ファイルの選択
- キャラ名を選択して好きな文章を打ち込む
- 文章を入力&キャラ選択
- 出力フォルダとファイル名を指定
- いざ文章読み上げ
実力の程はこの通り。一切修正調整していません。
金色の闇「どんなことを言わせても、良いんだよ」:
ララ「どんなことを言わせても、良いんだよ」:
なお、学習元音声さえあれば声質を学習&変換できるRVCがおすすめです。
RVCなら、従来のSO-VITS-SVCで100分かけて作ったモデルと同等の品質のものが、2分ちょいでできます☆
音声変換は元の音声の長さの等速~1.5倍速くらいの所要時間でできます。
このサイトのおすすめAI記事
革新的なファインチューニングDreamBoothをローカルで
GPT-2日本語モデルで文章生成 for windows
他のAI記事もご覧ください!