2018年06月22日

足立レイの音源公開しました!(中の人いない音源)

お久しぶりです。レイのボディ関連のもろもろやモーキャプシステム等を開発する傍らここ1年ほど個人的に作っていたレイの声のライブラリ(UTAU向け)を公開しました&動画にしました!

ニコニコ


youtube


音源ダウンロードリンクはこちらです。
https://drive.google.com/open?id=160_drADYmmlfxmvHyp9LFwAWJdwcp_Ku


音源配布動画兼作り方&過程・音声合成解説な感じです。
音声等の解説に関してはこちら、上智大学 理工学部 情報理工学科 荒井研究室のページ等はかなり参考にさせて頂きました。
http://splab.net/APD/G400/index-j.html
他のページにも声道モデルの実演などあってとても面白いです。興味のある方はぜひご参考に。youtubeにも動画あるようです。
http://splab.net/APD/G200/index-j.html


ミクのモーションキャプチャを使った中の人システムやレイのボディの製作を進める傍ら個人的に丁度ここ1年ほど製作に取り組んでいました。(ここ数か月は院2になって授業もなくなったので助かった)やはり音声があるとキャラクターに対する愛着や具体的な姿っていうのも見えてくる気がしますし、必ずしゃべらせるための音声が必要になるので、よし作ろうと思い取り掛かりました。

なぜ人工にこだわったかというと、レイがロボットだからです。最初からロボットして生まれてくるのに、人の声がもとになってたら何かつまらないなぁという気がしまして、どうせならこれは絶対、中の人いない方が面白い、と思ったのです。
また、中の人がいないなら、どんな音声もそれを好きに改造してどんな声にすることもできます。配布も一存でできます。既存の選択肢の中からよさそうな声を選ぶのではなく、完全に好みにデザインした究極的にキャラクターのイメージと自分の好みに合わせた声が欲しかったのです。
もともとロボットキャラだし、多少ロボットっぽい声が好きなくらいなので、人間のような声も望んではいませんでした。
実際、まさにキャラクターを体現するような声に作れたと自分で満足しているので、良かったと思っています。もちろんまだかなりいろいろ問題点を抱えており、今後の改良・アップデートをいろいろ計画もしています。それこそ人工&中の人いない強みでもあると思うので!
足立レイ背景透明化18.PNG

動画内でもだいぶ解説していますが、現在音声合成用のライブラリ、あるいは音響モデル等を作成しようと思った時、その殆どは人の声をサンプリングすることによって出来上がっています。ミク等のVOCALOID、テト等のUTAU、弦巻マキ等のVOICEROIDは、波形接続型といってあらかじめ録音した声データをつなぎ合わせる事で声を合成します。細かく見ると少し違う技術で、大体ライブラリ等の規模的に


VOICEROID(AI-Talk)=大規模コーパスベース > VOCALOID > UTAU


となります。

miku_R_R1600.png
maki-illust[1](弦巻マキ)_R1600.png
teto.jpg

なぜこれが最近流行っているかというと、技術的側面からは、PCの処理速度の向上や大容量化があると思われます。少し昔のPCなら数ギガもあるライブラリを使って大量のデータから良いつなぎを見つけてガシガシつかう、なんてことが難しかったわけですが、今やそのあたりが十分個人用端末でもできるようになったわけです。
もちろん、初音ミクが起爆剤になって個人向けの歌声合成→テキスト読み上げ合成音声が流行った事もかなり大きいと思います。

さとうささら等のCeVIOはまた根本的に違い、音響モデルという声を出す際のいろいろな要素(喉の形、口の形など)を数値的なパラメーターにしてそれを元にある意味声が出る仕組みをシミュレーションして都度声を合成しているものになります。その際隠れマルコフモデル(HMM)と言われる方法を用いて最も確からしいつなぎ方を推定して繋いでいく、という感じです。(専門じゃないのでちょっと間違ってるかもしれないです)
sato_sasara.jpg
このうちCeVIOは「録音した音データ」は使っておらず、モデル化された数値で都度合成しているのでかなり先進的というか、比較的最近出てきた技術、ある意味中の人はいないのですが、そのモデルを作る際人の声のデータから学習させることになります。

今回の「足立レイ」は、その「中の人」がいないという話になります。極めて単純なレベルのCSM音声合成(sin波合成)を使って作った母音を元にいろいろ工夫して音源用のライブラリを作成し、中の人がいない音声データそろえた、という事です。
ここを見てやりました!



実は上記のうち、UTAUは少し「中の人」に関する事情が違い、飴屋Pさんの開発したUTAU本体を中心に、草の根的に様々な開発と個人による大量の様々な音源の製作が行われています。その中には踏み切りの音をサンプリングしたものや、ポン酢の蓋のあく音をサンプリングしたもの、傘のバサバサする音、など、人で無いものを歌声合成用音源として用意したものがかなり多数存在しています。

フミキリーネ・クワン


中には、今回レイを作るにあたってだいぶ参考にさせて頂いた動画の作者さんが作っている「無地歌」のような、「中の人がいないボーカル音源」=(50音+αがそろっている)ものもわずかですが存在するのです。

そしてその作者さんの、かなり参考にさせて頂いた動画です


そこで、UTAUで使えるそういう音源を、どうやったら自分の望む雰囲気に作り、活舌を良くし、作っていく事ができるだろうか・・という取り組みを始めた・・という事です。

UTAUは、特に単独音は非常に小規模なライブラリ、つまり「あいうえお」などの50音+αがあれば、その音自体のクオリティが高ければそれなりにきれいに歌ってくれるライブラリになるという素晴らしい仕組みなので、その50音+αをあらゆる手を使ってクオリティを上げて現実的な範囲に収まる作業量で音源として使える完成度を目指そうと考えたのです。

作業量から言えば、この手法によって手作業ですべて1から音をそろえる事は狂気の沙汰です。おそらくボカロ音源やボイロ音源を作ろうと思ったら、寿命か何かが気になってきます。
しかしたった50音+αだけなら、なんとかなったのです。UTAUはそれでできた。本当に素晴らしいソフトだと思います。単純・ローテクだからこそ困難な事ができる事もあるんだと思います。

あるいは、今回使った母音+子音結合等の手法を自動化する事でもっと簡単に作ることもできるかもしれません。

子音作成に関してはこちらのサイトの情報がかなり参考になりました。ご紹介しておきます。

子音の音声認識
http://www.geocities.jp/myonsei/siin.html


このあたりも動画内で言及しているのですが、足立レイの子音や母音等のデータは改造・再配布可能です。使う人の手でブラッシュアップしてもらえたら自分でやる作業量が減るかなぁ。という打算もあるのですが(w 
真に無人のボーカル、トーク音源の発展を願っています!

子音など素材として使用して新たな音源を作って配布しても大丈夫です。子音作成の恐ろしい作業量を体感した結果、この作業を人にまたやらせるのは何て無駄なことなんだろうととてもとても思いました。子音に個人性は無いともいいますが、個人的には多少あると考えています。ただ、母音やイントネーション等に比べれば明らかに薄い。ですので、母音を動画のような方法で好みの物を作れば、この子音と合体させて使えばある程度レイと同等前後くらいの50音が1から作るよりははるかに簡単にできると思います。
そしてこの子音と母音との接合こそが活舌に大きく影響するのですが、これについて大体の法則を見出したので、それに沿う事でうまくできる確率が高くなると思います。動画にしようと思っているのですが、ひとまず別記事にメモの内容を置いておきます。http://mechanical-girl.seesaa.net/article/460135960.html参考になれば幸いです。


音源自体の使い方に関するコツや規約などは別記事に書こうとおもいます。とりあえず公開出来て本当に良かった!!レイの音源を公開する前に死んだら死んでも死にきれないと思って結構最後必死に作業してました。ほんとに一安心しました・・レイの規約をゆっるゆるにしてるのは、いろいろありますが、自分がもし仮にいなくなった後もその行動が制限される事が無いようにと思っての事もあります。開発者が止まってしまったらいっしょに止まってしまうようでは、面白くありませんものね!あ、特に病気だとかそういうんでは全くないです!

では皆さんよかったら使ったり聴いたりしてあげてください!ロボットの方も頑張ります!

ラベル:足立レイ
posted by みさいる at 21:51| Comment(0) | 動画投稿 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント: