2018年06月23日

足立レイの音源についてver0.0.0(使い方等)

先日公開したレイの音源について使い方を一応ここに書いておこうと思います。
音源のファイルの中にも使い方のメモが入っていたりするのでどうぞ。

ダウンロードはこちら→https://drive.google.com/open?id=160_drADYmmlfxmvHyp9LFwAWJdwcp_Ku

レイの音声は紹介した通り完全に人工なので、人の声とは勝手が違うところもあると思います。
ただ、人の声のように聞こえるという事は結果として全体としてはそこまで逸脱したものではありません。
合成エンジンはTIPSに最適化されて作られてます。
http://scientistb.web.fc2.com/program/index.html
大感謝です。

TIPS以外で使うと出ない音や変な音になる音が出る可能性が大です。途中まではresampler(UTAUデフォルト合成エンジン)で作りこんでいたので次点でresamplerも使えます。resamplerだと声が力強くなります。ただ、ノイズが多くなったりでない音もあります(特に楽器・効果音系)

なぜTIPSかというとTIPSはわりと原音にちかい音で合成してくれ、また全体に声を丸くする、落ち着かせる感じの特性を持っているようなので、いまだ尖ったところの多くもともとかなり力強い目立つ元気な感じのレイの声をいい感じに落ちつかせてくれるからです。元々があれほどに倍音を盛りまくったせいか、それでもなおかなり元気に聞こえるのであまり声が弱くなる心配はしなくて大丈夫です。他の音源だとTIPSは落ち着き目の曲に使われる事も多いと思いますがレイはTIPSでも十分元気です。
少し弱いかと思ったら何回かコンプレッサーかけたりすると良い感じです。↓はそうです。

合成エンジンにTIPS使用。プロトタイプ27.0のためサ行子音縮小処理前



ただ、さらにパンチが欲しいという時はresamplerも手かもしれません。

合成エンジンにresampler使用。プロトタイプ29.0のためサ行子音縮小処理前


エンベロープの調整に関しては、基本的にはベタ打ち、初期状態で最も活舌がよくなるように調整しています。
恐らくですが、子音部に関しては人間と長さだったりが違うものがあると思うので、人間準拠でやるとうまく出ない音が発生する可能性があります。うまくいかないと思ったらリセットしてみてください。おそらく、活舌に関しては現在のデータのまま改造せず使う場合はリセット状態を上回ることは難しいと思います。一応原音設定も頑張ってしていますが、原音設定を変えれば多少良くなる可能性はあると思います。

また、既存のustファイルなどを読み込む場合、うまくそのままでは歌えない場合も多いと思いますので、その場合この「僕の考えたさいきょうのry」https://ux.getuploader.com/bizz_v/ というプラグインを使って「なんちゃってすっぴん」機能を使ってテンポとピッチ以外すべての要素をリセットしてしまうとうまく歌うようになると思います。ピッチも付け直したい場合はピッチも初期化してしまうとかなり素直な感じになります。元々それがデフォルトで調整しているのですべてすっぴんでもなかなかいい感じです。あえて言うならちょっと元気で子供っぽいかんじになります。

ちなみに、配布動画の「さんぽ」や「耳のあるロボットの唄」はベタ打ち状態です。声質&曲的にあってる事もあってか自然に聞こえます。




上のEnd of RainとCalc.はおま☆かせを使用しています。
※訂正 End of rainとCalc.は元ust+エンベロープ聞こえがおかしいとこリセット+自分で多少調整。でした。

基本的には「合成エンジンTIPSで、ベタ打ちor全体に「おま☆かせ」の後、エンベロープ一括正規化をかける」が今のところ個人的に行きついたお手軽に大体うまくいくメソッドです。赤ずきんの朗読もそうです。おま☆かせ+正規化。これは元vsqxはMegupoidTalkの出力そのまんまを読み込んだものです。特に文章読み上げをやるときは手間が相当減るので役立つと思います。



UTAUでvsqxファイルを読み込むプラグイン
http://ch.nicovideo.jp/untitled_Tty/blomaga/ar865473

エンベロープ正規化にはこちらのプラグインが大変有用です。



子音の中でも特にいくつか問題があるものがあり、たとえば「さ行」や「が行」「ば行」などの濁音は、判別性という意味ではなかなかよくできたのですが、恐らくまだ何か足りない要素があり、子音の音量レベルをかなりあげておかないと活舌が悪くなってしまう為音量を大きく設定しているため、耳に刺すような音になってしまう場合があります。
ただ、今の状態でもニコニコに上げているプロトタイプ29.0等に比べれば「さ行」子音部を小さく改造したものとなっていまして、これ以上下げるとかなり判別性が低下してしまうと思います。このあたりは悩みどころです。

まだまだ判別性の向上やノイズ低減に向けて改善の余地が多くあることは間違いありません。さしあたっては濁音、や、ま、そして母音の「お」自体等を考えています。


楽器・効果音系音声についてですが、トランペット、一部のドラム、ハーモニカ、シンバルなどは特に「さんぽ」で使うためにかなり頑張って調整したのでわりかしクオリティが高めにできています。おまけ的要素とはいえたぶんそこそこ普通に使えます。それ以外も実装されている音は一応は使う事ができるはずです。ただ、原音はどれもちゃんとノイズなどは無いはずなのですが、声でないものをUTAUで合成するとノイズが発生する、そもそも鳴らない等の問題が往々にして起きるため、実装されているものは少なくとも鳴らす事はできますが音源としてのクオリティが低いものもあります。ノイズが乗るなど。エンジンはTIPS想定です。そのあたりは注意して使ってみてください。ワンポイント的に使うだけなら直接wavで使うのも良いとおもいます。質的には基本的にそっちの方が良いです。
楽器系音声のおぼえがきも同梱されているのでもし必要でしたら読んでみてください。かなり適当な記述ですが(


また、追加でささやき声を実装しようと思っています。動画でも紹介したささやき声化プログラムを使ったところかなり良くできたので、実験的に「あ」のささやき声を「あ.」として実装しています。使用可能です。たしかライブラリ的には「か.」「い.」辺りも入ってるかもです。順次増やして実装したいです。基本的には別フォルダに分けるという事はせずに実装しようと考えています。


とりあえずこんなところです。何かあったらここのコメントやTwitter等で聞いていただければと思います。
早速使ってくれる方がいたりしてすごく嬉しいです!この記事がご参考になれば嬉しいです。
ラベル:足立レイ
posted by みさいる at 00:02| Comment(0) | おぼえがき | このブログの読者になる | 更新情報をチェックする

2018年06月22日

子音と母音の結合テクニックに関するメモ

別々に用意した子音と母音を組み合わせて一つの音(モーラ)を作る際のテクニックについて、ある程度の納得いく法則性を見出した気がするので、同じような作業にチャレンジする方向けに公開しておきます。暇があったら動画にしようと思います。


子音と母音の結合テクニックに関するメモ 2018.2.25
-----------------------------------------------------------------------------------------

「ひぇ」= 「h+i+e」なんかの「子音+母音1+母音2」の音は母音1から母音2への移行の具合がかなり識別性にかかわっているようで、
母音1をフェードアウトしつつ、母音2を母音1にかなり緩めにフェードインして重ね合わせる形にすると自然な音になる傾向があるように感じる。

「ひゃ」= 「h+i+y+a」なんかの「子音1+母音1+子音2+母音2」の音は、かなり単純に母音1のフェードアウトと子音2のフェードインの組み合わせで
かなり良い感じになることが多い。
恐らく、母音同士の変化の場合口蓋の形の変化で連続的に移行するのに対して、子音を挟んでの変化の場合は比較的明確に2つの母音が区別できるため
だと考えられる。

「ふぁ」= 「h+u+a」なんかは「子音+母音1+母音2」に見えるが、実は違う。「ふ+あ」でフェードインアウトでタイミングを合わせて作っても「ふあー」となるだけで
「ふぁ」にはならない。これは「ふぁ」が実際は「ふゎ」であるためだと考えられる。つまり実際には「f+u+w+a」で、「子音1+母音1+子音2+母音2」のようだ。つまり「f+wa」でうまくいく。

「ふぃ」「ふぇ」「ふぉ」も、「ふ」+「うぃ」、「ふ」+「うぇ」、「ふ」+「うぉ」じゃないとうまくそう聞こえない。
これはどうも「子音1+母音1+母音1.1+母音2」、「ふぃ」=「h+u+u+i」らしい。母音1と母音1.1は同じ音だが独立しているっぽい。恐らく母音1は子音に付随する小さな残響音、
母音1.1はそれ自身が起点となるある程度のしっかりとした大きさを持った、母音ながら母音2に対して子音のような働きをする音。


「ザ」に関して。
ざは単にざ子音部のノイズ音とあの組み合わせではだめっぽい
テトの子音から後の部分を聞いてみると「あー」じゃなくって「っあー」っぽく聞こえる。
これは「ざ」が子音部を発した後から徐々に口を開きながら「あ」になっていく声だからだと思われる。
これの再現を音波上でしないとちゃんとざに聞こえず、なんだかよくわからないノイズのあとにあーって言ってるだけのように聞こえるっぽい


utauでプロトタイプ版を歌わせてみた際、いくつか掠れてこもった感じの音になってしまってほとんど聞こえなくなってしまう音がいくつかあった。
主に「お」を母音に持つものが多かった。また、「あ゛」などのエキサイターで音をガリガリさせたやつもダメなものが多かった。
どうやら音波が人間の声とあまりに違いすぎるせいかうまく合成できないらしい。「お」は主に古いタイプの波形が密になりすぎていた「お」
を使用して作られたものがダメで、母音に濁音系はムカデのように足が伸びた波形になっているものがだめらしい。
改良後のおtest12などを母音に使っているものは大丈夫だった。
原音設定等の問題よりも、おそらくこの元々の音の波形の問題でutau上で合成できなくなっているようなので、波形自体を直す必要がありそう。

----------------------------------------------------------------------------------------



ラベル:足立レイ
posted by みさいる at 22:10| Comment(0) | おぼえがき | このブログの読者になる | 更新情報をチェックする

足立レイの音源公開しました!(中の人いない音源)

お久しぶりです。レイのボディ関連のもろもろやモーキャプシステム等を開発する傍らここ1年ほど個人的に作っていたレイの声のライブラリ(UTAU向け)を公開しました&動画にしました!

ニコニコ


youtube


音源ダウンロードリンクはこちらです。
https://drive.google.com/open?id=160_drADYmmlfxmvHyp9LFwAWJdwcp_Ku


音源配布動画兼作り方&過程・音声合成解説な感じです。
音声等の解説に関してはこちら、上智大学 理工学部 情報理工学科 荒井研究室のページ等はかなり参考にさせて頂きました。
http://splab.net/APD/G400/index-j.html
他のページにも声道モデルの実演などあってとても面白いです。興味のある方はぜひご参考に。youtubeにも動画あるようです。
http://splab.net/APD/G200/index-j.html


ミクのモーションキャプチャを使った中の人システムやレイのボディの製作を進める傍ら個人的に丁度ここ1年ほど製作に取り組んでいました。(ここ数か月は院2になって授業もなくなったので助かった)やはり音声があるとキャラクターに対する愛着や具体的な姿っていうのも見えてくる気がしますし、必ずしゃべらせるための音声が必要になるので、よし作ろうと思い取り掛かりました。

なぜ人工にこだわったかというと、レイがロボットだからです。最初からロボットして生まれてくるのに、人の声がもとになってたら何かつまらないなぁという気がしまして、どうせならこれは絶対、中の人いない方が面白い、と思ったのです。
また、中の人がいないなら、どんな音声もそれを好きに改造してどんな声にすることもできます。配布も一存でできます。既存の選択肢の中からよさそうな声を選ぶのではなく、完全に好みにデザインした究極的にキャラクターのイメージと自分の好みに合わせた声が欲しかったのです。
もともとロボットキャラだし、多少ロボットっぽい声が好きなくらいなので、人間のような声も望んではいませんでした。
実際、まさにキャラクターを体現するような声に作れたと自分で満足しているので、良かったと思っています。もちろんまだかなりいろいろ問題点を抱えており、今後の改良・アップデートをいろいろ計画もしています。それこそ人工&中の人いない強みでもあると思うので!
足立レイ背景透明化18.PNG

動画内でもだいぶ解説していますが、現在音声合成用のライブラリ、あるいは音響モデル等を作成しようと思った時、その殆どは人の声をサンプリングすることによって出来上がっています。ミク等のVOCALOID、テト等のUTAU、弦巻マキ等のVOICEROIDは、波形接続型といってあらかじめ録音した声データをつなぎ合わせる事で声を合成します。細かく見ると少し違う技術で、大体ライブラリ等の規模的に


VOICEROID(AI-Talk)=大規模コーパスベース > VOCALOID > UTAU


となります。

miku_R_R1600.png
maki-illust[1](弦巻マキ)_R1600.png
teto.jpg

なぜこれが最近流行っているかというと、技術的側面からは、PCの処理速度の向上や大容量化があると思われます。少し昔のPCなら数ギガもあるライブラリを使って大量のデータから良いつなぎを見つけてガシガシつかう、なんてことが難しかったわけですが、今やそのあたりが十分個人用端末でもできるようになったわけです。
もちろん、初音ミクが起爆剤になって個人向けの歌声合成→テキスト読み上げ合成音声が流行った事もかなり大きいと思います。

さとうささら等のCeVIOはまた根本的に違い、音響モデルという声を出す際のいろいろな要素(喉の形、口の形など)を数値的なパラメーターにしてそれを元にある意味声が出る仕組みをシミュレーションして都度声を合成しているものになります。その際隠れマルコフモデル(HMM)と言われる方法を用いて最も確からしいつなぎ方を推定して繋いでいく、という感じです。(専門じゃないのでちょっと間違ってるかもしれないです)
sato_sasara.jpg
このうちCeVIOは「録音した音データ」は使っておらず、モデル化された数値で都度合成しているのでかなり先進的というか、比較的最近出てきた技術、ある意味中の人はいないのですが、そのモデルを作る際人の声のデータから学習させることになります。

今回の「足立レイ」は、その「中の人」がいないという話になります。極めて単純なレベルのCSM音声合成(sin波合成)を使って作った母音を元にいろいろ工夫して音源用のライブラリを作成し、中の人がいない音声データそろえた、という事です。
ここを見てやりました!



実は上記のうち、UTAUは少し「中の人」に関する事情が違い、飴屋Pさんの開発したUTAU本体を中心に、草の根的に様々な開発と個人による大量の様々な音源の製作が行われています。その中には踏み切りの音をサンプリングしたものや、ポン酢の蓋のあく音をサンプリングしたもの、傘のバサバサする音、など、人で無いものを歌声合成用音源として用意したものがかなり多数存在しています。

フミキリーネ・クワン


中には、今回レイを作るにあたってだいぶ参考にさせて頂いた動画の作者さんが作っている「無地歌」のような、「中の人がいないボーカル音源」=(50音+αがそろっている)ものもわずかですが存在するのです。

そしてその作者さんの、かなり参考にさせて頂いた動画です


そこで、UTAUで使えるそういう音源を、どうやったら自分の望む雰囲気に作り、活舌を良くし、作っていく事ができるだろうか・・という取り組みを始めた・・という事です。

UTAUは、特に単独音は非常に小規模なライブラリ、つまり「あいうえお」などの50音+αがあれば、その音自体のクオリティが高ければそれなりにきれいに歌ってくれるライブラリになるという素晴らしい仕組みなので、その50音+αをあらゆる手を使ってクオリティを上げて現実的な範囲に収まる作業量で音源として使える完成度を目指そうと考えたのです。

作業量から言えば、この手法によって手作業ですべて1から音をそろえる事は狂気の沙汰です。おそらくボカロ音源やボイロ音源を作ろうと思ったら、寿命か何かが気になってきます。
しかしたった50音+αだけなら、なんとかなったのです。UTAUはそれでできた。本当に素晴らしいソフトだと思います。単純・ローテクだからこそ困難な事ができる事もあるんだと思います。

あるいは、今回使った母音+子音結合等の手法を自動化する事でもっと簡単に作ることもできるかもしれません。

子音作成に関してはこちらのサイトの情報がかなり参考になりました。ご紹介しておきます。

子音の音声認識
http://www.geocities.jp/myonsei/siin.html


このあたりも動画内で言及しているのですが、足立レイの子音や母音等のデータは改造・再配布可能です。使う人の手でブラッシュアップしてもらえたら自分でやる作業量が減るかなぁ。という打算もあるのですが(w 
真に無人のボーカル、トーク音源の発展を願っています!

子音など素材として使用して新たな音源を作って配布しても大丈夫です。子音作成の恐ろしい作業量を体感した結果、この作業を人にまたやらせるのは何て無駄なことなんだろうととてもとても思いました。子音に個人性は無いともいいますが、個人的には多少あると考えています。ただ、母音やイントネーション等に比べれば明らかに薄い。ですので、母音を動画のような方法で好みの物を作れば、この子音と合体させて使えばある程度レイと同等前後くらいの50音が1から作るよりははるかに簡単にできると思います。
そしてこの子音と母音との接合こそが活舌に大きく影響するのですが、これについて大体の法則を見出したので、それに沿う事でうまくできる確率が高くなると思います。動画にしようと思っているのですが、ひとまず別記事にメモの内容を置いておきます。http://mechanical-girl.seesaa.net/article/460135960.html参考になれば幸いです。


音源自体の使い方に関するコツや規約などは別記事に書こうとおもいます。とりあえず公開出来て本当に良かった!!レイの音源を公開する前に死んだら死んでも死にきれないと思って結構最後必死に作業してました。ほんとに一安心しました・・レイの規約をゆっるゆるにしてるのは、いろいろありますが、自分がもし仮にいなくなった後もその行動が制限される事が無いようにと思っての事もあります。開発者が止まってしまったらいっしょに止まってしまうようでは、面白くありませんものね!あ、特に病気だとかそういうんでは全くないです!

では皆さんよかったら使ったり聴いたりしてあげてください!ロボットの方も頑張ります!

ラベル:足立レイ
posted by みさいる at 21:51| Comment(0) | 動画投稿 | このブログの読者になる | 更新情報をチェックする