ソフメアドベントカレンダー2021の12/24の記事
はじめに
こんにちは、masudaです。
今回は学部の実験で気づいたことをもとに音声合成を行いたいと思います。
自己紹介
HN : masuda
所属 : DTM班
回生 : 2回生
趣味 : レトロガシェット漁り
声ってなんですか?
まず、私たちは「あ」と「い」をどのように聞きわけているのでしょう?
音程でしょうか?いいえ違いますね。
同じ「ド」でも”あ”と”い”は違うものとして私たちは認識できます。
ここで必要な知識として「倍音」というものがあります。
音というものは基音(音程となる周波数)と、基音の整数倍の周波数の正弦波の足し算によって実現されるとういうことで、
同じ400Hzの音でも、音色の違いは、800Hzの成分、1200Hzの成分などの割合によって変わって聞こえるのです。
・・・といった趣旨の実験を大学でやりました。
音声合成の種類について
みなさんが「人工的に作られた声」と言われて真っ先に思いつくものはなんですか?
ボーカロイドとかゆっくりボイスあたりでしょうか。
今回実践する音声合成はこれらとは少し手法が異なってきます。
音声の機械的合成には大きく分けて2つのアプローチがあります。
規則合成か、波形接続か。
上に出した、ボーカロイドなどはもっぱら波形接続の類になります。
波形接続とは簡単に言うと、録音された音声を切って貼って伸ばして連結させて合成するというもので、これにはいわゆる「中の人」がいます。
同じ”あ”でも、前後の文字やアクセント、発音記号的な違うなどのすべての通りを網羅していれば、不自然な合成にはなりませんよ、といった感じの合成方法です。
対して、今回紹介する手法は前者の規則合成になります。
こちらは、声の成分の分析をし、それぞれの部品にばらしてから出したい声に必要な部品をその都度組み合わせて出力する、といったものです。
比較的歴史は古く、みなさんが知っているところでは、ゲームボーイのポケモンピカチュウのopなどでしょうか。
ここの30秒あたりに、ザリザリした音で「ピ゛カ゛チ゛ュ゛ウ゛」と聞こえますでしょうか。
これが規則合成に分類されるフォルマント音声合成という手法によって生成された人工の声になります。
ゲームボーイのスペック的にも元の声とはかけ離れていますが、それでも基本的のこの合成方法では、出力された声はどこかロボット的になります。(分解するときに部品(要素)をボロボロ落としまくるため)
イメージとしては、石垣を組むとき必要な形の石を、コンクリートで成形して作るのが規則合成、自然の中から選び出してくるのが波形接続と言った感じでしょうか。
次の章ではフォルマント音声合成を用いたあいうえおの合成を解説していきます。
あいうえおの倍音成分
さっそく複数周波数の正弦波の足し算で声に聞こえる人工音声を作ってみよう。
人間の声にもいろいろ種類があるが、今回は女性の音声を作ってみたい。
適当なあいうえおの音声素材をダウンロードして、DTMのイコライザーで周波数の分布を見てみるとだいたいこんな感じになった。
基音 0.07
2倍音 0.09
3倍音 0.08
4倍音 0.19
5倍音 0.08
と倍音成分が続き、当然このあとも6倍音7倍音が存在しますが、今回は5倍音までとします。
そして、これらの音を同時に流すと、なんと”あ”の声に聞こえます!!
5つの音を合わせたもの
音がひとつだけだと実感しにくいと思いますので、ここにあいうえお、5つの音を用意しました。
聞き比べれば「聞こえなくもないかも」くらいにはなると思います
あ 基音0.07 2倍音0.09 3倍音0.08 4倍音0.19 5倍音0.08
い 基音0.19 2倍音0.03 11倍音0.02 12倍音0.01 13倍音0.02
う 基音0.32 2倍音0.11 4倍音0.02 5倍音0.02 6倍音0.13
え 基音0.18 2倍音0.14 3倍音0.13 4倍音0.03 11倍音0.03
お 基音0.11 2倍音0.14 3倍音0.10 4倍音0.24
というわけで、ひとまず声っぽい音声はできました。
もう少しだけだましだまし
フォルマント音声合成ではここら辺のクオリティが関の山なのですが、もう少しだけ人間の声っぽくしていきます。
使うのはこちら「vocalizer」。

画面にかいてある通り、協調させたい子音の法に傾けるとそれっぽく音が変わります。
調整したものがこちら
あ
い
う
え
お
ちょっとはマシになった・・・かな?
今回はあいうえおだけしか紹介できませんでしたが、かきくけこなども同じ要領で生成できます。
メカメカしい声、みなさんも作ってみてはどうでしょう。
コメント