ホーム » 研究概要

研究概要

本研究は、合成音声の発話および歌唱をリアルタイム制御によって可能にすることを目的とし、その際、コントロール・インターフェースとしてMIDIアコーディオンを用いるという着想を特徴とする。すなわち、めまぐるしく変化する合成音声の音響的変化を人間の両手指の”演奏”によって制御することによって、合成音声による単なる発音だけではなく「こわいろ」、すなわち発話の「語り口」や歌唱における「歌い回し」までを自在に表現しようという試みである。

1950年代以降、デジタル・コンピュータによる音声合成については膨大な数の研究が行われて来た。とりわけ、スピーチ・シンセサイザー、つまり機械に「喋らせる」技術において、実用化も目覚ましく、近年では極めて高品位の合成音声により自然な発声で発話する技術が広く実用化している。

他方で、機械に「歌わせる」技術研究・開発についても、近年波形連結合成モデルを用いた高品位で実用的な歌声合成システムが提案され、中でもYAMAHAによるVOCALOID[1]の技術を用いたクリプトン・フューチャー・メディアの「初音ミク」や「鏡音リン・レン」は、DTMエンドユーザー向けに異例のセールスを記録し、ニコニコ動画等を舞台にひとつの文化現象とも呼べる歌唱合成のムーブメントを引き起こしている。

しかしながら、これら「喋らせる/歌わせる」技術に共通して背景にあるのが、Text-to-Speech(TTS)の概念である。つまりそれは、あらかじめ書かれたテキストが用意され、それをシステムに入力することでさまざまな方式の音声合成エンジンを制御し、音声化する「非リアルタイム」技術である。このことは歌詞のないハミング歌唱等においても同様であり、音素・歌唱データの入力と合成音声の生成の間には原理的な時間遅延がある。人間の音声コミュニケーションの最も重要な特徴は、話し/歌う主体が、発声行為の最中であっても、他者の反応を含んだ刻々と変化する状況変化に応じて、次の発声を刻々と決定する「リアルタイム性」にあり、これが音声コミュニケーションに微妙な感情表現やニュアンスを与えていることは言うまでもない。発声に障害のある人びとのコミュニケーション支援においても、音声合成技術を用いた芸術的表現やアミューズメント的応用においても、音声合成の「リアルタイム制御」の実用化が望まれる。

しかし、これに関する研究は、音声合成黎明期である1939年に発表されたDudleyの真空管アナログ式スピーチ・シンセサイザーVODER[2]以来、直接的には皆無と言ってよい。その最大の理由は、音素選択、音高、音量はもとより、音色をめぐる非常に多くのパラメータを同時に、しかも非常に短い時間内で制御できるインターフェイスが、実用化の段階以前にデザインにおいてすらまだ存在しないことにある。Dudleyの例ではタイプライター形状の特殊な制御インターフェイスが用いられたが、その操作は至難を極め、特殊な訓練を受けた限られた人間にしか操作できなかった。

本研究では、発想を転換し、この問題に現実的な解決を与えようとしている。つまり、「楽器演奏」を音声合成のリアルタイム制御に結びつける方法である。多種多様な楽器演奏は、すでに社会に普及しており、数多くの人びとが実践し、その訓練法や教授法が確立し、データの記述と読み取りの方法(五線譜記譜法)が定式化され、また教育と学習に対する社会的価値も共有されている。本研究で具体的に取りあげる「アコーディオン」は、わが国において最も広く普及したピアノ式鍵盤の演奏技術を土台にしつつも、「呼吸のコントロール」に直感的に結びつく蛇腹を持つことで、最も音声合成の制御インターフェイスに適しており、具体的かつ実効的な成果が引き出せるものと期待される。

本研究が理想とするひとつの現実的な成果として、例えば口の不自由な人がキーボードを使って感情に即した声色で会話をしたり歌ったりできるような発話支援システムが考えられる。ただし、そこで困難なのは装置の開発だけではなく、いかにアコーディオンを使った発話のコントロールを人間にとって自然で習得しやすいものにできるかという点である、発話を”演奏”するということがどこまで現実的なことかを演奏家の協力を得ながら探ることになる。その結果として、即興的で「自由な会話」はたとえ至難だとしても、”演奏”による極めて精度の高い歌唱や発話を実現させる予定である。それは、人間が生み出す「誰のものでもない声」あるいは「誰のものにもなりうる声」という意味においてテクノロジーと人間存在/主体との関係を問う芸術表現(メディア・アート)となるだろう。

また一方で、言語的意味を含む人間の発話や歌唱における微細な音高や音色の変化を、単なる音波の記録としてではなく、記述、解読、復元可能な記号、すなわち音符あるいはMIDIデータ化する本研究の試みは音声学はもとより、方言の研究、人間の感情と発話の研究、また、邦楽をはじめとする様々な民族音楽における音律や歌唱法の研究など、言語と声に関わる様々な研究分野に新しい視点を与えるものになるものと期待される。

[1] 剣持秀紀, 大下隼人, “歌声合成システム VOCALOID”, 情報処理学会研究報告, 2007-MUS-072, pp. 25–28 (2007).
[2] Sami Lemmetty, “Review of Speech Synthesis Technology”, Master’s Thesis, Dept. of Electrical and Communication Engineering, Helsinki University of Technology, (1999).