電気通信大学 情報通信工学科 / 情報通信工学専攻
高橋弘太研究室

話速バリエーション型音声データベース 2008年度収録

概要

プロのナレータやアナウンサーに依頼して原稿を読んでもらい、 電気通信大学内で収録する。原稿提示には、本収録のために特別に 開発する「話速管理発声用原稿提示システム」を使用する。

収録の具体例
(アナウンサー事務所の方への説明)

原稿について

読み上げてもらう文章は、読売新聞の編集手帳と、ATRの提供による研究者用文章です。 それぞれの原稿を非常にゆっくり(1秒間に4モーラ、ひらがな約4文字に相当)から、 非常に速く(1秒間に16モーラ) 読み上げて頂く他、ひとつの原稿の中で話速を変えながら読み上げて頂きます。

原稿は、どのような速度で読むのかを含めて、 本研究室で開発された「話速管理発声用原稿提示システム」のディスプレイに表示されます。 大雑把に言えばカラオケの歌詞のような表示である、と考えて頂ければよろしいかと思います。 以下に、専門の方をお呼びする前に研究室のメンバーで予備的に収録してみた音声を例示します。 こんな雰囲気を、プロの方の明瞭な音声(もしくは個性的な音声) で実現して頂くことを希望しております。

サンプル音声

サンプル動画




動画の再生には Flash Player 8 以上 が必要です



読売新聞の編集手帳を随時変速で読み上げている風景
WMV9形式でダウンロード (2:00, 6.6MB)



動画の再生には Flash Player 8 以上 が必要です



ATRの文章を一定速度で読み上げている風景
WMV9形式でダウンロード (1:32, 8.4MB)

収録の目的

背景

平成20年度〜平成22年度 文部科学省・科学研究費・基盤研究C 課題番号205011 「フレキシブルな時間軸を持つ高効率音声再生法の研究と研究者用音声データベースの研究」 の研究の一部として本データベースを作成する。 本研究課題において、音声データベースを構築して、 外部の研究グループに利用してもらうという計画があり、 その一環として行っているものである。

2008年度の収録の目的

3年間の研究期間のあいだに、年に1〜2回、収録を行いたいと考えています。 以下、現在考えている第一回の収録計画について書きます。

3名の方(例えば、男、女、女)にいらして頂き、収録は4時間程度。 事前に原稿の文章はお渡しします(その文章は、上のデモ音声とは若干異なる可能性があります)。

まず全員の方に対して、「原稿提示システム」の説明を行います。 その後、交代で収録を行っていきます。 特に高速での発声は負荷が大きく、ナレータの方の疲労も大きいと思われるので、 3名の方間で交代したり休憩をはさんだりしながら発声を行って頂きます。

第二回以降の収録に関しては、 時間差をつけていらして頂く形式をとることも検討していますが、 我々が製作した「原稿提示システム」に対するディスカッション (我々側から使い方を説明したり、読み手側からの要望などをお聞きする)をまとめて行いたいため、 第一回は3人全員同じ時間にいらして頂きたいと考えています。

2008年7月25日収録時の原稿

ここにあります.

データベースの公開について

公開方法

音声ファイル(wav形式)と、原稿ファイル(テキストファイル)の両方を、 電気通信大学内に設置するWebサーバにより提供し、 音声関係の研究者が自由にダウンロードして、研究に役立てられるようにする。 原稿の出典は、原則として明示する(読売新聞については、利用について相談ずみ。 最終的に採用となった原稿について、利用の正式手続きをとることになっている)。 また、読み上げ文のテキストも公開する。 ナレータやアナウンサーの所属事務所や氏名については、 相談のうえ、公開または非公開を選択してもらうようにする。

公開期間

平成20年度〜平成22年度。利用状況によっては延長もありうる。

現在の進捗状況

「話速管理発声用原稿提示システム」が完成した。 研究室内で、大学院の学生を仮のナレータとした収録を行った。 これを元に、プロのナレータやアナウンサーの事務所に、 依頼する仕事内容を説明するための文章(本ページの内容)を作成した. その後,事務所とスケジュールの相談をし,2008年7月25日の 13:00〜17:00に,第一回の録音を行うことになった。 原稿のページを作成した. (2008年7月20日)

本番と同じ順序で収録する練習を行い,必要な時間の見積りを行った. これをもとに,当日のスケジュールを決定した. また,原稿について,読みやすくするために,改行の位置を変更したり, 細かなスペースを入れたりした. 収録時のリテイクの連絡を容易にするために,各文章に番号を入れた. これらにともなって,原稿のPDFが若干変更になったので, 原稿のページのPDFファイルを入れ替えた. また,話速を随時変えるときの原稿についても,参考のために掲載した. (2008年7月24日)

第一回の収録が終了しました.皆様お疲れ様でした. ATR(1)についての,8,12と, ATR(2)についての,5.6,8,11.3 は,完全に収録を完了しました. ATR(2)の16についても試行的に収録しました. 個別原稿については,今後の話速設定の基礎データを集めるために, あえて話速に制約をかけずに読んで頂きました. 全体として,充実した収録が行えたと考えています.ありがとうございました. また,このような収録で,何か難しく,どこに気をつけなければならないかも, だいぶわかりました.本日,時間の都合で残念ながら収録できなかった 個別原稿の話速バリエーション版については,機会があれば,またお願いしたいと 思っています. (2008年7月25日)

第二回の収録が終了しました. 今回は,杓子定規にモーラを時間軸に割り振るのではなく, 自然に発話したときのタイミングを尊重しました. 具体的には,自然に発話における発話のタイミングを 時間軸上で一様に拡大・縮小することで,平均モーラ数のコントロールを行いました. 予想どおり,低速,普通速では,杓子定規法よりうまくいきました. 一方,平均速度が,高速になると,部分的には超高速になってしまうため, 発声が難しくなってしまうようでした. (2008年8月1日)

まだ,全体のチェックは完了していませんが. 収録は計画どおりうまくいきました. 皆様お疲れ様でした. データの整理ができましたら,また報告していきたいと思っています.

Copyright© 2008-2010 Takahashi Kota Laboratory. All Rights Reserved.