高橋弘太研究室 > 音声データベース

話速バリエーション型音声データベース

このページの説明

話速推定の研究や，いろいろな話速での音声認識の研究を行うためには，話速を厳密に制御して同じ原稿を読み上げてもらってそれを収録した音声データベースが必要です．過去，このようなものは存在しなかったので，話速の研究者自らが作った研究者用データベースが，話速バリエーション型音声データベース SRV-DBです．

このページは，SRV-DB のダウンロードページです．表内の各ファイルは，Microsoft WAVE形式 (.wav ファイル) にて提供しております．また，一括ダウンロード用のファイルは，ZIP形式にて圧縮してあります．音声データは，PCM 44,100 Hz 16bit で収録しております．チャネル数は，基本的にモノラル(1ch) ですが，一部のものはステレオとなっています．

音声の試聴とダウンロード

1. 発話のプロフェッショナルによるオリジナル原稿（一文字違い文章）の読み上げ

話者名： PF02	セット1	セット2	セット3	セット4	同話速一括ダウンロード
自然な話速（5.01）					この行をダウンロード

2. 発話のプロフェッショナルによるオリジナル原稿（カーナビ文章）の読み上げ

話者名： PF02	セットA	セットB	セットC	同話速一括ダウンロード
自然な話速				この行をダウンロード

3. 発話のプロフェッショナルによる編集手帳（読売新聞）の読み上げ

	話者名： PF00	話者名： PF01	話者名： PM00	同話速一括ダウンロード
自然な朗読（自由話速）	ダウンロード	ダウンロード	ダウンロード	この行をダウンロード
6.73 ［モーラ／秒］	ダウンロード	ダウンロード	ダウンロード	この行をダウンロード
8.00 ［モーラ／秒］	ダウンロード	ダウンロード	ダウンロード	この行をダウンロード
9.51 ［モーラ／秒］	ダウンロード	ダウンロード	ダウンロード	この行をダウンロード
11.31 ［モーラ／秒］	ダウンロード	ダウンロード	ダウンロード	この行をダウンロード
13.45 ［モーラ／秒］	ダウンロード	ダウンロード	ダウンロード	この行をダウンロード
同話者一括ダウンロード	この列をダウンロード	この列をダウンロード	この列をダウンロード	一括ダウンロード（約80MB）

4. 声優によるオリジナル原稿の読み上げ（台詞を連結してストーリーにしたもの）

第１回収録男性：VM00 女性：VF00	モノラル	ステレオ	男性のみ	女性のみ	一括ダウンロード
自然な話速（7.50）	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	行ダウンロード
4.76 ［モーラ/秒］	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	行ダウンロード
8.00 ［モーラ/秒］	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	行ダウンロード
11.31 ［モーラ/秒］	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	行ダウンロード
一括ダウンロード	この列をダウンロード	この列をダウンロード	この列をダウンロード	この列をダウンロード	全一括（約315MB）

第２回収録男性：VM01 女性：VF01	モノラル	ステレオ	男性のみ	女性のみ	一括ダウンロード
自然な話速（7.50）	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	行ダウンロード
4.76 ［モーラ/秒］	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	行ダウンロード
8.00 ［モーラ/秒］	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	行ダウンロード
11.31 ［モーラ/秒］	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	行ダウンロード
一括ダウンロード	この列をダウンロード	この列をダウンロード	この列をダウンロード	この列をダウンロード	全一括（約371MB）

5. 声優によるオリジナル原稿の読み上げ（台詞ごとにファイル分割した形式）

第１回収録男性：VM00 女性：VF00	話者名： VM00	話者名： VF00	同話速一括ダウンロード
自然な話速（7.50）			この行をダウンロード
4.76 ［モーラ／秒］			この行をダウンロード
8.00 ［モーラ／秒］			この行をダウンロード
11.31 ［モーラ／秒］			この行をダウンロード
同話者一括ダウンロード	この列をダウンロード	この列をダウンロード	全一括ダウンロード（約76MB）

第２回収録男性：VM01 女性：VF01	話者名： VM01	話者名： VF01	同話速一括ダウンロード
自然な話速（7.50）			この行をダウンロード
4.76 ［モーラ／秒］			この行をダウンロード
8.00 ［モーラ／秒］			この行をダウンロード
11.31 ［モーラ／秒］			この行をダウンロード
同話者一括ダウンロード	この列をダウンロード	この列をダウンロード	全一括ダウンロード（約76MB）

6. 声優によるオリジナル原稿の読み上げ（台詞を連結し，音楽をつけたもの）

第１回収録男性：VM00 女性：VF00	音楽：大脇渉	音楽：大脇渉	（準備中）	（準備中）	一括ダウンロード
自然な話速（7.50）	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	試聴／ダウンロード	（準備中）

7. 本研究室の所属メンバによるATR 25文の読み上げ

	話者名： AM00	話者名： AM01	話者名： AM02	話者名： AM03	同話速一括ダウンロード
6.73 ［モーラ／秒］					この行をダウンロード
8.00 ［モーラ／秒］					この行をダウンロード
9.51 ［モーラ／秒］					この行をダウンロード
11.31 ［モーラ／秒］					この行をダウンロード
13.45 ［モーラ／秒］					この行をダウンロード
同話者一括ダウンロード	この列をダウンロード	この列をダウンロード	この列をダウンロード	この列をダウンロード	一括ダウンロード（約126MB）

8. 発話のプロフェッショナルによるATR 25文の読み上げ

	話者名： PF00	話者名： PF01	話者名： PM00	同話速一括ダウンロード
5.00 ［モーラ／秒］				この行をダウンロード
8.00 ［モーラ／秒］				この行をダウンロード
11.00 ［モーラ／秒］				この行をダウンロード
同話者一括ダウンロード	この列をダウンロード	この列をダウンロード	この列をダウンロード	一括ダウンロード（約66MB）

テキストのダウンロード

データセット１から２の音声データのテキストファイルはこちらでご覧になれます．

原稿名	一文字違い	カーナビ
テキストデータ	EUC-JP \ Shift-JIS \ UTF-8	EUC-JP \ Shift-JIS \ UTF-8
PDFデータ	一文字違い文	カーナビ文

声優パート（データセット４〜６）の音声データのテキストファイルはこちらでご覧になれます．

原稿名	「雪」
テキストデータ	役名と台詞だけが並んだテキストデータ
ReCoK5用データ	ReCok5で原稿提示する場合に使用するデータ（原稿＋漢字や特殊文字のモーラ数＋相対話速値）
印刷用カラー原稿	原稿の１ページめのPDFファイル　　原稿の２ページめのPDFファイル

データセット３，７，８の音声データのテキストファイルはこちらでご覧になれます．

原稿名	ATR25	HENSHU00	HENSHU01	HENSHU02
テキストデータ	ATR25文	編集手帳原稿00	編集手帳原稿01	編集手帳原稿02	まとめてダウンロード
振りがな付きPDFデータ	ATR25文	編集手帳原稿00	編集手帳原稿01	編集手帳原稿02

録音条件と機材

使用マイクロホン: (1) SONY C-38B（指向特性：単一指向性，ローカット特性：Ｍ，; 　　ハイカットスイッチ：OFF，PADスイッチ：0 dB）; (2) NEUMANN U87Ai （指向特性：単一指向性，VF00，VF01，PF02に使用）
プリアンプ: GRACE m101 ×２
AD変換器: Lynx AURORA-16
収録部屋: 床面積： 24平方メートル（4 [m] × 6 [m]）; 天井までの高さ： 2.65 [m]; 絨毯敷，カーテン有．
サブソニックフィルタ: 80[Hz]において-3dB落ちとなるHPFを，直線位相FIRフィルタで設計し，収録後にフィルタリング．
話速制御の単位: データセット３〜６では，自由発話における個々の文章間の相対的話速を一定に保ったまま，記事全体（1ストーリー全部）での平均話速が設定値になるように制御．全ての台詞が連結されたファイルにおいては，ファイルの先頭0.5秒，末尾0.5秒に無音時区間が挿入されているので，「総モーラ数」を「両無音時間を削除した時区間の長さ」で除算すると，正確に表示の話速値になる．台詞ごとに分割したファイルにおいては，表示話速にここにある相対話速を乗算したものが，各台詞での話速値になっている．; データセット７と８では，個々の文章ごとの話速値が表示話速値になるように制御した．
音量調整: データセット１では，個々の音ファイルについて，ARIB TR-B32「デジタルテレビ放送番組におけるラウドネス運用規定」に従い平均ラウドネス値を算出したとき，-20 LKFS相当となるよう調整した．

声優パートを試し聴きされる方へ

データの種類が多すぎて，どこから聴いたら良いかわからないという方のために，「おすすめ」を書いておきます．まず，どんな発話内容であるかその全体を把握したいという方は，ステレオで聴ける方は，自然な話速での男女ステレオデータ：5分45秒:第１回収録版もしくは同:第２回収録版をお聴きになってみて下さい．モノラルでしか聴けない方は，自然な話速での男女モノラルデータ：5分45秒：第１回収録版）もしくは同:第２回収録版をお聴きになってみて下さい．

なお，研究素材として用いるために，音声データにはコンプレッサなどで音圧を上げる処理を施しておりません．ＣＤなどで言えば，マスタリング工程前のデータということになります．このため，全体として音量は小さめですので，パソコン側の音量を最大にして試聴して頂ければ幸いです．ボリューム最大でも音量が足りないパソコンをお使いの方は，簡易コンプレッサで音量を上げた大音量版：ステレオ：5分45秒：第１回収録版をお聴き下さい．無処理ならではの伸び伸びとした魅力は失われますが，全体の感じはつかめると思います．

著作権等に関する注意

音声の研究の進展のため，あるいは，信号処理技術の発展に寄与するためであれば，広く利用を許可したいと思います．ぜひ，企業や大学での研究で，素材として使って頂ければと思います．また，学会発表，展示会発表などにおいて，本データを信号処理したもの，あわせて，比較のために本データそのものを参加者に聴かせることは可能です．新製品や新技術や技術改良の効果を具体的にアピールするために，本素材と本素材をその技術で処理した結果の音声を発表（学会，展示会，Webページに掲載，ＣＤとして配布）することも許可したいと思います．どうぞ，技術の進歩のために有効にお使いになって下さい．

なお，役者志望の方が練習または評価を受ける目的で本データベースを利用するようなことは構いません．たとえば，対話型の音声の片方に自分の声を挿入するなどです．データセット５のように音楽を付けたデータを製作し発表することも含め，良識の範囲内であれば許可します．

ちなみに，データセット５の音楽は，本データベースのために作曲し製作したオリジナルソースです．音声の基準（２つ上の段落で説明した基準）の範囲内であれば，発表や展示やWeb掲載に利用可能です． BGMが加算されたソースに対する音声認識や話速推定などの研究で，標準ソースとして利用していただければ幸いに存じます．

原稿「雪」については，本データベース用のオリジナル原稿ですので，原稿そのものについては，その一部または全部を許諾無しに無料で利用（読み上げ，テキストの掲載や印刷や配布など）してもらって構いません．

ただし，「雪」と読売新聞の「編集手帳」の発声データについて，意図的に原稿とは違う意味になるように編集することはお断りします．

公序良俗に反する利用を禁じます．声優の方々やアナウンサー方々は，音声研究の進展のためになることを理解して協力して下さっていますので，発声して下さった方々に迷惑がかかるような行為があった場合は，必要な処置をとらさせて頂きます．

義務ではありませんが，本データベースの音声や原稿を利用したものを発表・配布する場合は，「話速バリエーション型音声データベース（SRV-DB）を利用した」もしくは，「SRV-DBを利用した」ことを書き添えて頂ければ幸いに存じます．定期的に「SRV-DB」でWeb検索し，本データベースが期待どおりに皆さんに活用して頂いていることがわかれば，今後，さらに充実したものにしていきたいと思っております．

謝辞

声優による読み上げに関しまして，第１回収録に出演して下さいました，男性声優VM00様，女性声優VF00様には，非常に遅い音声から，非常に速い音声まで，かなりの幅があったにもかかわらず，どの話速でも魅力的で心のこもった聞き応えのある音声を発声して頂きました．お陰さまで，本データベースは研究用としての価値はもちろん，聴くだけでも音声の素晴らしさを味わうことができる大変充実したものになりました．ここに深く感謝いたします．

また，第２回収録に出演して下さいました，男性声優VM01様，女性声優VF01様には，さらに，第１回収録での発話ペースにあわせて発話して頂くという条件で収録させて頂きました．このような難しい条件にもかかわらず，個性的で魅力的な役を演じて下さいました．その結果，全く同じ発話速度に制御された上で，異なる男女のペアの方々がそれぞれ個性あるキャラクターを演じて下さっているという，貴重なデータベースを完成させることができました．ここに厚く御礼申し上げます．

さらに，本研究の意義をご理解下さいまして，声優の方々へ我々にかわって事前説明をして下さいました芸能事務所のチーフマネージャー様に厚く感謝いたします，氏のご協力なくしては，データセット３〜５はここまで充実させることは出来なかったと思います．ここに厚く御礼申し上げます．

その他，発話のプロフェッショナルによる読み上げ（データセット１，２，６，８）に関しましては，株式会社エス・オー・プロモーションのご協力を頂きました．本研究の意義にご理解下さいました千葉祐紀恵様，佐藤邦宏様，話速を厳密に管理して発声して頂くというたいへん難しい注文に応えて下さいました，落合こず恵様（話者PF00），小松上花様（話者PF01），名和田知加様（話者PF02），山田直広様（話者PM00）に感謝いたします．また，編集手帳につきましては，読売新聞社より，文章掲載と音声ファイル公開の許可を頂きました．ここにお礼申し上げます．

１文字違い音声と，カーナビ音声（データ・セット１，２）の編集に関しましては，大変時間のかかる編集作業を，当時大学院博士後期課程に在籍していた大脇渉氏が行って下さいました．ここに深く感謝いたします．

この音声データベースを利用して下さった作品

SRV-DBを利用して作られた作品や研究を紹介します．有効な使用例としてぜひご覧下さい．

(1) 内田照久様，声色の罠: ー高いのに低い声？ー，第8回錯視・錯聴コンテスト2016 <審査員特別賞>
　　 →コンテスト入賞作品のページから視聴することができます．

(2) 内田照久様，声色の輪郭: ーシルエットのささやきー，第10回錯視・錯聴コンテスト2018 <入賞>
　　 →コンテスト入賞作品のページから視聴することができます．

ここからリンクを張ってもよいという方は，ぜひお知らせ下さい．

この音声データベースに関する詳細

音声データベースの概要と収録についてをご覧ください．