電気通信大学 情報・ネットワーク工学専攻/II類 電子情報学プログラム
高橋弘太研究室

話速バリエーション型音声データベース

このページの説明

話速推定の研究や,いろいろな話速での音声認識の研究を行うためには,話速を厳密に制御して同じ原稿を読み上げてもらってそれを収録した音声データベースが必要です.過去,このようなものは存在しなかったので,話速の研究者自らが作った研究者用データベースが,話速バリエーション型音声データベース SRV-DBです.

このページは,SRV-DB のダウンロードページです.表内の各ファイルは,Microsoft WAVE形式 (.wav ファイル) にて提供しております.また,一括ダウンロード用のファイルは,ZIP形式にて圧縮してあります.音声データは,PCM 44,100 Hz 16bit で収録しております.チャネル数は,基本的に モノラル(1ch) ですが,一部のものはステレオとなっています.

音声の試聴とダウンロード

1. 発話のプロフェッショナルによるオリジナル原稿(一文字違い文章)の読み上げ

話者名: PF02
セット1

セット2

セット3

セット4
同話速一括ダウンロード
自然な話速(5.01) この行をダウンロード

2. 発話のプロフェッショナルによるオリジナル原稿(カーナビ文章)の読み上げ

話者名: PF02
セットA

セットB

セットC
同話速一括ダウンロード
自然な話速 この行をダウンロード

3. 発話のプロフェッショナルによる編集手帳(読売新聞)の読み上げ

 
話者名: PF00

話者名: PF01

話者名: PM00
同話速一括ダウンロード
自然な朗読(自由話速) ダウンロード ダウンロード ダウンロード この行をダウンロード
6.73 [モーラ/秒] ダウンロード ダウンロード ダウンロード この行をダウンロード
8.00 [モーラ/秒] ダウンロード ダウンロード ダウンロード この行をダウンロード
9.51 [モーラ/秒] ダウンロード ダウンロード ダウンロード この行をダウンロード
11.31 [モーラ/秒] ダウンロード ダウンロード ダウンロード この行をダウンロード
13.45 [モーラ/秒] ダウンロード ダウンロード ダウンロード この行をダウンロード
同話者一括ダウンロード この列をダウンロード この列をダウンロード この列をダウンロード 一括ダウンロード(約80MB)

4. 声優によるオリジナル原稿の読み上げ(台詞を連結してストーリーにしたもの)

第1回収録

男性:VM00
女性:VF00

モノラル

ステレオ

男性のみ

女性のみ
一括ダウンロード
自然な話速(7.50) 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 行ダウンロード
4.76 [モーラ/秒] 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 行ダウンロード
8.00 [モーラ/秒] 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 行ダウンロード
11.31 [モーラ/秒] 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 行ダウンロード
一括ダウンロード この列をダウンロード この列をダウンロード この列をダウンロード この列をダウンロード 全一括(約315MB)

第2回収録

男性:VM01
女性:VF01

モノラル

ステレオ

男性のみ

女性のみ
一括ダウンロード
自然な話速(7.50) 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 行ダウンロード
4.76 [モーラ/秒] 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 行ダウンロード
8.00 [モーラ/秒] 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 行ダウンロード
11.31 [モーラ/秒] 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 行ダウンロード
一括ダウンロード この列をダウンロード この列をダウンロード この列をダウンロード この列をダウンロード 全一括(約371MB)

5. 声優によるオリジナル原稿の読み上げ(台詞ごとにファイル分割した形式)

第1回収録

男性:VM00
女性:VF00

話者名: VM00

話者名: VF00
同話速一括ダウンロード
自然な話速(7.50) この行をダウンロード
4.76 [モーラ/秒] この行をダウンロード
8.00 [モーラ/秒] この行をダウンロード
11.31 [モーラ/秒] この行をダウンロード
同話者一括ダウンロード この列をダウンロード この列をダウンロード 全一括ダウンロード (約76MB)

第2回収録

男性:VM01
女性:VF01

話者名: VM01

話者名: VF01
同話速一括ダウンロード
自然な話速(7.50) この行をダウンロード
4.76 [モーラ/秒] この行をダウンロード
8.00 [モーラ/秒] この行をダウンロード
11.31 [モーラ/秒] この行をダウンロード
同話者一括ダウンロード この列をダウンロード この列をダウンロード 全一括ダウンロード (約76MB)

6. 声優によるオリジナル原稿の読み上げ(台詞を連結し,音楽をつけたもの)

第1回収録

男性:VM00
女性:VF00

音楽:大脇 渉

音楽:大脇 渉

(準備中)

(準備中)
一括ダウンロード
自然な話速(7.50) 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード 試聴/ダウンロード (準備中)

7. 本研究室の所属メンバによるATR 25文の読み上げ

 
話者名: AM00

話者名: AM01

話者名: AM02

話者名: AM03
同話速一括ダウンロード
6.73 [モーラ/秒] この行をダウンロード
8.00 [モーラ/秒] この行をダウンロード
9.51 [モーラ/秒] この行をダウンロード
11.31 [モーラ/秒] この行をダウンロード
13.45 [モーラ/秒] この行をダウンロード
同話者一括ダウンロード この列をダウンロード この列をダウンロード この列をダウンロード この列をダウンロード 一括ダウンロード (約126MB)

8. 発話のプロフェッショナルによるATR 25文の読み上げ

 
話者名: PF00

話者名: PF01

話者名: PM00
同話速一括ダウンロード
5.00 [モーラ/秒] この行をダウンロード
8.00 [モーラ/秒] この行をダウンロード
11.00 [モーラ/秒] この行をダウンロード
同話者一括ダウンロード この列をダウンロード この列をダウンロード この列をダウンロード 一括ダウンロード (約66MB)

テキストのダウンロード

データセット1から2の音声データのテキストファイルはこちらでご覧になれます.

原稿名 一文字違いカーナビ
テキストデータ EUC-JP \ Shift-JIS \ UTF-8 EUC-JP \ Shift-JIS \ UTF-8
PDFデータ 一文字違い文 カーナビ文

声優パート(データセット4〜6)の音声データのテキストファイルはこちらでご覧になれます.

原稿名 「雪」
テキストデータ 役名と台詞だけが並んだテキストデータ
ReCoK5用データ ReCok5で原稿提示する場合に使用するデータ(原稿+漢字や特殊文字のモーラ数+相対話速値)
印刷用カラー原稿 原稿の1ページめのPDFファイル   原稿の2ページめのPDFファイル

データセット3,7,8の音声データのテキストファイルはこちらでご覧になれます.

原稿名 ATR25HENSHU00HENSHU01HENSHU02
テキストデータ ATR25文 編集手帳 原稿00 編集手帳 原稿01 編集手帳 原稿02 まとめてダウンロード
振りがな付きPDFデータ ATR25文 編集手帳 原稿00 編集手帳 原稿01 編集手帳 原稿02

録音条件と機材

使用マイクロホン
(1) SONY C-38B(指向特性:単一指向性,ローカット特性:M,
  ハイカットスイッチ:OFF,PADスイッチ:0 dB)
(2) NEUMANN U87Ai (指向特性:単一指向性,VF00,VF01,PF02に使用)
プリアンプ
GRACE m101 ×2
AD変換器
Lynx AURORA-16
収録部屋
床面積: 24平方メートル(4 [m] × 6 [m])
天井までの高さ: 2.65 [m]
絨毯敷,カーテン有.
サブソニックフィルタ
80[Hz]において-3dB落ちとなるHPFを,直線位相FIRフィルタで設計し, 収録後にフィルタリング.
話速制御の単位
データセット3〜6では,自由発話における個々の文章間の相対的話速を一定に保ったまま,記事全体(1ストーリー全部)での平均話速が設定値になるように制御. 全ての台詞が連結されたファイルにおいては,ファイルの先頭0.5秒,末尾0.5秒に 無音時区間が挿入されているので, 「総モーラ数」を「両無音時間を削除した時区間の長さ」で除算すると, 正確に表示の話速値になる. 台詞ごとに分割したファイルにおいては,表示話速に ここ にある相対話速を乗算したものが,各台詞での話速値になっている.
データセット7と8では,個々の文章ごとの話速値が 表示話速値になるように制御した.
音量調整
データセット1では,個々の音ファイルについて,ARIB TR-B32「デジタルテレビ放送番組におけるラウドネス運用規定」に従い平均ラウドネス値を算出したとき,-20 LKFS相当となるよう調整した.

声優パートを試し聴きされる方へ

データの種類が多すぎて,どこから聴いたら良いかわからないという方のために, 「おすすめ」を書いておきます. まず,どんな発話内容であるかその全体を把握したいという方は,ステレオで聴ける方は, 自然な話速での男女ステレオデータ:5分45秒:第1回収録版 もしくは 同:第2回収録版をお聴きになってみて下さい. モノラルでしか聴けない方は, 自然な話速での男女モノラルデータ:5分45秒:第1回収録版) もしくは 同:第2回収録版をお聴きになってみて下さい.

なお,研究素材として用いるために, 音声データにはコンプレッサなどで音圧を上げる処理を施しておりません. CDなどで言えば,マスタリング工程前のデータということになります. このため,全体として音量は小さめですので, パソコン側の音量を最大にして試聴して頂ければ幸いです. ボリューム最大でも音量が足りないパソコンをお使いの方は,簡易コンプレッサで音量を上げた 大音量版:ステレオ:5分45秒:第1回収録版をお聴き下さい. 無処理ならではの伸び伸びとした魅力は失われますが, 全体の感じはつかめると思います.

著作権等に関する注意

音声の研究の進展のため,あるいは,信号処理技術の発展に寄与するためであれば, 広く利用を許可したいと思います. ぜひ,企業や大学での研究で,素材として使って頂ければと思います. また,学会発表,展示会発表などにおいて, 本データを信号処理したもの,あわせて,比較のために本データそのものを 参加者に聴かせることは可能です. 新製品や新技術や技術改良の効果を具体的にアピールするために, 本素材と本素材をその技術で処理した結果の音声を発表(学会,展示会,Webページに掲載,CDとして配布) することも許可したいと思います.どうぞ,技術の進歩のために有効にお使いになって下さい.

なお,役者志望の方が 練習または評価を受ける目的で本データベースを利用するようなことは構いません. たとえば,対話型の音声の片方に自分の声を挿入するなどです. データセット5のように音楽を付けたデータを製作し発表することも含め, 良識の範囲内であれば許可します.

ちなみに,データセット5の音楽は, 本データベースのために作曲し製作したオリジナルソースです. 音声の基準(2つ上の段落で説明した基準)の範囲内であれば, 発表や展示やWeb掲載に利用可能です. BGMが加算されたソースに対する音声認識や話速推定などの研究で, 標準ソースとして利用していただければ幸いに存じます.

原稿「雪」については,本データベース用のオリジナル原稿ですので, 原稿そのものについては, その一部または全部を許諾無しに無料で利用(読み上げ,テキストの掲載や印刷や配布など) してもらって構いません.

ただし,「雪」と読売新聞の「編集手帳」の発声データについて, 意図的に原稿とは違う意味になるように編集することはお断りします.

公序良俗に反する利用を禁じます. 声優の方々やアナウンサー方々は, 音声研究の進展のためになることを理解して協力して下さっていますので, 発声して下さった方々に迷惑がかかるような行為があった場合は, 必要な処置をとらさせて頂きます.

義務ではありませんが, 本データベースの音声や原稿を利用したものを発表・配布する場合は, 「話速バリエーション型音声データベース(SRV-DB)を利用した」 もしくは, 「SRV-DBを利用した」 ことを書き添えて頂ければ幸いに存じます. 定期的に「SRV-DB」でWeb検索し,本データベースが 期待どおりに皆さんに活用して頂いていることがわかれば, 今後,さらに充実したものにしていきたいと思っております.

謝辞

声優による読み上げに関しまして, 第1回収録に出演して下さいました,男性声優VM00様,女性声優VF00様には, 非常に遅い音声から,非常に速い音声まで,かなりの幅があったにもかかわらず, どの話速でも魅力的で心のこもった聞き応えのある音声を発声して頂きました. お陰さまで,本データベースは研究用としての価値はもちろん, 聴くだけでも音声の素晴らしさを味わうことができる大変充実したものになりました. ここに深く感謝いたします.

また,第2回収録に出演して下さいました,男性声優VM01様,女性声優VF01様には, さらに,第1回収録での発話ペースにあわせて発話して頂くという条件で収録させて頂きました. このような難しい条件にもかかわらず,個性的で魅力的な役を演じて下さいました. その結果,全く同じ発話速度に制御された上で,異なる男女のペアの方々が それぞれ個性あるキャラクターを演じて下さっているという, 貴重なデータベースを完成させることができました. ここに厚く御礼申し上げます.

さらに,本研究の意義をご理解下さいまして, 声優の方々へ我々にかわって事前説明をして下さいました 芸能事務所のチーフマネージャー様に厚く感謝いたします, 氏のご協力なくしては,データセット3〜5はここまで充実させることは出来なかったと思います. ここに厚く御礼申し上げます.

その他,発話のプロフェッショナルによる読み上げ(データセット1,2,6,8)に関しましては, 株式会社エス・オー・プロモーションのご協力を頂きました. 本研究の意義にご理解下さいました千葉祐紀恵様,佐藤邦宏様, 話速を厳密に管理して発声して頂くというたいへん難しい注文に 応えて下さいました,落合こず恵様(話者PF00),小松上花様(話者PF01),名和田知加様(話者PF02), 山田直広様(話者PM00)に感謝いたします. また,編集手帳につきましては,読売新聞社より,文章掲載と 音声ファイル公開の許可を頂きました.ここにお礼申し上げます.

1文字違い音声と,カーナビ音声(データ・セット1,2)の編集に関しましては,大変時間のかかる編集作業を,当時大学院博士後期課程に在籍していた大脇渉氏が行って下さいました.ここに深く感謝いたします.

この音声データベースを利用して下さった作品

SRV-DBを利用して作られた作品や研究を紹介します.有効な使用例としてぜひご覧下さい.

(1) 内田照久様,声色の罠: ー高いのに低い声?ー,第8回錯視・錯聴コンテスト2016 <審査員特別賞>
   →コンテスト入賞作品のページ から視聴することができます.

(2) 内田照久様,声色の輪郭: ーシルエットのささやきー, 第10回錯視・錯聴コンテスト2018 <入賞>
   →コンテスト入賞作品のページ から視聴することができます.

ここからリンクを張ってもよいという方は,ぜひお知らせ下さい.

この音声データベースに関する詳細

音声データベースの概要と収録について をご覧ください.

Copyright© 2008-2018 Takahashi Kota Laboratory. All Rights Reserved.