Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
SPEECH SYNTHESIZER, SPEECH SYNTHESIZING METHOD, AND SPEECH SYNTHESIZING PROGRAM
Document Type and Number:
WIPO Patent Application WO/2008/139919
Kind Code:
A1
Abstract:
A synthesized speech involving little prosody disorder can be produced while adequately reducing both connection distortion and voice quality degradation attributed to prosody control. A speech synthesizer comprises a central segment selecting unit for selecting one central segment from speech segments, a prosody generating unit for generating prosody information from the central segment, non-central segment selecting unit for selecting non-central segments which are segments out of the central segment section according to the central segment and the prosody information, and a waveform generating unit for generating a synthesized speech waveform from the prosody information, the central segments, and the non-central segments. Since the speech synthesizer first selects a central segment used as the origin of prosody generation and generates prosody information from the central segment, both the connection distortion in the central segment section and the voice quality degradation attributed to prosody control can be reduced. Since segments suitable for the prosody information generated from the central segment are selected in the sections from which no central segment is selected, prosody disorder of the synthesized speech can be reduced.

Inventors:
KATO MASANORI (JP)
MITSUI YASUYUKI (JP)
KONDO REISHI (JP)
Application Number:
PCT/JP2008/058179
Publication Date:
November 20, 2008
Filing Date:
April 28, 2008
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
NEC CORP (JP)
KATO MASANORI (JP)
MITSUI YASUYUKI (JP)
KONDO REISHI (JP)
International Classes:
G10L13/07; G10L13/10
Foreign References:
JP2001117577A2001-04-27
JP2005321630A2005-11-17
JP2005300919A2005-10-27
JP2005265874A2005-09-29
JP2002049386A2002-02-15
JPH06318094A1994-11-15
Other References:
KATO M. ET AL.: "Nidan Tan'i Sentaku o Mochiita Koonshitsu Onsei Gosei", THE ACOUSTICAL SOCIETY OF JAPAN 2008 NEN SHUNKI KENKYU HAPPYOKAI KOEN RONBUNSHU KOEN YOSHI. KOEN RONBUN CD-ROM, 10 March 2008 (2008-03-10), pages 1-11-22
Attorney, Agent or Firm:
KATO, Asamichi (20-12 Shin-Yokohama 3-chome Kohoku-ku, Yokohama-sh, Kanagawa 33, JP)
Download PDF:
Claims:
 複数の音声素片の中から、中心素片を1つ選択する中心素片選択部と、
 前記中心素片を基に韻律情報を生成する韻律生成部と、
 前記中心素片と前記韻律情報とを基に中心素片区間以外の素片である非中心素片を選択する非中心素片選択部と、
 前記韻律情報と前記中心素片と前記非中心素片とを基に合成音声波形を生成する波形生成部と
 を備えることを特徴とする音声合成装置。
 前記中心素片選択部は、
 素片長が長い音声素片を優先的に中心素片として選択する
 ことを特徴とする請求項1に記載の音声合成装置。
 前記中心素片選択部は、
 素片長が最長の音声素片を中心素片として選択する
 ことを特徴とする請求項1に記載の音声合成装置。
 複数の音声素片の中から、複数の中心素片を選択する中心素片選択部と、
 前記中心素片を基に韻律情報を各中心素片に対して生成する韻律生成部と、
 前記中心素片と前記韻律情報とを基に中心素片区間以外の素片である非中心素片を各中心素片に対して選択する非中心素片選択部と、
 前記複数の中心素片の中から、一つの最適中心素片を選択する最適中心素片選択部と、 前記最適中心素片と、最適中心素片を基に生成された韻律情報と、最適中心素片を基に選択された非中心素片とを基に、合成音声波形を生成する波形生成部と
 を備えることを特徴とする音声合成装置。
 前記中心素片選択部は、
 素片長が長い音声素片を優先的に中心素片として選択する
 ことを特徴とする請求項4に記載の音声合成装置。
 前記中心素片選択部は、
 前記複数の音声素片のうち素片長が長いものから順に中心素片として選択する
 ことを特徴とする請求項4に記載の音声合成装置。
 前記中心素片選択部は、
 中心素片として選択された音声素片に、自身の部分素片が含まれないようにする
 ことを特徴とする請求項6に記載の音声合成装置。
 前記最適中心素片選択部は、
 前記非中心素片選択部の選択結果に応じて最適中心素片を選択する
 ことを特徴とする請求項4乃至7の何れか1項に記載の音声合成装置。
 前記最適中心素片選択部は、
 前記非中心素片選択部で各中心素片毎に計算された素片選択コストに応じて最適中心素片を選択する
 ことを特徴とする請求項4乃至7の何れか1項に記載の音声合成装置。
 前記中心素片選択部は、
 入力テキストの言語処理を行う言語処理部を有し、
 前記言語処理の言語処理結果との適合度が高い複数の音声素片の中から、中心素片を選択する
 ことを特徴とする請求項1乃至9の何れか1項に記載の音声合成装置。
 前記中心素片選択部は、
 前記言語処理結果を基に韻律情報を生成する韻律生成部を有し、
 前記韻律情報を基に中心素片を選択する
 ことを特徴とする請求項10に記載の音声合成装置。
 前記中心素片選択部は、
 前記言語処理結果を基に入力テキストに含まれる重要表現を抽出する重要表現抽出部を更に有し、
 前記重要表現を基に中心素片を選択する
 ことを特徴とする請求項10又は11に記載の音声合成装置。
 音声合成装置における音声合成方法であって、
 複数の音声素片の中から、中心素片を1つ選択する中心素片選択ステップと、
 前記中心素片を基に韻律情報を生成する韻律生成ステップと、
 前記中心素片と前記韻律情報とを基に中心素片区間以外の素片である非中心素片を選択する非中心素片選択ステップと、
 前記韻律情報と前記中心素片と前記非中心素片とを基に合成音声波形を生成する波形生成ステップと、
 を含むことを特徴とする音声合成方法。
 前記中心素片選択ステップは、
 素片長が長い音声素片を優先的に中心素片として選択する
 ことを特徴とする請求項13に記載の音声合成方法。
 前記中心素片選択ステップは、
 素片長が最長の音声素片を中心素片として選択する
 ことを特徴とする請求項13に記載の音声合成方法。
 音声合成装置における音声合成方法であって、
 複数の音声素片の中から、複数の中心素片を選択する中心素片選択ステップと、
 前記中心素片を基に韻律情報を各中心素片に対して生成する韻律生成ステップと、
 前記中心素片と前記韻律情報とを基に中心素片区間以外の素片である非中心素片を各中心素片に対して選択する非中心素片選択ステップと、
 前記複数の中心素片の中から、一つの最適中心素片を選択する最適中心素片選択ステップと、
 前記最適中心素片と、最適中心素片を基に生成された韻律情報と、最適中心素片を基に選択された非中心素片とを基に、合成音声波形を生成する波形生成ステップと、
 を備えることを特徴とする音声合成方法。
 前記中心素片選択ステップは、
 素片長が長い音声素片を優先的に中心素片として選択する
 ことを特徴とする請求項16に記載の音声合成方法。
 前記中心素片選択ステップは、
 前記複数の音声素片のうち素片長が長いものから順に中心素片として選択する

 ことを特徴とする請求項16に記載の音声合成方法。
 前記中心素片選択ステップは、
 中心素片として選択された音声素片に、自身の部分素片が含まれないようにする
 ことを特徴とする請求項18に記載の音声合成方法。
 前記最適中心素片選択ステップは、
 前記非中心素片選択部の選択結果に応じて最適中心素片を選択する
 ことを特徴とする請求項16乃至19の何れか1項に記載の音声合成方法。
 前記最適中心素片選択ステップは、
 前記非中心素片選択部で各中心素片毎に計算された素片選択コストに応じて最適中心素片を選択する
 ことを特徴とする請求項16乃至19の何れか1項に記載の音声合成方法。
 前記中心素片選択ステップは、
 入力テキストの言語処理を行う言語処理ステップを含み、
 前記言語処理の言語処理結果との適合度が高い複数の音声素片の中から、中心素片を選択する
 ことを特徴とする請求項13乃至21の何れか1項に記載の音声合成方法。
 前記中心素片選択ステップは、
 前記言語処理結果を基に韻律情報を生成する韻律生成ステップを含み、
 前記韻律情報を基に中心素片を選択する
 ことを特徴とする請求項22に記載の音声合成方法。
 前記中心素片選択ステップは、
 前記言語処理結果を基に入力テキストに含まれる重要表現を抽出する重要表現抽出ステップを更に含み、
 前記重要表現を基に中心素片を選択する
 ことを特徴とする請求項22又は23に記載の音声合成方法。
 音声合成装置における音声合成プログラムであって、
 コンピュータを、
 複数の音声素片の中から、中心素片を1つ選択する中心素片選択部と、
 前記中心素片を基に韻律情報を生成する韻律生成部と、
 前記中心素片と前記韻律情報とを基に中心素片区間以外の素片である非中心素片を選択する非中心素片選択部と、
 前記韻律情報と前記中心素片と前記非中心素片とを基に合成音声波形を生成する波形生成部として機能させる
 ことを特徴とする音声合成プログラム。
 前記中心素片選択部は、
 素片長が長い音声素片を優先的に中心素片として選択する
 ことを特徴とする請求項25に記載の音声合成プログラム。
 前記中心素片選択部は、
 素片長が最長の音声素片を中心素片として選択する
 ことを特徴とする請求項25に記載の音声合成プログラム。
 音声合成装置における音声合成プログラムであって、
コンピュータを、
 複数の音声素片の中から、複数の中心素片を選択する中心素片選択部と、
 前記中心素片を基に韻律情報を各中心素片に対して生成する韻律生成部と、
 前記中心素片と前記韻律情報とを基に中心素片区間以外の素片である非中心素片を各中心素片に対して選択する非中心素片選択部と、
 前記複数の中心素片の中から、一つの最適中心素片を選択する最適中心素片選択部と、
 前記最適中心素片と、最適中心素片を基に生成された韻律情報と、最適中心素片を基に選択された非中心素片とを基に、合成音声波形を生成する波形生成部として機能させる
 ことを特徴とする音声合成プログラム。
 前記中心素片選択部は、
 素片長が長い音声素片を優先的に中心素片として選択する
 ことを特徴とする請求項28に記載の音声合成プログラム。
 前記中心素片選択部は、
 前記複数の音声素片のうち素片長が長いものから順に中心素片として選択する

 ことを特徴とする請求項28に記載の音声合成プログラム。
 前記中心素片選択部は、
 中心素片として選択された音声素片に、自身の部分素片が含まれないようにする
 ことを特徴とする請求項30に記載の音声合成プログラム。
 前記最適中心素片選択部は、
 前記非中心素片選択部の選択結果に応じて最適中心素片を選択する
 ことを特徴とする請求項28乃至31の何れか1項に記載の音声合成プログラム。
 前記最適中心素片選択部は、
 前記非中心素片選択部で各中心素片毎に計算された素片選択コストに応じて最適中心素片を選択する
 ことを特徴とする請求項28乃至31の何れか1項に記載の音声合成プログラム。
 前記中心素片選択部は、
 入力テキストの言語処理を行う言語処理部を有し、
 前記言語処理の言語処理結果との適合度が高い複数の音声素片の中から、中心素片を選択する
 ことを特徴とする請求項25乃至33の何れか1項に記載の音声合成プログラム。
 前記中心素片選択部は、
 前記言語処理結果を基に韻律情報を生成する韻律生成部を有し、
 前記韻律情報を基に中心素片を選択する
 ことを特徴とする請求項34に記載の音声合成プログラム。
 前記中心素片選択部は、
 前記言語処理結果を基に入力テキストに含まれる重要表現を抽出する重要表現抽出部を更に有し、
 前記重要表現を基に中心素片を選択する
 ことを特徴とする請求項34又は35に記載の音声合成プログラム。
Description:
音声合成装置、音声合成方法及 音声合成プログラム

 (関連出願についての記載)
 本願は、先の日本特許出願2007-123422号(2007年 5月8日出願)の優先権を主張するものであり、 前記先の出願の全記載内容は、本書に引用を もって繰込み記載されているものとみなされ る。
 本発明は、音声合成装置、音声合成方法及 音声合成プログラムに関し、特に、テキス から音声を合成するための音声合成装置、 声合成方法及び音声合成プログラムに関す 。

 従来から、テキスト文を解析し、その文 示す音声情報から規則合成により合成音声 生成する音声合成装置が、種々開発されて た。

 図9は、従来の一般的な規則合成型の音声 合成装置の構成を示したブロック図である。

 このような構成を有する音声合成装置の 成と動作の詳細については、例えば非特許 献1乃至3と、特許文献1及び2に記載されてい る。

 図9に示した音声合成装置は、言語処理部 10と、韻律生成部11と、素片選択部16と、音声 素片情報記憶部15と、韻律制御部18と波形接 部19を有する波形生成部17とを備えている。

 音声素片情報記憶部15は、音声合成単位 とに生成された音声素片を記憶する音声素 記憶部152と、各音声素片の属性情報が記憶 れた付属情報記憶部151を有している。

 ここで、音声素片とは、合成音声の波形 生成するために使われる情報で、収録され 自然音声波形から抽出されることが多い。 声素片の例としては、合成単位毎に切り出 れた音声波形そのものや、線形予測分析パ メータ、ケプストラム係数などが挙げられ 。

 また、音声素片の属性情報とは、各音声 片の抽出元である自然音声の音素環境や、 ッチ周波数、振幅、継続時間情報等の音韻 報や韻律情報のことである。

 従来の音声合成装置では、音声合成単位 は、音素、CV、CVC、VCV(Vは母音、Cは子音)な が用いられることが多い。この音声素片の さや合成単位の詳細については、非特許文 1と3に記述されている。

 言語処理部10は、入力されたテキスト文 対して形態素解析や構文解析、読み付け等 分析を行い、音素記号などの「読み」を表 記号列と、形態素の品詞、活用、アクセン 型などを言語処理結果として韻律生成部11と 素片選択部16に出力する。

 韻律生成部11は、言語処理部10から出力さ れた言語処理結果を基に、合成音声の韻律情 報(ピッチ、時間長、パワーなどに関する情 )を生成し、素片選択部16と韻律制御部18に出 力する。

 素片選択部16は、言語処理結果と生成さ た韻律情報に関して適合度が高い音声素片 、音声素片情報記憶部15に記憶されている音 声素片の中から選択し、選択した音声素片の 付属情報と併せて韻律制御部18に出力する。

 韻律制御部18は、選択された音声素片か 、韻律生成部11で生成した韻律に近い韻律を 有する波形を生成し、波形接続部19に出力す 。

 波形接続部19は、韻律制御部18から出力さ れた音声素片を接続し、合成音声として出力 する。

 素片選択部16は、入力された言語処理結 と韻律情報から、目標合成音声の特徴を表 情報(以下、これを「目標素片環境」と呼ぶ )を所定の合成単位ごとに求める。

 目標素片環境に含まれる情報には、該当 先行・後続の各音素名、ストレスの有無、 クセント核からの距離、合成単位のピッチ 波数やパワー、単位の継続時間長、ケプス ラム、MFCC(Mel Frequency Cepstral Coefficients)、 びこれらのδ量(単位時間あたりの変化量)な が挙げられる。

 次に、目標素片環境が与えられると、素 選択部16は、音声素片情報記憶部15の中から 目標素片環境により指定される特定の情報( に該当音素)に合致する音声素片を複数選択 る。選択された音声素片は、合成に用いる 声素片の候補となる。

 そして、選択された候補素片に対して、 成に用いる音声素片としての適切度を示す 標である「コスト」を計算する。

 高音質な合成音声を生成することを目標 しているため、コストが小さい、即ち適切 が高いと、合成音の音質は高くなる。

 従って、コストは、合成音声の音質の劣 度を推定するための指標であると言える。

 ここで、素片選択部16で計算されるコス には、単位コストと接続コストがある。

 単位コストは、候補素片を目標素片環境 基で用いることにより生じる推定音質劣化 を表すもので、候補素片の素片環境と目標 片環境との類似度を基に算出される。

 一方、接続コストは、接続する音声素片 の素片環境が不連続であることによって生 る推定音質劣化度を表すもので、隣接候補 片同士の素片環境の親和度を基に算出され 。

 この単位コスト及び接続コストの計算方 は、これまで各種提案されている。

 一般に、単位コストの計算には、目標素 環境に含まれる情報が用いられ、接続コス には、素片の接続境界におけるピッチ周波 、ケプストラム、MFCC、短時間自己相関、パ ワー、及びこれらの△量などが用いられる。

 なお、ある2つの素片が元音声波形上で連 続している場合には、その素片間の素片環境 が完全に連続なので、接続コストの値はゼロ になる。

 また、合成単位長の素片が元音声波形上 連続している場合には、その連続した素片 「素片長が長い素片」と表現する。

 従って、連続回数が多いほど、素片長は くなると言える。一方、最も短い素片長は 合成単位の長さに相当する。

 接続コストと単位コストを素片ごとに計 したのちに、接続コストと単位コストの両 が最小となる音声素片を各合成単位に対し 一意に求める。

 コスト最小化により求めた素片を、候補 片の中から音声の合成に最も適した素片と て選択されたことから最適素片と呼ぶ。

 素片選択部16は、全合成単位を対象にそ ぞれの最適素片を求めると、最終的に最適 片の系列(最適素片系列)を素片選択結果とし て韻律制御部18に出力する。

 素片選択部16では、上記のように単位コ トが小さい音声素片が選択されることにな ている。

 しかしながら、目標韻律(目標素片環境に 含まれる韻律情報)に近い韻律を有する音声 片が選択されることになるが、目標韻律と 等の韻律を有する音声素片が選択されるこ は希である。

 従って、一般的には、素片選択後に、韻 制御部18において音声素片波形に処理を加 て、音声素片の韻律が目標韻律に一致する うに補正する。

 音声素片の韻律を補正する方法としては 例えば特許文献4により公開されている分析 手法を用いた方法が挙げられる。

 この特許文献4の分析手法によれば、元音 声波形のスペクトル包絡を表す複素ケプスト ラムを求め、複素ケプストラムを表現するフ ィルタを所望のピッチ周波数に相当する時間 間隔で駆動することによって、所望のピッチ 周波数を持つ音声波形を再構成することがで きる。

 また他には、非特許文献4に記載されてい るPSOLA方式が挙げられる。

 但し、韻律の補正処理は、合成音声の低 を招く要因となる。特に、ピッチ周波数の 更が音質低下に与える影響は大きく、変更 が大きければ音質低下度も大きくなる。

 このため、韻律の補正処理に伴う音質劣 が十分小さくなるような基準(単位コスト重 視)で単位選択を行うと、素片の接続歪みが 立つようになる。

 一方、接続歪みが小さくなるような基準( 接続コスト重視)で素片選択を行うと、韻律 御に伴う音質劣化が目立つようになる。

 そこで、接続歪みと韻律制御に伴う音質 化を同時に防ぐ方法として、様々な韻律情 を用意して単位選択を行い、音質劣化が最 小さくなるような韻律と単位選択結果の組 合わせを選択する方法が検討されている。

 例えば、特許文献3では、生成されたピッ チパタンの周波数方向への平行移動と、平行 移動後のピッチパタンを目標とした単位選択 コストの計算を繰り返し、単位選択コストが 最小となる平行移動量と単位選択結果を求め る方法が提案されている。

 また、非特許文献5では、接続歪が小さく なる素片の組み合わせをまず先に求め、その 中から目標韻律に最も適した単位を選択する 方法が提案されている。

 また、非特許文献6では、目標韻律との類似 度最大化と接続歪最小化を基準に素片を選択 し、韻律制御を行わずに合成音声を生成する ことにより、韻律制御に伴う音質劣化を防止 しつつ、接続歪みを低減する方法が提案され ている。

特開2005-91551号公報

特開2006-84854号公報

特開2004-138728号公報

特許第2812184号公報 Huang, Acero, Hon:“Spoken Language Processing” , Prentice H all, pp.689-836,2001. 石川:“音声合成のための韻律制御の基 ”,電子情報通信学会技術研究報告,Vol.100,No.3 92,pp.27-34,2000. 阿部:“音声合成のための合成単位の基 ”,電子情報通信学会技術研究報告,Vol.100,No.3 92,pp.35-42,2000. Moulines, Charapentier: “Pitch-Synchronous Wavefo rm Processing Techniques For Text-To-Speech Synthesis  Using Diphones”,Speech Communication 9, pp.435-467,199 0. Segi,Takagi,Ito:“A CONCATENATIVE SPEECH SYNTHESIS  METHOD USING CONTEXT DEPENDENT PHONEME SEQUENCES WIT H VARIABLE LENGTH AS SEARCH UNITS”, Proceedings of 5th ISCA Speech Synthesis Workshop, pp.115-120, 2004 Kawai, Toda, Ni, Tsuzaki, Tokuda: “XIMERA: A  NEW TTS FROM ATR BASED ON CORPUS-BASED TECHNOLOGIES , Proceedings of 5th ISCA Speech Synthes is Worksho p, pp.179-184, 2004

 以上の特許文献1~4及び非特許文献1~6の開示 項は、本書に引用をもって繰り込み記載さ ているものとする。以下に本発明による関 技術の分析を与える。
 しかしながら、上記した特許文献及び非特 文献等に記載された従来の音声合成装置に するものでは、下記のような問題点を有し いる。

 まず、特許文献3に記載された方法では、 目標韻律のバリエーションが限定されている ため、接続歪みが十分小さくなる素片の組み 合わせを選ぶことが難しく、音質の大きな向 上が望めない、という問題があった。

 また、非特許文献5の方法では、接続歪み の低減には有効な方法であるが、候補数不足 のため韻律的に十分適した素片を見つけられ ず、韻律制御に伴う音質劣化が大きくなる、 という問題があった。

 また、非特許文献6の方法では、接続歪み と韻律制御に伴う音質劣化の双方を十分に低 減するには有効な方法だが、韻律制御を全く 行わないため、合成音声の韻律が乱れやすい 、という問題があった。

 従って、特許文献及び非特許文献に記載 れた音声合成装置に関するものでは、接続 みと韻律制御に伴う音質劣化の双方を十分 低減しつつ、韻律の乱れが小さい合成音声 生成することが困難である、という問題が った。

 本発明は、上記問題点に鑑みてなされた のであり、接続歪みと韻律制御に伴う音質 化の双方を十分に低減しつつ、韻律の乱れ 小さい合成音声を生成することができる音 合成装置、音声合成方法及び音声合成プロ ラムを実現することを目的とする。

 本発明に係る音声合成装置は、複数の音 素片の中から、中心素片を1つ選択する中心 素片選択部と、前記中心素片を基に韻律情報 を生成する韻律生成部と、前記中心素片と前 記韻律情報とを基に中心素片区間以外の素片 である非中心素片を選択する非中心素片選択 部と、前記韻律情報と前記中心素片と前記非 中心素片を基に合成音声波形を生成する波形 生成部とを備えることを特徴とする。

 本発明に係る音声合成方法は、音声合成 置における音声合成方法であって、複数の 声素片の中から、中心素片を1つ選択する中 心素片選択ステップと、前記中心素片を基に 韻律情報を生成する韻律生成ステップと、前 記中心素片と前記韻律情報とを基に中心素片 区間以外の素片である非中心素片を選択する 非中心素片選択ステップと、前記韻律情報と 前記中心素片と前記非中心素片を基に合成音 声波形を生成する波形生成ステップと、を含 むことを特徴とする。

 本発明に係る音声合成プログラムは、音 合成装置における音声合成プログラムであ て、コンピュータを、複数の音声素片の中 ら、中心素片を1つ選択する中心素片選択部 と、前記中心素片を基に韻律情報を生成する 韻律生成部と、前記中心素片と前記韻律情報 とを基に中心素片区間以外の素片である非中 心素片を選択する非中心素片選択部と、前記 韻律情報と前記中心素片と前記非中心素片を 基に合成音声波形を生成する波形生成部とし て機能させることを特徴とする。

 本発明によれば、音声合成装置は、任意 区間における韻律生成の元となる中心素片 先ず先に選択し、その中心素片を基に韻律 報を生成するので、中心素片の区間では接 歪みと韻律制御に伴う音質劣化の双方を十 に低減することができる。

 また、中心素片が選ばれなかった区間に いては、中心素片に基づいて生成された韻 情報に適した素片を選択するため、合成音 の韻律の乱れを小さくできる。

 かくして、接続歪みと韻律制御に伴う音 劣化の双方を十分に低減しつつ、韻律の乱 が小さい合成音声を生成することができる 声合成装置、音声合成方法及び音声合成プ グラムを実現できる。

本発明に係る第1の実施の形態による音 声合成装置の構成を示すブロック図である。 本発明に係る第1の実施の形態による動 作を説明するためのフローチャートである。 本発明に係る第2の実施の形態による音 声合成装置の構成を示すブロック図である。 本発明に係る第2の実施の形態による動 作を説明するためのフローチャートである。 本発明に係る第3の実施の形態による音 声合成装置の構成を示すブロック図である。 本発明に係る第3の実施の形態による動 作を説明するためのフローチャートである。 本発明に係る第4の実施の形態による音 声合成装置の構成を示すブロック図である。 本発明に係る第4の実施の形態による動 作を説明するためのフローチャートである。 従来の一般的な規則合成型の音声合成 置の一例を示した構成図である。

符号の説明

10 言語処理部
11、21、511、512・・・51M 韻律生成部
15 音声素片情報記憶部
16 素片選択部
17 波形生成部
18、28 韻律制御部
19 波形接続部
22、32、42 中心素片選択部
26、561、562・・・56N 非中心素片選択部
27 波形生成部
31 第二韻律生成部
40 重要表現抽出部
52 中心素片候補選択部
151 付属情報記憶部
152 音声素片記憶部
500 中心素片グループ生成部
501 最適素片選択部

 次に、本発明の実施の形態の構成につい 図面を参照して詳細に説明する。

(1)第1の実施の形態による音声合成装置
(1-1)第1の実施の形態による音声合成装置の構 成
 図1は、本発明の第1の実施の形態による構 を示すブロック図である。

 図1に示す本実施の形態による構成では、 先行技術で説明した従来のブロック図である 図9と対比して、韻律生成部11、素片選択部16 び韻律制御部18の代わりに、韻律生成部21、 中心素片選択部22、非中心素片選択部26及び 律制御部28を備えていることを特徴としてい る。

 以下、この相違点を中心に、図1のブロッ ク図を参照しながら、第1の実施の形態によ 音声合成装置の詳細な動作を説明する。

(1-2)第1の実施の形態による音声合成装置の動 作
 図2は、本発明の第1の実施の形態の動作を 明するためのフローチャートである。

 図2のフローチャートを参照すると、中心 素片選択部22は、言語処理部10から供給され 言語処理結果のうち任意の区間(例えばアク ント句や呼気段落など)について、音声素片 情報記憶部15から供給される音声素片情報を に中心素片を選択し、選択した中心素片の 報を韻律生成部21、非中心素片選択部26及び 韻律制御部28に伝達する(ステップA1)。

 ここで、後段の韻律生成部21において韻 情報を生成するために用いられる素片を示 ことから、一般的な素片と区別して該当区 における中心素片と呼ぶ。読みが同一の素 であれば、任意の素片を中心素片に用いる とが可能であるが、高音質を達成する上で ましい条件がいくつか存在する。

 そこで、本実施の形態では、言語処理結 との適合度が高いものの中から、最も長い 片を中心素片として選択する例について説 する。

 言語処理結果との適合度は、入力テキス と音声素片情報記憶部15に記憶されている 声波形の発声内容のそれぞれの言語情報の 致度として定義される。

 具体的には、読みの他に、先行・後続の 素、アクセント句内における位置、アクセ ト核からの相対位置、品詞情報などの一致 が、適合度の指標となる。

 例えば、「走る」の「は」と「箸」の「 」を比較すると、後続の音素は一致してい が、「走る」と「箸」のアクセント型が異 っているので、アクセント核からの相対位 が異なる。

 一方、「走る」の「は」と「橋」の「は を比較すると、後続音素とアクセント核か の相対位置ともに一致している。

 従って、この例では、「走る」の「は」 対して、「橋」の「は」の方が「箸」の「 」よりも言語情報的に一致度が高いと言え 。

 また、本実施の形態で説明する「素片の さ」は、音声素片情報記憶部15に記憶され いる元音声波形上における合成単位長の素 の連続数で定義される。

 一般的には、音声素片は合成単位ごとに いられるが、元音声波形上で連続した素片 使われることもある。

 例えば、合成単位を音節として、「母」 「獅子」と「橋」という発声内容の元音声 形が音声素片情報記憶部15に記憶されてい ときに、「走る」という入力テキストが与 られた場合を想定する。

 「走る」の「はし」を構成するには、「 」の「は」と「獅子」の「し」のそれぞれ 素片を用いることが可能であるが、一方で 橋」の「は」と「し」の素片、すなわち「 し」の素片を用いることも可能である。素 の長さの定義から、「は」や「し」という 片の長さは1であり、「はし」という素片の 長さは2である。

 従って、素片の長さのみを中心素片の選 基準とした場合には、「走る」の入力テキ トに対して「橋」の素片を選択することに る。

 言語処理結果との適合度が高くなるほど 長い素片を選択することが困難になるので 言語処理結果との適合度は、中心素片の選 においては制約条件として利用することが ましい。

 また、最長であっても素片の長さが短い 合には、韻律生成の際に悪影響を与える(ピ ッチパタンならば著しく不自然なパタンの生 成をもたらす)ことがある。

 従って、長さ基準を満たす素片が存在し かった場合には、中心素片を選択せずに、 心素片を選択しなかったことを韻律生成部2 1と非中心素片選択部26に通知する。

 一方、最長の素片が複数出現した場合に 、言語的に重要な箇所を含むものを選択す 方法が有効である。

 例えば、アクセント核の位置が同じもの 、文末や呼気段落末ならばこれらを含むも を優先して選択する。

 韻律生成部21は、言語処理部10から供給さ れた言語処理結果と、中心素片選択部22から 給された中心素片を基に、韻律情報を生成 、非中心素片選択部26と韻律制御部28に伝達 する(ステップA2)。

 ここでは、中心素片が存在する区間(以下 、これを中心素片区間と呼ぶ。)では、中心 片の韻律に類似した韻律が実現されるよう 韻律情報が生成される。韻律制御に伴う音 劣化を最小にするためにも、生成される韻 と中心素片の韻律が完全に一致しているこ が最も望ましい。

 但し、文全体の韻律のバランスに配慮す と、完全一致が不適切な場合もある。

 従って、韻律制御に伴う音質劣化が目立 ない範囲で、ピッチパタンならば周波数方 の平行移動、時間長であれば時間方向の伸 などの韻律変形を行う方法も有効である。

 また、中心素片の韻律に類似したものを 成する目的が、中心素片の韻律制御に伴う 質劣化を小さくすることであるため、中心 片の韻律と大きく異なる韻律情報を生成す ことは避けたほうが良い。

 一方、中心素片が存在しない区間(以下、 これを非中心素片区間と呼ぶ。)では、言語 理結果を基に韻律情報を生成する。

 この際に、中心素片区間と非中心素片区 のそれぞれの韻律が大きく異なると韻律の 然性が大きく損なわれるため、予め生成し 中心素片区間の韻律に合わせて非中心素片 間の韻律情報を生成する必要がある。

 非中心素片区間の韻律情報を生成する方 の例としては、先ず言語処理結果から中心 片区間を含めた韻律情報を生成し、次に中 素片区間の韻律情報を中心素片のものに差 替える方法が挙げられる。

 単純な差し替えでは韻律的な不整合が生 るので、差し替えた後には調整処理が必要 なる。

 調整処理の例として、ピッチパタンの場 には、パタンが滑らかになるようにピッチ タンを変形する方法が挙げられる。

 言語処理結果から韻律情報を生成する方 については、非特許文献1や3に記載されて るような従来から広く一般的に用いられて る方法を採用すれば良い。

 もし、中心素片選択部22から中心素片を 択しなかったことを通知された場合には、 9の韻律生成部11と同様に言語処理結果のみ ら韻律情報を生成する。

 以上の中心素片の選択と韻律情報の生成 、任意の区間ごとに行われる。本実施の形 では、この区間としてアクセント句を用い 例について説明する。

 従って、非中心素片の選択に移行する前 、全てのアクセント句に対して、中心素片 選択(ステップA1)と韻律情報の生成(ステッ A2)が完了したことを確認する(ステップA3)。

 非中心素片選択部26は、言語処理部10から 供給された言語処理結果と、韻律生成部21か 供給された韻律情報と、中心素片選択部22 ら供給された中心素片情報を基に、非中心 区間の素片を選択し、韻律制御部21に伝達す る(ステップA4)。

 非中心素片の選択では、従来方式と同様 、単位コストと接続コストを計算し、両者 最小となる素片列を選択する。

 単位コストの計算は、非中心素片区間、 続コストの計算は非中心素片区間内、及び 心素片区間と非中心素片区間の境界におい 実施する。

 中心素片区間は、既に素片選択が済んで るので、単位コスト及び接続コストの計算 不要である。

 もし、中心素片選択部22から中心素片を 択しなかったことを通知された場合には、 心素片が選択されなかったアクセント句は 非中心素片区間のみで構成されると同等な で、該当区間すべてにおいて単位コスト及 接続コストを計算する。

 韻律制御部28は、韻律生成部21から供給さ れた韻律情報と、中心素片選択部22から供給 れた中心素片情報、及び非中心素片選択部2 6から供給された非中心素片情報を基に、各 片の韻律を制御し、韻律が目標韻律に修正 れた素片を波形接続部19に供給する(ステッ A5)。

 韻律の制御は、中心素片・非中心素片の 別無く、従来方式と同様の方法で実施すれ 良い。

(1-3)第1の実施の形態による音声合成装置の効 果
 本実施の形態によれば、音声合成装置は、 片長が長い素片を韻律生成の元となる中心 片として選択し、選択された中心素片に基 き韻律情報を生成する。

 そして、生成された韻律情報に適した素 を選択する。

 この結果、中心素片が選ばれた区間では その素片を基に韻律情報を生成するため、 律制御に伴う音質劣化が十分小さくなり、 続歪みも殆ど生じない。

 特に、この音声合成装置は、素片長が長 なるほど、接続歪みと音律制御に伴う音質 化を飛躍的に低減することができる。

 一方、それ以外の区間、すなわち非中心 片区間では、中心素片に基づいて生成され 韻律情報に適した素片を選択するため、合 音声の韻律の乱れを回避することができる

(2)第2の実施の形態による音声合成装置
(2-1)第2の実施の形態による音声合成装置の構 成
 図3は、本発明の第2の実施の形態の構成を すブロック図である。

 図3に示す第2の実施の形態の構成は、図1 示した第1の実施の形態の中心素片選択部22 中心素片選択部32に置換されると共に、第 韻律生成部31を更に備えている。

 以下、この相違点を中心に、図3のブロッ ク図を参照しながら、第2の実施の形態によ 音声合成装置の詳細な動作を説明する。

(2-2)第2の実施の形態による音声合成装置の動 作
 図4は、本発明の第2の実施の形態の動作を 明するためのフローチャートである。

 図4のフローチャートを参照すると、第二 韻律生成部31は、言語処理部10から供給され 言語処理結果を基に韻律情報を生成し、中 素片選択部32に伝達する(ステップB1)。

 第二韻律生成部31で生成される韻律情報 、中心素片の選択に利用されるため、韻律 成部21で生成される韻律情報と一致している 必要は無い。

 最も基本的な生成方法は、図9の韻律生成 部11と同様に韻律情報を生成し、そこから中 素片選択に用いる特徴量を抽出する方法で る。

 例えば、ピッチパタンを生成した場合に 、各アクセント句におけるピッチ周波数、 びアクセント句内の最高ピッチ周波数など 生成したピッチパタンから算出し、これら 特徴量との類似度を中心素片の選択基準に いる方法が挙げられる。

 また、時間長を生成した場合には、平均 話速度を選択基準に用いる方法が挙げられ 。

 中心素片選択部32は、言語処理部10から供 給された言語処理結果と、音声素片情報記憶 部15から供給された音声素片情報と、第二韻 生成部31から供給された韻律情報を基に中 素片を選択し、選択した中心素片の情報を 律生成部21、非中心素片選択部26及び韻律制 部28に伝達する(ステップB2)。

 図1の中心素片選択部22とは異なり、中心 片選択部32は、言語処理結果との適合度と 片の長さの他に、韻律情報を用いて中心素 を選択する。

 例えば、先ず、言語処理結果との適合度 素片の長さから、中心素片の候補となる素 を複数用意し、各候補の韻律情報との類似 を選択基準として、最適な中心素片を選択 る。

 そして、候補素片の最高ピッチ周波数と 二韻律生成部31から供給された最高ピッチ 波数の比率を選択基準の指標とする方法が げられる。

 また、候補素片にアクセント句の始端が まれる場合には、候補素片の始端のピッチ 波数と第二韻律生成部31から供給された始 ピッチ周波数の比率を選択基準の指標とす 方法も有効である。

 同様に、候補素片の平均時間長と第二韻 生成部31から供給された平均時間長の比率 差分を指標とすることも可能である。

 また、韻律情報を選択基準に用いる場合 は、言語処理結果との適合度と同様に、中 素片の選択においては制約条件として利用 ることが望ましい。

(2-3)第2の実施の形態による音声合成装置の効 果
 本実施の形態によれば、音声合成装置は、 語処理結果と素片長の他に、韻律情報も中 素片の選択に利用している。

 その結果、第1の実施の形態と比較して、 韻律生成部で生成される韻律情報の品質が向 上することになり、合成音声の韻律の乱れを 低減することができる。

(3)第3の実施の形態による音声合成装置
(3-1)第3の実施の形態による音声合成装置の構 成
 図5は、本発明の第3の実施の形態の構成を すブロック図である。

 図5に示す第3の実施の形態の構成は、図1 示した第1の実施の形態の中心素片選択部22 中心素片選択部42に置換されると共に、重 表現抽出部40を更に備えている。

 以下、この相違点を中心に、図5のブロッ ク図を参照しながら、第3の実施の形態によ 音声合成装置の詳細な動作を説明する。

(3-2)第3の実施の形態による音声合成装置の動 作
 図6は、本発明の第3の実施の形態の動作を 明するためのフローチャートである。

 図6のフローチャートを参照すると、重要 表現抽出部40は、言語処理部10から供給され 言語処理結果を基に、入力されたテキスト 中でキーワードや入力テキストの印象や意 を特徴づける表現を抽出し、中心素片選択 42に伝達する(ステップC1)。

 そして、テキスト中に含まれる重要語や テキストの内容を特徴付ける表現などを、 語処理結果から抽出する。

 また、入力テキストを直接解析して、重 表現の抽出に活用することも有効である。

 重要表現は、入力テキストの内容に応じ 異なることが多い。

 例えば、天気予報の内容ならば、「晴れ 曇り・雨」という天気を表す単語や、降水 率の値などが重要表現として挙げられる。

 従って、入力テキストの意図や内容の推 を重要表現抽出部40において行えば、重要 現の抽出精度が向上する。

 中心素片選択部42は、言語処理部10から供 給された言語処理結果と、音声素片情報記憶 部15から供給された音声素片情報と、重要表 抽出部40から供給された重要表現情報を基 中心素片を選択し、選択した中心素片の情 を韻律生成部21、非中心素片選択部26及び韻 制御部28に伝達する(ステップC2)。

 ここで、中心素片を検索する際に、重要 現に一致する素片が存在すれば、素片長が くても中心素片として優先的に選択する。 に、合成音声の内容理解度を改善するため は、重要表現を優先的に中心素片にするこ が有効である。

(3-3)第3の実施の形態による音声合成装置の効 果
 本実施の形態によれば、音声合成装置は、 語処理結果と素片長の他に、入力テキスト から抽出した重要表現を中心素片の選択に 用している。

 その結果、第1の実施の形態と比較して、 合成音声の発声内容の中で重要な単語や表現 の箇所の音質が向上し、合成音声の内容理解 度を向上させることができる。

(4)第4の実施の形態の音声合成装置
(4-1)第4の実施の形態による音声合成装置の構 成
 図7は、本発明の第4の実施の形態の構成を すブロック図である。

 図7に示す第4の実施の形態の構成は、図1 示した第1の実施の形態の中心素片選択部22 韻律生成部21、及び非中心素片選択部26が、 中心素片候補選択部52、韻律生成部511、512・ ・51M、及び非中心素片選択部561、562・・・5 6Nに置換されると共に、中心素片グループ生 部500と最適素片選択部501とを更に備えてい 。

 以下、この相違点を中心に、図7のブロッ ク図を参照しながら、第4の実施の形態によ 音声合成装置の詳細な動作を説明する。

(4-2)第4の実施の形態による音声合成装置の動 作
 図8は、本発明の第4の実施の形態の動作を 明するためのフローチャートである。

 図8のフローチャートを参照すると、中心 素片候補選択部52は、言語処理部10から供給 れた言語処理結果と、音声素片情報記憶部15 から供給される音声素片情報を基に、中心素 片になりうる候補素片を複数選択し、韻律生 成部511、512・・・51Mに伝達する(ステップD1)

 ここで、第1の実施の形態では、語処理結 果との適合度を制約条件として、最長の素片 を中心素片として選択していたが、本実施の 形態では素片の長さを選択基準にしつつも、 複数の中心素片候補を選択する。

 その際、候補数が事前に定めた値(本実施 例ではM)を満足するまで、素片長が長いほう ら順番に候補素片として選択する。

 但し、単純に長いほうから順番に候補素 を選び出すと、ある特定の素片の部分素片 候補の大多数を占めることになる場合があ 。

 例えば、長さLの素片から、長さL-1の素片 は2種類、長さL-2の素片は3種類を選択するこ ができる。

 ここで、長さL-1の素片や長さL-2の素片の とを、長さLの素片の部分素片と呼ぶ。

 ある素片の部分素片の韻律(先ほどの例の 場合では、長さL-1の素片や長さL-2の素片)は どれも類似のものになる可能性が高いため もし韻律的に好ましくない素片から数多く 部分素片が候補素片に採用された場合には 合成音声の品質に悪影響を与える可能性が い。

 従って、韻律の異なる様々な素片を中心 片の候補とするためにも、部分素片の種類 は、ある程度制限することが望ましい。

 本実施の形態では、候補数がMに設定され ているが、必ずしもMになるまで候補素片を 択する必要は無い。つまり、素片の長さが すぎて中心素片としての基準を満たさない 片は、候補から除外する。

 韻律生成部511、512・・・51Mは、言語処理 10から供給された言語処理結果、中心素片 補選択部52から供給された中心素片を基に韻 律情報を生成し、中心素片と韻律情報を中心 素片グループ生成部500に伝達する(ステップD2 )。

 韻律生成部511、512・・・51Mでは、各中心 片候補に対して、韻律情報をそれぞれ生成 る。韻律情報の生成方法は、図1の韻律生成 部21と同様である。

 以上の中心素片の選択と韻律情報の生成 、任意の区間ごとに行われる。本実施の形 では、この区間としてアクセント句を用い 例について説明する。

 従って、中心素片グループの生成に移行 る前に、全てのアクセント句に対して、中 素片候補の選択(ステップD1)と韻律情報の生 成(ステップD2)が完了したことを確認する(ス ップD4)。

 中心素片グループ生成部500は、韻律生成 511、512・・・51Mから供給された韻律情報及 中心素片を基に中心素片グループを生成し 生成した各グループの韻律情報と中心素片 非中心素片選択部561、562・・・56Nに伝達す (ステップD5)。

 ここで、本実施の形態では、単位コスト 接続コストの計算を呼気段落毎に行う例に いて説明する。この場合、非中心素片の選 は、単位コストと接続コストを計算する必 性から、アクセント句単位ではなく呼気段 単位で行われる。

 従って、本実施の形態のように、各アク ント句に複数の中心素片が候補に挙げられ いる場合には、呼気段落を形成する上で考 られうる中心素片の組み合わせが複数存在 ることになる。

 例えば、2つのアクセント句で構成される 呼気段落において、第一アクセント句で中心 素片候補が3つ、第二アクセント句で中心素 候補が2つ存在する場合には、中心素片候補 組み合わせ数は6通りになる。

 全ての中心素片候補の組み合わせ(この例 では6通り)において素片選択を実施するため 、中心素片グループ生成部500では、全ての 心素片の組み合わせを生成し、各組み合わ に対してグループ番号を付与して、韻律情 と中心素片と共に各非中心素片選択部に伝 する。

 Nの値は、全ての中心素片候補の組み合わ せ数に相当し、呼気段落に含まれるアクセン ト句数と各アクセント句の中心素片候補数の 値に応じて変化する。

 非中心素片選択部561、562・・・56Nは、言 処理部10から供給された言語処理結果、音 素片情報記憶部15から供給される音声素片情 報、中心素片グループ生成部500から供給され た各中心素片グループの韻律情報と中心素片 を基に、非中心素片を選択し、各グループの 韻律情報、中心素片、非中心素片、そして非 中心素片を選択した際に得られた素片選択コ ストを、最適素片選択部501に伝達する(ステ プD6)。

 コストの計算方法及び非中心区間の素片 選択方法は、図1の非中心素片選択部26と同 である。

 最適素片選択部501は、非中心素片選択部5 61、562・・・56Nから供給された各グループの 片選択コストを基に、最適な中心素片と非 心素片の組み合わせを選択し、韻律情報と に韻律制御部28に伝達する(ステップD8)。

 素片選択コストが小さいほど合成音声の 質が高くなると考えられるので、素片選択 ストが最小のグループの中心素片と非中心 片を、最適素片として選択する。

(4-3)第4の実施の形態による音声合成装置の効 果
 本実施の形態によれば、音声合成装置は、 心素片の候補を複数選択して、それぞれの 補に対して、韻律情報を生成し非中心素片 選択を行う。そして、非中心素片の選択コ トを基に、最適な中心素片及び非中心素片 選択する。

 すなわち、非中心素片の選択コストを中 素片の選択に利用しているという特徴があ 。

 その結果、第1の実施の形態の場合と比較 して、非中心素片区間の品質改善につながる 中心素片を選択することが可能になり、合成 音声全体の品質が向上する。

(5)他の実施の形態について
 本発明による実施の形態は、第1の実施の形 態から第4の実施の形態で説明した音声合成 置に限定されるものではなく、その構成お び動作は、発明の趣旨を逸脱しない範囲で 適宜に変更することができる。

 また、本発明による実施の形態は、発明 構成及び動作を中心に説明したが、本発明 よる実施の形態の機能または手順を、コン ュータが読み取り可能なプログラムによっ 実現・実行させるようにしても良い。

 以上本発明を上記実施例に即して説明した 、本発明は、上記実施例にのみ限定される のではなく、本願特許請求の範囲の各請求 の発明の範囲内で当業者であればなし得る あろう各種変形、修正を含むことは勿論で る。
 本発明の全開示(請求の範囲を含む)の枠内 おいて、さらにその基本的技術思想に基づ て、実施形態ないし実施例の変更・調整が 能である。また、本発明の請求の範囲の枠 において種々の開示要素の多様な組み合わ ないし選択が可能である。