声紋抽出と音声認識
「明日の降水確率は50%です」。ニュースでアナウンサーがこう言った時、 私たちは通常、その声の特徴は意識せず、語られる内容だけに関心を持ちます。 特定のアナウンサーによほど思い入れがあれば別ですが、誰が担当しても予報 内容は同じはずですから、重要なのはその意味だけなのです。一方、夜に突然 携帯に掛かってきた電話であれば、相手の「もしもし」という声がすごく気に なります。待ち焦がれていた恋人からのコールなのか借金返済の催促なのか、 恐らく全神経を集中させ、名乗るより早く相手を聞き分けようとするでしょう。 このように人間の言葉というのは、内容と話者特徴という2種類の情報を持っ ているのです。いや正確には、感情という情報も持っています。同じ人が同じ 「バカ」という言葉を発しても、怒っているのか呆れているのか、あるいは親 近感を持っているのか愛情たっぷりに甘えているのか、色々な可能性があるわ けです。しかし感情という情報は人間ですら時として気づかないくらい複雑な ものですから、ここでは除外し、内容と話者特徴だけを考えましょう。
生体認識で用いる声紋抽出というのは、このうち内容を切り離して話者特徴 だけを拾い出すものです。どんな周波数の波がどのくらい含まれているか、と いったことです。ちなみに話者特徴の中には、イントネーションやなまりなど 声紋には属さないものもあります。どんな言葉であれば声紋抽出がより容易か といった違いはありますが、基本的には内容と関係なく行われるものです。
一方、音声認識という技術があります。狭義にいえば、日本語であれば話さ れた音声情報の中から「ホンジツワセイテンナリ」といった仮名内容を抽出す ることです。広義にいえば「本日は晴天なり」といった意味を反映したコード に置き換えることです。そこでは声が高いか低いか、早口なのかゆっくりなの か、といった特徴は通常捨象されます。ただし実際にはその捨象が一筋縄では いかず、こういう声を出す人だとあらかじめわかっている場合(特定話者)の 音声認識に比べ、声の特徴が不明の場合(不特定話者)の音声認識ははるかに 難しいのが普通です。
このように、音声情報から内容を無視して話者特徴だけを知るのが声紋抽出 であり、話者特徴を無視して内容だけを知るのが音声認識です。両者は対照的 な技術であるといえます。
sponsored link
このページ
のTOPへ


