第17回LSIデザインコンテスト・イン沖縄  設計仕様書 - 1

1. ノイズ除去アルゴリズム

ノイズ除去の手法としては,複数のマイクロホンを用いて雑音を取り除くマイクロフォンアレー手法や 未知経路推定を行う適応フィルタリングを用いて雑音を取り除く手法等数多くの手法が提案されているが, 今回は周波数領域で雑音除去を行うスペクトル・サブトラクション法(SS法)を用いた雑音除去システムを実装する.
去年と異なるのは,1-1頁とは別に効率的なアルゴリズムを導入したことである.

1-1. スペクトルサブトラクション法

ここでは,雑音除去アルゴリズムについて説明する.本システムでは周波数領域での雑音除去を行う. 図1に雑音除去アルゴリズムの構成図を示す.

Figure 1

図1

まず,観測信号が音声とノイズの和で与えられると仮定する.時刻nにおける観測信号,音声,ノイズを それぞれx(n),s(n),d(n)とする.このとき観測信号x(n)は次式で表せる.

Equation 1

ただし,音声とノイズは無相関であると仮定する.

次に,周波数領域での雑音除去のため,観測信号の離散フーリエ変換(DFT) を行う. DFT後の第lフレームにおける,フレームの先頭からk番目の観測信号スペクトルX(l,k)は次式で与えられる.

Equation 2

ただしS(l,k),D(l,k)はそれぞれ音声と雑音のスペクトルである.ここで観測信号スペクトルX(l,k)から, 以下のように音声スペクトルの推定値を求めることを考える.

Equation 3

G(l,k)はスペクトルゲインであり,観測信号スペクトルに適当なスペクトルゲインを乗じたものが,推定信号スペクトルとなる. 理想的なは音声とノイズのスペクトルX(l,k),D(l,k)を用いて,次式のように与えられる.

Equation 4

式(4)を式(3)に代入すると,理想的なスペクトルゲインとして,次式が得られる.

Equation 5

この時,音声スペクトルを完全に取り出すことができる.しかしながら,X(l,k)の情報だけでは雑音スペクトルD(l,k)を求めることはできない. そこで,SS法では非音声区間のL個のフレームを用いて,ノイズ・スペクトル推定値を次式で求める.

Equation 6

SS法をScilab上でシュミレーションした結果を以下に示す. プログラムファイル (SS_Method.zip)はここからダウンロードできる.

Figure 2a

(a)Input Signal

Figure 2b

(a)Output Signal

図2



1-2. 可変音声分布を利用したMAP推定法

本年度新たに導入するアルゴリズムである.それに伴い7.ダウンロード内の"DL_file_ver3.zip"には関連するファイル(MAP_Method.zip)を同梱している.

1-2-1. MAP推定法

MAP推定では次式により音声スペクトルの推定値を得る.

Equation 7
Equation 8
Figure 3

図3

ウィーナー・フィルタのMAP推定値を得るために,音声スペクトルSとノイズ・スペクトルDのPDFが,いずれも次のガウス分布で与えられると仮定する.

Equation 9
Equation 10

X=(定数)+Dと考えることができる.ノイズDの発生確 率がSに無関係であるとすると,

Equation 11

Equation 12

εを次のように定義し,このεを最大にするSを求める.

Equation 13

Sは次のように書き換えられる.

Equation 14

振幅|S|と位相∠Sが統計的に独立であると仮定する.このとき

Equation 15

をそれぞれ解くことで,音声スペクトルの推定値を次のように得る.

Equation 16
Equation 17

(16),(17)式より

Equation 18

よって,次のスペクトルゲインが得られる.

Equation 19

ここで,γ,ξを次のように定義する.

Equation 20

・Decision-Directed法

Equation 21

βは平均をとる割合を決める定数であり,標準的には0.98が用いられる.また,右辺最後の{γ(l)?1}が負とならないよう,実際には次式を用いる.

Equation 22

・MAP推定法

ほとんどの音声信号はガウス分布よりもレイリー分布に従う.

Equation 23
Figure 4

図4

ノイズについては実部と虚部が無相関でそれぞれ半分ずつの分散を持つガウス分布に従うと仮定すると,次式のようになる.

Equation 24

音声の振幅および位相スペクトルに対して(13)〜(19)式の手順でMAP推定を行うと,次のスペクトルゲインが得られる.

Equation 25

l,kはそれぞれフレーム番号,スペクトル番号である.

1-2-2. T.LotterとP.Varyの音声スペクトル分布

T.LotterとP.Varyによって提案された音声スペクトルのPDF(確率密度関数)は有用なものの一つである.

彼らによると,位相スペクトルは一様分布,振幅スペクトルは次の関数で近似表現できる.

Equation 7

Γ(・)はガンマ関数であり,μ,νは分布の形状を決めるパラメータである.式(7)で与えられるPDFを図3に示す.

Figure 5

図5

Figure 6

図6

Lotterらの分布を用いてMAP推定値を求めれば,次のスペクトル・ゲインが得られる.

Equation 8

ただし,l,kはそれぞれフレーム番号,スペクトル番号であり,

Equation 9

である.本方式において,位相スペクトルのMAP推定値は,観測信号の位相スペクトルに一致することが示されている.

1-2-3. 可変音声分布

Lotterらによって提案された分布関数は,パラメータを固定値としているため,そのPDFの形状は常に一定である. しかし,実際の音声には,休止区間や,音声の始まりや終わり付近に見られる小さいレベルの音声成分も多く含まれている. そして,これらの区間においては,音声振幅スペクトルのPDFは,0だけが出現するデルタ関数か, または指数分布に近い形となるはずである.一方,音声が存在する区間だけに注目すると, 音声振幅スペクトルのPDFは,レイリー分布に近い形状となることが確認されている.音声PDFが変化する様子を図5に示す.

Figure 7

図7

音声スペクトル分布の形状を,音声区間と非音声区間で適応的に変化させる方法を,ここでは可変音声分布(variablespeechPDF)方式と呼ぶ.

Lotterらによって導かれた式(7)は,パラメータνのとり方によって,指数分布からレイリー分布までを近似できる. この様子を確認するため,νを変化させた場合に式(7)が与える分布曲線を図6に示す.ただし,μ=3.2に固定している.

Figure 8

図8

式(7)は,ν=0.0のときに指数分布に一致し,ν=2.0のときはレイリー分布に近似する.つまり,非音声区間ではν→0.0とし,音声が存在する区間ではν→2.0とすれば実際の音声PDFの変化を近似できると考えられる.

可変音声分布に基づくスペクトル・ゲインは,Lotterらのスペクトル・ゲインのパラメータを可変にすることで得られる.

Equation 10

ここで,可変音声分布を実現するν(l,k)は各フレームの音声の大きさをSNRで評価して決定する.ν(l,k)を決定するためのアルゴリズムは次式で与えられる.

Equation 11
Equation 12

ここで,NはFFTスペクトルの数(フレーム長と同じ)であり,αはν~(l,k)の大きさを調整するパラメータである.式(11)と式(12)から分かるように,ν~(l,k)は,観測信号スペクトル全体の事後SNRに基づいて適応的に変化する.


可変音声分布を利用したMAP推定法をScilab上でシミュレーションした結果を以下に示す.プログラムファイル(MAP_Method.zip)はこちらのDL_file_ver3.zipに同梱されている.

Figure 9

図9

参考文献

[1] T. Lotter,P. Vary,『Speech enhancement by MAP spectral amplitude estimation using a super-Gaussian speech model』,EURASIP Journal on Applied Signal Processing,2005.

[2] 川村新,黒崎正行, 『大容量化するマルチメディア・データを転送・保存・活用するために ディジタル音声&画像の圧縮/伸張/加工技術』,尾知博監修,CQ出版社,2013.