受聴品質の知覚的観客的分析

現在の通信ネットワークでは多種多様な音声サービスが提供されており、日常の生活にとって不可欠なものとなっています。そのため、急速に発展する通信システムにおいて、音声品質を如何に確保するかが重要な課題となっており、ユーザーに快適なサービスを提供するためには、音声品質の評価方法が肝心なキーポイントとなっています。

あわせて読みたい：音の良し悪しを見分ける！音響テストのご紹介

音声品質評価の応用については、ITUワークショップでOPTICOM社から提供された情報（下図）をご参照ください。

音声品質の評価方法

音声品質の評価方法には大きく分けて二種類あります：

主観品質評価法
客観品質評価法

主観品質評価法（subjective assessment）

従来の主観品質評価法は、複数の被験者を集めて、あらゆる音響信号の断片の音質を判定してもらいます。通常、判定基準は1から5の間の数値で表されます。それぞれの判定基準の点数を全て足して被験個体数で除した結果が平均オピニオン評点（MOS）の値となります。

被験者を集める試験はコストも高く時間もかかりますが、音響心理学モデル（PESQまたはPOLQA）を用いた計算方法でそれらの制限を克服することができます。正しく使用できれば、これらのモデルは人間による試験結果にほぼ一致します。このような試験自動化は、開発の過程において高速な反復検証と効果的な生産ライン検証をもたらします。得られた測定結果は、人間の気質によるばらつきや測定条件の影響を受けないため、客観的な結果に分類され、高い再現性を持ちます。

主観品質評価法は、多くの被験者と時間が必要になり、コストが膨大になります。それに比べ客観品質評価法は機器を使用しているため、そのような問題はありません。

PESQとは

PESQ（Perceptual Evaluation of Speech Quality）は通信システムや音声エンコードに用いられていた前世代のエンドツーエンド音声品質評価の客観的音声品質評価法であり、ITU-R勧告 P.862として標準化されていましたが、その制限性から、国際電気通信連合ITUによりPOLQA（Perceptual Objective Listening Quality Analysis）と呼ばれる「受聴品質の知覚的客観的分析」ITU-T勧告P.863が新しく標準化されました。

その中の「知覚的」というのは演算法を用いて、人間が聴いた主観的な得点を推定しています。PESQからのPOLQAの主な改良内容は：

POLQAはデバッグを含む現代のコーデック動作が考慮されています。PESQはコーデック動作を対象としていないだけでなくIPネットワークをベースとした設計でもありません。
PESQでは7kHz以上の音声を評価できません。（Opusのような、現在主流の広帯域コーデックは8kHzです）
PESQは「時間の歪み」（デバッグされた可変速度）を正確に解決することができないため、WBコーデックに悲観的な点数をつける傾向にあります。POLQAは時間の歪みを追跡し、歪みが発生するタイミングで実態を表す点数を出せます。

PESQとPOLQAの起源はITU-Tの客観的音声品質測定シリーズです。このシリーズは1997年のP.861 (PSQM)から始まり、2001年にP.862 (PESQ)に代替わりしました。最初は狭帯域ネットワークの測定のために開発されましたが、その後、WebRTCやIP電話に対応するため、2010年にITU-T勧告P.863のPOLQAに発展しました。

受聴品質の知覚的客観的分析のアルゴリズム

参照信号と劣化信号をそれぞれ受信設備（スマホ）の伝送特性に基づいてアライメントとフィルタリングを行います。2つの信号の時間をアライメントし、遅延、振動および音声ネットワークにおいて発生するエンコードの小幅な時間偏移を補正します。このモデルはアライメントとフィルタリングした2つの信号を時間周波数領域から音声信号領域に変換（聴覚変換）し、人間が聴く時に感知できる歪みを解決します。

2つの信号に対して分析を行い、音声品質の点数を導き出しています。聴覚の差異は時間に伴い蓄積され、信号に歪みを加えたかどうか、または転送後に一部の信号を失ったか（例えばドロップアウト）どうかによって加重が異なります。

最後に、分析後に平均オピニオン評点(MOS)を作成します。MOSは通常音声の品質を1(最も音質が悪い)から5(最も音質が良い)で表します。

アリオンのPOLQAサービス

アリオンのPOLQAサービスはAudio Precisionソリューションを採用し、以下の特性を提供しています：

ITU-T P.863音声品質知覚評価をMOSに反映
狭帯域、広帯域、超広帯域操作
オーディオコネクタ兼用
入力：8、16または48 kHzサンプリングの16bit線形音声信号で長さが6から12秒の音声ファイルを入力可能
測定：

-　瞬間MOS：時間に伴い変化するMOS曲線図

-　平均MOS値（音声活動期および静音期を含む）

-　順次処理：順次に各サンプリング音声ファイルのMOS値を評価

これらの測定能力はワイヤレスイヤホン、スマートイヤホン、スマートフォンなどの製品の音声通信品質に対して、非常に役に立ちます。

関連の検証テストサービスについてより詳しい情報をお求めの場合は、アリオンのお問い合わせフォームよりお気軽にご連絡ください。

【参考リンク】

Post Views: 3,959