Allion Labs / Franck Chen

前回では主流のスマートテレビ音声アシスタントに関するトレンドや、問題点、潜在的なリスク、アリオンの実測環境などをご紹介しました。この記事では実測テストの結果と分析を公開します。

前回にも紹介されましたが、テストプランは以下の通りです。

1. 音声アシスタントの応答速度と安定性テスト

2. 音声アシスタントの実行率と正解率のテスト – シンプルなシナリオ

3. 音声アシスタントの実行率と正解率のテスト – 普通のシナリオ

[Test-1] 音声アシスタントの応答速度と安定性テスト

 テストシナリオ 

[Step-1] テレビのホーム画面で<音声ボタン>を押す

[Step-2] テレビに音声アシスタントインターフェースを表示する

 測定項目 

[Step-1]の「<音声ボタン>を押す」から[Step-2]の「テレビに音声アシスタントインターフェースが表示される」までの時間。この手順で繰り返し、合計300回を実行する。

 測定結果 

 分析 

1. 平均反応速度

⇨パフォーマンスが最も良かったもの:A社 TV – Alexa

推奨される応答感度値(1,000ミリ秒)を下回る唯一の組み合わせであり、UI表示を含む全体的な応答は非常に速く直感的です。

⇨パフォーマンスが最も悪かったもの:L社 TV – AI ThinQ

多くのデータで1,500ミリ秒に近いかそれを超えています。一般ユーザーが遅延に気付くのに十分な限界値に達しており、全体的にスムーズさを改善する必要があります。

2. 異なるテレビのオペレーティングシステムでの同じ音声アシスタントの比較

Alexaを例にすると、M社 TVの平均1,234ミリ秒のパフォーマンスは、A社 TVの平均446ミリ秒のパフォーマンスよりもはるかに悪いです。したがって、全体的な応答速度は、主にテレビの性能と設計によるものと推測できます。また、同じ音声アシスタントシステムが異なるシステムで同じように機能するわけではないため、消費者は購入時に特に注意する必要があります。

[Test-2] 音声アシスタントの実行率と正解率のテスト – シンプルなシナリオ

 テストシナリオ 

[Step-1] テレビのホーム画面で<音声ボタン>を押して音声アシスタントを起動する

[Step-2] 「YouTubeに移動」と音声入力してから10秒待つ

[Step-3]  <ホーム>キーを押して、テレビのホーム画面に戻る

 測定項目 

[Step-1] 音声アシスタントが正しく起動するか[Step-2] 音声アシスタントでYouTubeが適切に起動するか

 測定結果(300回) 

 分析 

1. 結論

⇨パフォーマンスが最も良かったもの:M社 TV-Bixby/Alexa

各グループの音声アシスタントの実行率と正解率は 95%以上という要件を満たしています。中でも、M社 TV-Bixby/Alexaが最高のパフォーマンスを発揮し、エラーも発生しませんでした。

⇨パフォーマンスが最も悪かったもの:A社 TV-Alexa

A社 TV-Alexaのエラーが最も多く(6回)、「音声アシスタントが起動しない」という深刻な問題が4回連続で発生しました。ユーザーがこうした状況に遭遇すれば、非常に悪いユーザーエクスペリエンスになります。

2. 異なるテレビのオペレーティングシステムでの同じ音声アシスタントの比較

Alexaを例にとると、M社 TVのパフォーマンスはA社 TVのパフォーマンスよりも優れています。また[テスト 1]で述べた様に、同じ音声アシスタントが異なるテレビシステムで同じように動作するわけではありません

影響する可能性のある要因には、各リモコンの電波受信能力、音声データの送信能力、テレビシステム/UIデザインや耐干渉能力など、音声アシスタントの全体的なパフォーマンスを低下させる要素が含まれます。メーカーは音声アシスタントだけの能力に頼って開発するのではなく、テレビを使った実際の使用シーンによってテストする必要があります。

 実測テストで発見した問題点(一部) 

  • S社 TV-Google Assistant

音声コマンド「YouTube へ」は何度か認識されましたが、次のアクションが続きません。

  • A社 TV-Alexa

音声アシスタントが数回起動した後、実行エラーが発生しました。

上記の最もシンプルなシナリオで検証した後、いくつかの問題が発生し、違いが分かり始めました。以下の様に、より複雑なユーザーシーンで更に一歩踏み込んだテストを行ったところ、予期しない結果が得られました。

[Test-3] 音声アシスタントの実行率と正解率のテスト – 普通のシナリオ

 テストシナリオ 

[Step-1] テレビの電源を切って5分待つ

[Step-2] テレビの電源を入れて30秒待つ

[Step-3] <音声>ボタンを押し「Open Netflix」と音声入力してから10秒待つ

[Step-4] <音声>ボタンを押して「YouTubeへ」と音声入力し30秒待つ→[Step-1]へ

 測定項目 

1st Accuracy -上記の[Step-3]: 音声アシスタントを正常に起動でき、音声アシスタントを介してNetflixを正しく起動できるかを確認

2nd Accuracy -上記の[Step-4] : 音声アシスタントを正常に起動でき、音声アシスタントを介してYouTubeを正しく起動できるかを確認

 測定結果(100回)

 分析 

1. 結論

⇨パフォーマンスが最も良かったもの:A社 TV – Alexa、S社 TV – Google Assistant

両者の性能はいずれも遜色なく、起動後の1回目の音声コマンドの正解率は基準に達し、2回目の音声実行もエラーは発生しませんでした。

⇨パフォーマンスが最も悪かったもの:L社 TV – AI ThinQ、M社 TV – Bixby

  • L社 – AI ThinQ

1回目の音声コマンドの正解率は76%に過ぎず、2回目の音声コマンドの正解率は82%に増加しましたが、基準の95%にはまだほど遠い結果です。

■「音声アシスタントが起動しない」というメインの問題の他に、「音声認識はできるが、実行結果が間違っている」という問題が何度も発生しています。

  • M社 TV – Bixby

1回目の音声コマンドの正解率はわずか1%ですが、その主な理由は、テレビの電源を入れて30秒待って音声アシスタントを起動すると、ロード中に関連するメッセージが引き続き表示されて使用できず(左下の写真)、1回目の音声コマンドはほとんど失敗しました。「Go on, I’m ready」(右下の写真)と表示されても、実際は認識しないことがありました。

2つ目の音声コマンドの正解率が91%と大幅に向上しましたが、何度も音声アシスタントを起動しているのに(左下の写真)、認識も実行もできない(右下の写真)ため、全体的な実行精度が91%に留まり、要件である95%より低い結果となりました。

結果とランキング

現在のランキングは、A社 TV-Alexaがトップで、L社-AI Thinqは最下位です。

追加した試験

この中でL社とM社のパーフォーマンスは普通のシナリオ検証において大きな問題があることがわかりました。これに対し、不具合の原因を把握できるよう、次に[Test-3]にある「[ステップ-2]テレビの電源を入れて30秒待つ」の手順を、40秒または60秒に延長して検証してみます。

 結果分析 

[Test-3]にある「[ステップ-2]テレビの電源を入れて30秒待つ」の手順を、40秒または60秒に延長して検証します。

  • L社 – AI ThinQ

起動後の待機時間を40秒または60秒に延長した後、音声コマンドは1回目でも2回目でも、全体的な正確性は明らかに向上せず、基準である95%に達していません。テレビの電源をオフ/オンにする全体的なプロセスが、音声アシスタントの機能に影響を与えることを示しています。

  • M社 TV – Bixby

1. 電源を入れた後の待ち時間を40秒に延長した後

⇨1回目の音声コマンド:音声アシスタントの長すぎるロード時間が大幅に減少しますが、これに伴い起こる問題として、音声アシスタントが音声を認識できず、全体の正解率は0%でした。

⇨2回目の音声コマンド:音声アシスタントが認識できない問題は大幅に軽減されましたが、全体の正解率は89%であり、まだ必要な基準(95%)を下回っています。

2. 電源を入れた後の待ち時間を60秒に延長した後

⇨1回目の音声コマンド:音声アシスタントのロード時間が長すぎる問題は一回だけ発生しましたが、これに伴い起こる問題として、音声アシスタントが音声を認識できず、全体の正解率は0%でした。

⇨2回目の音声コマンド:音声アシスタントが認識できない問題は二回だけ発生し、全体の正解率は97%と、基準(95%)を満たしています。

  • M社 TV – Alexa

⇨1回目の音声コマンド:音声アシスタントを起動できない、あるいは、音声認識はできるが実行結果が間違っているという問題が発生し、同様に全体の正解率は0%でした。

⇨2回目の音声コマンド:問題は発生せず、音声コマンドの正解率が100%と大幅アップしました。

上記の検証から、M社 TVで電源をオフ/オンにした後、BixbyとAlexaのどちらを使用するかに関わらず、最初の音声アシスタント機能に問題があるとほぼ結論付けることができます。A社 TV-Alexaの実測結果を比較すると、同じ音声アシスタントが、異なるテレビシステムで同じように動作するわけではないということが、もう一度証明されました。

テレビ関連検証・評価テストを検討されるお客様へ

上記のシンプルな実験例から、精密測定の実行もしくは製品に潜む深刻で見つけにくい問題に対して、自動化ツールを適用する必要性に加えて、シナリオテストの策定も重要です。この2つは必ずセットでなければなりません。

音声アシスタントが大きく関連するスマートテレビが、スマートかどうかは非常に重要なポイントです。アリオンには、自動化ツールの開発能力と、豊富なテスト経験があり、全面的なシナリオソリューションを提案することができます。

関連の検証テストサービスについてより詳しい情報をお求めの場合は、アリオンのお問い合わせフォームよりお気軽にご連絡ください。

▼あわせて読みたい▼

劇的な結果!?スマートテレビ音声アシスタント大戦(上)