音声は、人類が誕生して以来、最も重要なコミュニケーション手段であり、文化や知識、感情を共有するための基盤でした。人と人との対話は、ただ言葉を伝えるだけでなく、声のトーンや抑揚によって感情や意図を伝える手段としても欠かせません。時代が進み、デジタル技術が発展する中でも、この「声」の力は、リモートワークやビデオ会議の普及によって、ますます重要性を増しています。
しかし、誰もが一度は、オンライン通話中に声が途切れたり、音質が突然悪化して聞き取りにくくなるという経験をしたことがあるでしょう。従来の音声コーデックは、ネットワークの状態に敏感であり、通信環境が悪化すると音質が劣化したり、音声が途切れることで、コミュニケーションが断絶されてしまうケースがありました。このようなトラブルは、ビジネスの重要な会議や、家族や友人との大切な会話の場面では、ストレスやフラストレーションの原因となりがちです。
こうした課題に応えるべく登場したのが、ニューラルネットワークを活用した次世代音声圧縮技術「Webex AI Codec」です。従来の音声圧縮技術は、音声データを単純に圧縮し、通信量を減らすだけでしたが、Webex AI Codec は AI によるニューラルネットワークを利用し、音声の特性を学習・解析することで、必要な情報を効率的に保持しつつデータ量を抑えることが可能です。このニューラルネットワークがもたらす圧縮技術により、音質を保ちながらもネットワークの影響を受けにくい、安定した音声品質を提供します。
なぜこのような技術が、これからの時代において重要なのでしょうか?今や AI は、私たちの日常生活からビジネスに至るまで、さまざまな分野で活用されています。Web 会議における音声アシスタント、さらには音声認識を活用したビジネスツールに至るまで、AI エンジンはクリアで高品質な音声データを処理することで、その真価を発揮します。この新しい技術は、AI エンジンが音声の処理をスムーズに行えるよう、リアルタイムで安定した音声を届けるための重要な基盤となります。
では、そもそも音声コーデックはどのようにして音声データを圧縮し、効率的に伝送するのでしょうか?次の章では、音声コーデックの基本的な仕組みや、従来の技術とWebex AI Codec がどのように異なるのかについて、詳しく見ていきます。
音声コーデックの基本原理
音声コーデックの役割は、音声データを効率的に圧縮してサイズを軽くし、少ないデータ量で伝送することです。その基本的なアプローチの一つが「非可逆圧縮」であり、人間の聴覚特性に基づき、音質を維持しながらデータ量を減らすことを目的としています。こうした圧縮では、聴覚心理学に基づいて、人が聞き取りにくい音の部分や不要な情報を選択的に削除します。
非可逆圧縮で重要な役割を果たす技術に、「周波数領域での音の削減」があります。私たちの耳は特定の周波数には敏感ですが、20kHz 以上の高周波数や、周囲の音に隠れた小さな音には鈍感です。この特性を活かし、音声データの中で聴取されにくい周波数成分を削除することでデータ量を軽減します。
また、「マスキング効果」も基本的な技術です。たとえば、ある周波数帯で強い音が鳴っていると、その前後の小さな音や重なり合った微弱な音は聞き取りにくくなります。この現象を利用して、聞こえない部分の音を削除することでデータを削減します。実際の圧縮処理では周波数帯域ごとに細かく分割し、音量や周波数ごとに異なる圧縮率を適用するなど、さらに手の込んだ処理が行われています。このようにして、音質の維持とデータ削減のバランスが保たれています。
従来の手法では、ビットレートが低くなると音がこもったり途切れたりすることがあり、特にネットワークが不安定な環境では課題が顕著になります。このような課題に対処するために登場したのが「Webex AI Codec」で、AI とニューラルネットワークを活用した新しいアプローチを採用しています。Webex AI Codec は、AI が音声データの重要な特徴を学習し、不要な情報のみを効率的に削減するため、周波数や時間領域の処理をさらに高度に行うことが可能です。
では、Webex AI Codec には具体的にどのような特徴があり、従来のコーデックとどう違うのでしょうか?次の章では、AI が音声圧縮にどのように活用されているのか、Webex AI Codec の特徴について詳しく解説します。
Webex AI Codec の特徴
シスコの Webex AI Codec は、音声通信に特化した AI ベースのコーデックで、高音質と低ビットレートでの効率的な圧縮を実現しています。Webex AI Codec は、エンコーダー、ベクトル量子化(VQ)、デコーダーの 3 つの主要なコンポーネントから構成されています。
- エンコーダー
Webex AI Codec のエンコーダーは、ゼロレイテンシーのニューラルネットワークで、音声信号を入力として特徴ベクトルを抽出します。このプロセスで、雑音やリバーブといった音声の劣化要素を除去し、より密度の高いエンコードを可能にします。エンコーダーは、リアルタイムでこの処理を行い、音声の重要な情報を圧縮しながら保持します。 - ベクトル量子化(VQ)
特徴ベクトルはベクトル量子化(VQ)によって圧縮されます。Webex AI Codec ではResidual VQ と呼ばれる手法を採用しており、複数のVQレイヤーが段階的に圧縮を行います。このアプローチにより、音声データのビット使用量を最小限に抑えることができ、少ない帯域で高音質を維持することが可能になります。 - デコーダー
受信側のデコーダーはエンコーダーと同様の構造を持ち、圧縮されたベクトルデータを元に音声を再構築します。また、ネットワークのパケットロスが生じた場合も、エンコード時に含まれていた以前の音声フレームを利用することで、音声が途切れずに再生されるように設計されています。この仕組みが Webex AI Codec の高い耐障害性を支えています。
Webex AI Codec により、少ないビットレートでの高音質な音声通信が可能となり、パケットロスや帯域の制約がある環境でもクリアな音声を届けることができます。このため、ビデオ会議や電話会議などのリアルタイムな音声コミュニケーションの質が大きく向上しています。既存のコーデックと比較しても、低ビットレートでもクリアな音質を維持し、バックグラウンドノイズの除去やリバーブ(反響)補正を可能にするため、従来の技術を大幅に上回る性能を発揮します。
従来の音声コーデックは、低ビットレートでの音質維持に限界があり、ネットワーク上でのパケット損失に対する耐性も不十分でした。Webex AI Codec は、これらの問題に対応するため、ディープラーニング技術を活用して、音声フレームごとの「特徴ベクトル」を抽出し、低ビットレートで圧縮するアプローチを採用しています。たとえば、Opus が 16kbps で動作する場合でも、Webex AI Codec は 6kbps で同等かそれ以上の品質を実現し、帯域幅を削減する効果をもたらします。この進化により、少ないデータ量でより高い音質と低遅延の再生が可能となり、通信の効率が大幅に向上しています。Webex AI Codec は、音声データの圧縮時に人間の音声に特化した「特徴ベクトル」を抽出することでノイズを自動的に除去し、雑音を含まないクリアな音声を伝送するため、帯域幅の無駄遣いが抑えられます。たとえば、騒がしいカフェや公共の場で通話をする場合、従来のコーデックでは周囲の雑音も同時に伝送されてしまうため、相手側で雑音が混ざった音声を聞くことになり、雑音分のデータも含んで伝送されます。一方、Webex AI Codec はノイズ除去機能をコーデック自体に内蔵しているため、音声のみを抽出し、不要なノイズ成分を削減して伝送します。このため、ユーザーはより少ない帯域で高品質な通話が可能になり、ネットワークが不安定な環境でもクリアな会話が実現します
通常、音声コーデックは高品質な音声再生を提供するために遅延が発生することがありましたが、Webex AI Codec はゼロレイテンシーのエンコーダーを使用することで、この問題を解消しています。このエンコーダーは、音声の特性を学習させており、ノイズやリバーブなどの音声劣化要因を除去した上で圧縮するため、低レイテンシーでの高音質再生が可能です。このため、ビデオ会議やリアルタイムでのやりとりにおいて、遅延が発生せず、自然な会話が楽しめます。
また、Webex AI Codec は、Web 会議などオンラインのコミュニケーションで使用されることを意図して設計されているためネットワーク上のパケットロスに強い構造が特徴です。各音声フレームのデータを複数の異なるビットレートでエンコードし、過去のフレームも同時に送信することで、パケットロスが発生しても音質が大きく劣化することを防ぎます。この工夫により、ネットワークが不安定な環境でも、通信の途切れを感じさせずにスムーズな音声伝達が可能です。これが実現できるのは従来の音声コーデック以上の圧縮効率を実現しているためです。また、音声信号の一部が失われても生成的に補完するため、自然な音質が維持され、聞きやすさが確保されます。
実際にWebex AI Codec と従来の音声コーデックを比較した動画がこちらです。従来の音声コーデックではパケットが失われたことにより、音声が一部途切れて再生されるのに対しWebex AI Codec では途切れなく再生されています。
Webex AI Codecが有効になるための条件
本記事を執筆している 2024年 10 月の時点では Webex AI Codec は一般提供が開始されていますが、無条件ですべてのケースで適用されるわけではなく、特定の条件が整った場合に自動的に有効化されます。以下が主な条件です。
- Webex アプリのバージョン
-
- 参加者全員が Webex アプリのバージョン 44.8 以上を使用している必要があります。このバージョンから、Webex AI Codec のエンコード・デコード機能が利用可能です。
- デバイスの互換性
-
- 対応デバイスは、Windows や Mac のデスクトップアプリ、Android・iOS のモバイルアプリに限定されており、CPU やメモリの条件もあります。RoomOS デバイスや IP 電話機は今後の対応が予定されています。
- ネットワーク条件とパケットロス
-
- ネットワークでのパケットロスが一定の値以上になると自動的に AI Codec に切り替わります。
- 背景ノイズ除去の有効化
-
- 「背景ノイズ除去」が有効化されている場合にのみ、Webex AI Codec が作動します。また、「Optimize for my voices」を使用するユーザーは、送信はできませんが受信は可能です。
- 参加者全員の条件一致
-
- すべての参加者がこれらの条件を満たしている場合のみ、Webex AI Codec が作動し、クリアな音声通信が可能になります。
また、VDI や Web クライアント、SIP デバイス、PSTN 通話では Webex AI Codec が無効化され、レコーディングやテキスト変換が有効な場合も利用できません。今後、より多くのデバイスや環境で Webex AI Codec が利用できるよう、対応を拡大する予定です。
Webex AI Codec と責任ある AI の取り組み
シスコは、AI 技術の革新を進める中で、AI の利用に関する懸念やリスクにも真摯に取り組んでいます。Webex AI Codec は、音声通信を改善するために AI を活用していますが、その開発プロセスには「透明性」「公平性」「責任」「プライバシー」「セキュリティ」「信頼性」といった責任ある AI の原則が組み込まれています。これにより、AI 技術を利用する上で生じる懸念に対しても万全な対策を講じています。
Webex AI Codec は、最先端の AI 技術を用いながらも、ユーザーのプライバシーやセキュリティをしっかりと守る設計が施されています。AI Codec は、従来のコーデックと同様に音声をベクトルに変換し、リアルタイムで計算を行うだけで、データが保存・収集されることはありません。この仕組みでは、音声をベクトル化してコードブックに基づき比較し、受信側でデコーダーがそのベクトルを基に音声を再構成します。Webex AI Codec はあくまで音声を一時的に解析するものであり、データは保存されません。さらに、セキュリティへの懸念を解消するため、AI Codec はクラウド上ではなく端末(エッジ)で動作します。つまり、Webex AI Codec 自体は音声データをクラウドに送ることがないため、通信の安全性が強化されています。このように、シスコは責任ある AI の原則に基づき、透明性・公平性・プライバシー保護を重視しながら Webex AI Codec を提供し、ユーザーが安心して利用できる高品質な音声体験を実現しています。
今後の展開と対応予定
Webex AI Codec は現在、高音質かつ低ビットレートでの効率的な音声通信を実現し、ネットワークが不安定な環境でもクリアな音声体験を提供していますが、これに留まらず、さらなる機能強化と対応範囲の拡大を進めています。今後の展開としては、まず対応デバイスやプラットフォームの拡充が予定されています。現在は Webex アプリのデスクトップ版とモバイル版で主に利用されていますが、これからは RoomOS デバイスや IP 電話など、幅広いデバイスへの対応が進められ、さらに多くのユーザーが恩恵を受けられるようになる見込みです。加えて、Webex AI Codec はエッジデバイスでの動作を基本としているため、モデルの改良によって、より効率的な処理が可能になるよう継続して最適化が図られる予定です。これにより、ネットワーク負荷が軽減され、さらに遅延の少ないクリアな音声通信が可能になるでしょう。
シスコは、AI と音声通信の革新を通じて、ユーザーがどこにいても安定した高品質な音声体験を提供することを目指しています。Webex AI Codec は、こうした継続的な改良と拡大を通じて、次世代のコミュニケーション基盤としての役割をますます強化していくでしょう。
関連資料
webexone Japan ~AI で加速するコラボレーションと CX~開催
12月12日(木)東京ミッドタウン・ホール(六本木)で、Webex AI Codec を体験してみてください!
参加登録は、12月10日(火)まで
イベントの詳細は >> こちら