AI による音声の明瞭化とチームコラボレーションの強化

この記事は、シスコ、エンジニアリングおよび音声テクノロジー担当 VP である Chris Rowen によるブログ「The rise of AI speech enhancement & better team collaboration」(2020/12/17)の抄訳です。

 

AI 時代のチームコラボレーション

コロナ禍の影響を受けてリモートワークへの移行が一気に加速し、ハイブリッドな作業環境が想像できる未来となる現在、多くの組織がチームコラボレーションを促進するために、高音質なビデオ会議ソリューションが今までになく求められています。

しかし、電話が発明されてから 145 年が経過した現在でも、私たちは音声品質の問題に悩まされ、さまざまな背景雑音の中でも会話を理解しなければならない状況に置かれています。会議通話やビデオ会議のテクノロジーを利用すると、参加者が増え、複数の環境から雑音が聞こえてくることになるため、問題はかえって悪化するだけです。12 人の参加者の周りで犬が吠えていたり、子供が騒いでいたり、車の騒音が鳴り響いていたら、効果的なチームコラボレーションの実現は間違いなく難しくなります。

幸いにも、近年ではディープ ラーニング ニューラル ネットワーク アルゴリズムの開発が進んでいるため、会話から騒音を分離することによって音声品質が劇的に向上しています。しかし、音声明瞭化ソリューションをビデオ会議テクノロジーに統合する場合、すべてのアルゴリズムが同じというわけではありません。

 

ディープラーニング革命

音声技術者は数十年にわたり、ノイズ問題において最も簡単な部分を改善することに重点を置いてノイズ リダクション アルゴリズムの開発を、徐々に着実に取り組んできました。その結果、ファンやエアコンから連続的に生じる一定の低音という特定の背景雑音を軽減には成功しましたが、その過程で音声信号は軽視されてきました。

音声科学者がライブ音声のノイズを処理する強力なツールを新しく入手したのは、ここ数年間にディープラーニングの手法が台頭してきてからのことです。現在、音声の明瞭度とノイズリダクションの精度は、従来の手法と比べて徐々に改善し、劇的に向上しています。

 

ノイズ軽減手法の40年間の変遷

 

ニューラルネットワークを活用することにより、従来の手法よりもはるかに強力にリアルタイム音声ストリームのスクラブ、分解、操作、再合成、分析ができます。すでにいくつかの組織がニューラルネットワークを活用し、ビデオ会議技術アプリケーションにおいて信頼性の高いノイズリダクションと音声の明瞭化を実現しています。しかし、ほとんどの場合、焦点が当てられているのは背景雑音などの明らかな障害のみです。

会話の理解度を低下させ、認知的負荷や音声の過剰刺激をもたらす音声関連の課題は、背景雑音以外にもいくつかあります。たとえば、残響や、音声ストリームの中断につながるネットワーク遅延、「ess」や「zee」などの高音域の歯擦音を除去する帯域幅圧縮といった問題があります。ビデオ会議テクノロジーを通じて効果的なチームコラボレーションを実現するには、音声に関連するこれらの課題を克服することが重要です。

10 月のアップデート以降、Webex Meetings にはノイズリダクション機能(およびその他多数の機能)が導入されています。BabbleLabs 社の買収[英語] により、シスコのコラボレーション ソリューションには、業界最高水準のディープラーニング/音声科学ソフトウェアが統合され、音声に関連するビデオ会議テクノロジーのあらゆる課題に対応しています。シスコのアルゴリズムで可能になることは、ノイズを除去し、参加者が飼っている犬の鳴き声が電話会議で聞こえないばかりでなく、少ないフィードバックで明瞭な音声を提供し、人間の聴き取り能力、理解力、ニュアンス認識力を向上させることもできます。

10 月の Webex Meetings アップデートで導入された)Webex の音声明瞭化機能により、音声品質は最大で 10,000 倍向上し(ノイズが最大で 40dB 削減され)、ユーザの会話理解率は飛躍的に向上しています。しかも、これらの処理に使用されるコンピューティングリソースはごくわずかです。シスコの低遅延ソリューションは、クラウド環境だけでなく、電話機、ノート PC、ルームデバイスでも使用できるように小型化されています。

シスコの製品は市場最高水準の音声明瞭化テクノロジーを備えていると自負していますが、それだけではありません。シスコは、ディープラーニングの進化を活用して音声テクノロジーをさらに強化し、ビデオ会議テクノロジーを通じてチームコラボレーションを強化できるよう、お客様を支援し続けています。

現在、AI を活用したノイズ除去機能と音声明瞭化機能は、Webex Meetings に加え、Webex Desk ProWebex Board シリーズWebex Room シリーズなどの Webex Rooms デバイスにも搭載されています。

Webex の無料トライアルにサインアップして、チームコラボレーションとビデオ会議テクノロジーのエクスペリエンスを向上させましょう。

 

執筆者について

Chris Rowen

シスコ、エンジニアリングおよび音声テクノロジー担当 VP

Chris はシリコンバレーの起業家で、RISC マイクロプロセッサ、ドメイン固有のアーキテクチャ、ディープ ラーニングベースの音声ソフトウェアの開発で画期的な業績を残している技術者としても知られています。

シスコに入社する以前は、2020 年にシスコに買収された[英語] 音声科学テクノロジー企業 BabbleLabs 社の共同設立者兼 CEO でした。それ以前は、プロセッサライセンス企業の Tensilica 社を設立し、2013 年に Cadence 社に売却されるまで CEO を務めていました。

スタンフォード大学で電気工学の修士号と博士号を、ハーバード大学で物理学の学士号を取得し、米国内外で 40 を超える特許を有しています。また、米国電気電子技術者協会(IEEE)のフェローでもあります。

その他の記事

新しい Webex が登場

Webex の新機能のご紹介:2020 年 12 月[英語]

Webex One ブログシリーズ[英語]

場所を問わず仕事や遊びを可能にする Webex Meetings の統合機能[英語]

 

以下のリンクもご覧ください。

Webex オンライン会議に参加する

Web 会議とビデオ会議の詳細を見る[英語]

製品デモを見る[英語]

Webex を無料で体験する

高山 貴行

コラボレーション ソリューションを担当するテクニカル ソリューションズ アーキテクト(TSA)。2007 年シスコ入社。コラボレーション ソリューション開発担当 SE として、主に通信事業者様とのサービス開発に従事。その後通信事業者様担当SEを経て、再度コラボレーション担当SE。現在はコラボレーション製品全般の提案、技術サポートを行う。