この記事は、Webex プラットフォーム部門のエンジニアリング担当ディレクタ である Panos Kozanian によるブログ「10 lessons that helped scale Webex during a global crisis」(2020/10/1)の抄訳です。
現在、フォーチュン 500 企業の 95% 以上が事業継続計画に Webex を盛り込んでいます。新型コロナウイルス感染症の大流行により世界は一変しました。突如として、外出を避けることがニューノーマルとなったため、在宅勤務(WFH)は以前のように一時的なものではなくなり、必須条件に変わりました。そして、世界中の IT 部門が事業継続計画を一斉に実施したため、Webex の重要性と利用率は急激に高まりました。
これを受け、シスコでは技術とプロセスの両面で新たな需要に対応するために Webex の拡張を実施しました。
その際のエピソードと今回の拡張を通じて学んだことをここでいくつかご紹介します。
- 世界を観察する
- 最悪のシナリオを想定して計画を立てる
- クラウド間で切り替えを行えるようにバースト時のキャパシティ計画を立てる
- リソースを大量に消費するワークフローに柔軟に対応する
- 増強・拡張の単位を共通化する
- 司令塔を一元化したまま、意思決定の権限を分散化する
- お客様とのコミュニケーションをプロアクティブに進める
- 増強・拡張作業担当チームを守る
- 早い段階からサービスプロバイダーを活用する
- 自らが模範となることでセルフケアを促進する
本題に入る前に、ここで皆様にお伝えしておきたいことが 2 つあります。
1 つ目は Cisco Webex チームからの謝意です。OSI レイヤでネットワークが十分に保護されていない最前線においても懸命に拡張作業に取り組んでいる皆さんに心から感謝します。
2 つ目は Cisco Webex チームとしての誇りです。お客様の IT 部門の延長的存在として働けることに私たちは強い誇りと喜びを感じています。ここでご紹介する Webex 拡張のエピソードは、シスコのお客様が経験した出来事の一部にすぎません。シスコのお客様の IT 部門は、あらゆる組織がいずれ直面するであろう極めて困難な状況を乗り越え、ビジネス継続性計画を的確に遂行することに成功しました。これは、大きな賞賛に値する出来事と言えるでしょう。Cisco Webex チームは、未曾有の世界的危機が続く中、世界中のお客様、学校、病院、政府機関を支援できる立場にいられることに心から感謝しています。
2 月上旬 | 前触れ
Webex チームでは、世界最大規模を誇るリアルタイム コラボレーション専用のグローバルネットワークとデータセンターバックボーンを運用しています。24 時間年中無休のネットワーク オペレーション センター(NOC)では、台風、地滑り、地震、インターネットルートの混乱や輻輳など、世界中の出来事を定期的に観測しています。
世界を観察する
2 月 3 日、Webex チームのネットワーク モニタリング システムからアラートが報告されました。原因は、グローバルネットワークを介して Webex に接続する中国の多国籍企業のお客様からのトラフィックと、中国国内の専用アクセスポイント(POP)を介して Webex に接続する中国ローカル企業のお客様からのトラフィックが急激に増加したことでした。なお、中国国内の POP は他地域の Webex ネットワークから物理的に分離されています。その後、Webex チームは、中国における 1 月の基準値を 22 倍近く上回るネットワークトラフィックに対応することになりました。Webex サービスを利用する会社のうち、中国国内で活動する従業員に対して外出禁止令が出されたことが直接の理由でした。
Webex NOC はこの時点で、少なくともエピデミック(特定地域内流行)(場合によってはパンデミック(世界的大流行))が発生していて、アジア太平洋地域に広く影響を与える可能性があると判断しました。Webex チームが同地域のコンピューティング キャパシティとネットワークキャパシティの増強を開始したのもこの時期です。
2 月下旬 | シナリオ計画
2 月 17 日の週、Webex チームのサイト信頼性エンジニア(SRE)は、すべての地域の前年比グラフで予想外のトラフィック増加を確認しました。世界規模の非常事態が迫っていることを Webex チームがはっきり認識したのはこのときです。そこで、専任チームを結成し、最近のエピデミックやパンデミックのデータに基づいて、考え得るさまざまな事態に対応するためのシナリオ計画を立てました。
最悪のシナリオを想定して計画を立てる
現在、フォーチュン 500 企業の 95% 以上が事業継続計画に Webex を盛り込んでいます。そのため、Webex チームでは 3 つのシナリオを作成しました。1 つ目はパンデミックが十分に抑制された場合のシナリオで、ピーク時使用率は 130% 増と見積もりました。2 つ目は大規模な感染拡大が発生した場合のシナリオで、ピーク時使用率は 150% 増、3 つ目はその時点で想定できる「最悪のケース」で、ピーク時使用率は 200% 増と推定しました。今振り返ってみると、この見通しは極めて甘かったと言わざるを得ません。最近のエピデミックおよびパンデミックのデータ(特に 2009 年の新型インフルエンザのデータ)に頼りすぎていたのです。ただ、過小評価ではあったものの、シナリオ 3(最悪のケース) に基づいて早い段階から行動を起こせていたのは幸いでした。
増強・拡張の単位を共通化する
Webex チームにとってキャパシティの増強はごく一般的な作業ですが、今回のような規模で増強を進めるには、あらゆる部門間での連携が必要でした。従来は各部門で 1 日何度も最適化を行っていましたが、キャパシティを監視する際に使用する単位はさまざまでした。コンピューティング部門は CPU 使用率、ネットワーク部門は Gbps、ストレージ部門は TB、データベース部門は QPS といった具合です。そこで、私たちは、これらの単位をエンジニアにもお客様にもわかりやすくするために、「ピーク時利用者数」という共通の指標に置き換えることにしました。その結果、世界中のどのデータセンターでボトルネックが発生しそうかを迅速に特定できるようになりました。
リソースを大量に消費するワークフローに柔軟に対応する
シナリオ 3 への対応は、極めて迅速に行う必要がありました。シナリオ 3 の状況が発生した場合、特定の地域で Webex のキャパシティが一時的に枯渇する可能性があったからです。そこで対応計画には、Webex バックボーンに支えられた Webex のグローバルフットプリントを活用し、利用ピーク時を迎えた日中時間の地域にグローバルの時差により夜間時間の地域のキャパシティを融通できるようにすることを盛り込みました。
まず、3 つのシナリオごとに計画を作成しました。そして、最悪のケースを想定し、シナリオ 3(世界全体でピーク時使用率 200% 増)への対応に着手しました。
3 月上旬 | 非常事態
3 月 2 日までには、利用可能なすべてのキャパシティを世界中に展開し終え、ピーク時使用率 200% 増に対応できるようバックボーンを増強しました。また、グローバルバックボーンを迅速に拡張できるように、パブリッククラウドでバーストキャパシティのプロビジョニングを開始しました。
さらに、世界全体で在宅勤務やオンライン授業への移行をサポートできるように、(有料サービスとは別に提供される)Webex 無料サービスの制限を緩和することで、世界中の企業、学校、病院、政府機関を支援しました。具体的には、時間制限をすべて撤廃し、1 会議あたりの最大参加者数を 100 人まで増やしたほか、世界中で電話ダイヤルインの提供も開始しました。
お客様とのコミュニケーションをプロアクティブに進める
3 月上旬、Webex チームはお客様とのコミュニケーションをプロアクティブに進め、その時点までに把握していた情報を共有するとともに、全社を挙げてお客様をサポートするというメッセージを伝え始めました。経営陣の後押しを受けたアカウントチームが、ドキュメント、チュートリアル、トレーニングを通じて、全業務の在宅化の支援をお客様に申し出たのです。こうしてコロナ禍初期から始まったプロアクティブなコミュニケーションは、その後も活発に続いています。これを通じ、アカウントチームはお客様と緊密に連携して在宅勤務への大規模移行を支援しました。
クラウド間で切り替えを行えるようにバースト時のキャパシティ計画を立てる
Webex チームでは、独自のクラウドとグローバルバックボーンを運用しています。また、ピーク時には 1.5 Tbps を処理するバックボーンにより 16 箇所のデータセンターが相互に接続されています。さらに、5 つの地域が Webex のバックボーンによってパブリック クラウド プロバイダーに直接接続されています。3 月上旬には、キャパシティを確保するために、Webex サービスをさまざまなパブリッククラウドに拡張しました。各クラウドプロバイダーが今後の需要増に対応できるようにそれぞれのキャパシティを拡張してくれたため、この対策は大成功でした。
3 月 9 日までには、柔軟な在宅勤務ポリシーを採用しているほとんどの企業で全従業員が在宅勤務を始めるようになりました(Webex チームの従業員もそうでした)。シナリオ 3 の見積もりが不十分であったことは、シスコ社内のキャパシティ利用率を考えただけでも明らかでした。そこで、現在の状況を非常事態と位置付け、シスコ全社のリソースを動員してお客様をサポートできる体制を構築しました。シスコの CEO である Chuck Robbins は非常事態対策ブリッジに参加し、私たちが今全力で取り組むべきことを次のように述べました。「お客様の事業継続のために必要なことをすべて実行してください。全社を挙げて支援します」
早い段階からサービスプロバイダーを活用する
シスコは、ネットワーキング機器の最大手メーカーです。独自のサーバを製造するだけでなく、サービスプロバイダーとも最高の関係を築いています。3 月の第 1 週には、お客様の事業継続計画をサポートするために、シスコ全社とパートナーが一丸になるべき時期だと判断しました。24 時間年中無休体制の対策ブリッジとベンダーの間の調整を支援する CAP (Customer Assurance Program)マネージャが指揮を執り、Webex チームは世界中でキャパシティを増強するための臨戦態勢に入りました。
司令塔を一元化したまま、意思決定の権限を分散化する
コロナ禍の下で実施した拡張は、まったく前例のないインシデント管理でした。期間は約 100 日にわたり(使用率が低い状態からピークに達するまで)、今までにない規模で(大手企業の利用率が 400% 増)、影響も広範囲にわたりました(Webex 事業のすべての要素が絡んでいて、部署間の調整が必須でした)。以下のプロセス図を見ると、私たちが Webex ミーティングを活用してあらゆる調整を進めながら、100 日間にわたり 24 時間無休でどのように拡張作業に取り組んだのかがわかります。
増強・拡張作業担当チームを守る
上の図にある変更指揮官には、各地域のキャパシティを維持するために必要なことをすべて実施できる裁量権が認められていました。また、拡張作業とインシデントアクティビティ双方の司令塔として機能する統合インシデント指揮官も置かれ、変更指揮官はインシデントとエスカレーションからは意図的に切り離されていました。これにより、インシデント指揮官が特定のホットスポットを処理する一方で、拡張作業担当チームはサービスの増強・拡張に集中することができました。
以下のグラフを見ると、Webex 上での 24 時間の状況がわかります。各地域が記録的な高負荷状態に突入するまでの猶予期間は、22:00 から 02:00 UTC までの 4 時間だけです。これは、南北アメリカで日が沈みつつあり、アジア太平洋地域で日が昇りつつある時間帯です。
3 月下旬 | 教育機関と政府機関
3 月 23 日(月)までに、ほぼすべての企業、政府機関、学校が屋内退避(リモート)となりました。この時点で Webex チームのプロセスとエンゲージメントの準備はすべて整っており、残された課題はハードウェア提供までの時間だけでした。企業、政府機関、学校が事業継続計画に Webex を盛り込むようになると、世界中の国々に希望の光が差し込みました。独特のアクセスパターンを持つ世界中の教育機関で新たな波が生じていることに Webex チームが気付いたのもこの時期です。
教育機関のお客様に固有のアクセスパターンとは、ビデオ参加の使用率の増加、録画の使用率の増加、特定の時間帯に集中して行われる会議、参加者の地理的密度の高さなどです。そこで、Webex チームでは、こうした新しい教育機関のお客様向けに迅速にネットワークパスを最適化して拡張し、ハイパーローカルなパブリッククラウドを実現しました。
4 月上旬 | 第 2 波への備え
4 月の第 1 週は、60 日ぶりに使用率の伸びが前週比 2 桁未満となりました。ただ運命のいたずらか、セキュリティ意識の高い世界中の政府機関や企業が一部の競合他社サービスにセキュリティ上の欠陥があることに気付き、Webex への移行を開始しました。こうして、私たちは使用率増加の第 2 波に備える必要に迫られました。
この時点で、新たに増強した機器は順調に稼働していました。3 月初旬以降に学んだことを活かし、多くのお客様が安全な Webex プラットフォームに移行してくることに対する準備を急ピッチで進めました。具体的には、バックボーン、コンピューティング、ストレージの増強や、パブリッククラウドへの拡張などです。
4 月下旬 | 第 2 波
4 月の後半には、競合他社のサービスから Webex への移行が加速したことで、ユーザベースが 25% 以上増加しました。コンピューティング、ストレージ、ネットワーク、データベース、アプリケーション、メディアの拡張を担当する各チームが新たな需要に合わせて拡張を進められたことで、この増加は混乱なく達成されました。次のグラフに示すように、第 2 波の期間における安定性の向上は、お客様に影響を与えるインシデント数の減少に表れています。
Webex サービスの安定性を確保するプロセスは順調に進みましたが、急激な成長と高い変化率が原因で、特に危機的だった 3 月中にサービス中断が何度か発生しています。一方、他の類似サービスのユーザが 3 月から 5 月の時期とそれ以降に経験したサービス中断の回数ははるかに多く、最大で 5 倍に上ります。
5 月 | ニューノーマルと夏
5 月には、2 月の基準値の 400% に到達しました。多くの会社が夏休みに入ったり、教育機関のお客様が会議の回数を減らしたりして、一時的にサービスの利用量増加が鈍化する前に、ここで新たな大台に乗ったことになります。
自らが模範となることでセルフケアを促進する
シスコ全社で行われた「Day for Me」プログラムにより、Webex チームにも 5 月 22 日にようやく休暇が与えられました。多くのメンバーにとって 100 日ぶりの休日となりました。必要としていたひと時の休息が得られたという意味でも、拡張の第 2 波を見事に乗り切った手腕を称えられたという意味でも、このご褒美は格別なものでした。
謝辞
新型コロナウイルス感染症による屋内退避(リモート)が始まった初期の段階では、拡張の取り組みは思うほど順調には進みませんでした。上述の 10 項目を参考にして、皆様の組織でもサイト信頼性エンジニア、クラウドエンジニア、SaaS 開発者、IT 部門に役立つプロセスやツールを検討していただければ幸いです。今回 Webex チームが達成した増強・拡張の取り組みは、おそらく史上最大規模であり、大半のメンバーにとって予想外のものでした。
また、ここでご紹介した Webex 拡張のエピソードは、シスコのお客様が経験した出来事の一部にすぎません。シスコのお客様の IT 部門は、あらゆる組織がいずれ直面するであろう極めて困難な状況を乗り越え、ビジネス継続性計画を的確に遂行することに成功しました。これは、大きな賞賛に値する出来事と言えるでしょう。
Cisco Webex チームは、未曾有の世界的危機が続く中、世界中のお客様、学校、病院、政府機関を支援できる立場にいられることに心から感謝しています。
執筆者について
Panos Kozanian は、Webex プラットフォーム部門のエンジニアリング担当ディレクタです。Webex プラットフォーム部門は、あらゆるインフラストラクチャ資産を統括しています。具体的には、すべての Webex サービスに欠かせないデータセンター、コンピューティング、ストレージ、ネットワーク、 PaaS レイヤのほか、Common Identity、Control Hub、Analytics プラットフォームなどのコラボレーションサービスです。さらに、Panos は信頼性エンジニアリングの責任者でもあり、高可用性と世界クラスのパフォーマンスで Webex を提供し続けられるよう尽力しています。Panos は、現在の職務に就く前、Webex Teams プラットフォームの責任者を務めていました。その際、数千のマイクロ サービス インスタンスと 1000 人以上の開発者をサポートする最新の DevOps/SRE 文化を確立しました。キャリアを通じて、数多くのリーダー的役割を果たしてきました。たとえばシスコのビジネス インキュベーション ラボの形成と主導、デジタルサイネージチームの管理、ビデオポータルの取り組みを主導してきました。Panos がシスコに入社したのは 2003 年で、最初はビジネスインキュベーションとエグゼクティブデモを手がけていました。サンタクララ大学でコンピュータ エンジニアリング理学士号を取得しています。
Webex のサービスの詳細と無料のアカウント登録については、こちらをご覧ください。