Cisco Japan Blog

シスコ IT におけるオブザーバビリティ変革:分断されたデータから統合された洞察へ

1 min read



この記事は、Director, IT,  Cisco IT  – Networking Engineering and Operations である Jon Heaton と Senior Director,  IT Observability, Cisco IT である Chuck Churchill と Director, IT Service Management である Mark Hutchins  によるブログ「 Cisco IT’s observability transformation: From fragmented data to unified insights  」( 2026 年 2月 9日 )の抄訳です。

 

増加する IT の複雑性を背景に、シスコ IT は自社のグローバル環境全体でオブザーバビリティを統合しました。結果として、重大インシデントは 25% 減少し、解決時間は 45% 短縮し、スケーラブルな自動化が可能になりました。ここでは、その方法と、デジタルレジリエンスを高めるための推奨事項をご紹介します。

 

私たちの課題:分断された可視性

多くの組織は、分断された監視体制と解決までに時間がかかるインシデント対応に課題を抱えています。私たちも同じ問題に直面し、急速に変化する環境を守るためにデータサイロを取り除く必要がありました。

シスコ IT では、世界規模で分散する IT 基盤の管理がますます複雑化しています。分断されたデータと可視性ギャップが、急速な革新と絶え間ない環境変化の中でデジタルレジリエンスの維持を一層困難にしていました。データを実行可能な洞察へ変える手段が必要でしたが、全体を集約し解釈する統合オブザーバビリティ プラットフォームが欠けていました。

2024 年の大規模データベース障害で、関連デバイス間の相関されていないアラートが原因特定を遅らせるなど、分断されたデータの実態が明らかになり、私たちはオブザーバビリティ アプローチの再検討を決断しました。



「その障害を受けて、私たちは全面的な再考が必要だと認識しました。その変革は単なる技術の問題ではなく、エンジニアの迅速でスマートな意思決定を支える取り組みでした」

Chuck Churchill: Senior Director, IT Observability, Cisco IT

 


この転換期をきっかけに、シスコ IT のオブザーバビリティへのアプローチは大きく変わりました。以下のビデオでは、シスコ IT のリーダーたちが変革の内容と、重大インシデントを 25% 減らした方法を共有しています。※英語音声のみ

取り組みの開始

IT の問題と同様に、修復計画に着手する前に根本原因の把握が不可欠でした。デジタルレジリエンスの強化も例外ではありません。

各チームとの協働により、次の項目が取り組みを妨げる主な課題領域であると判明しました。

  • 分断されたデータと可視性ギャップ:100,000 を超える端末により、大量のテレメトリデータが生み出されていました。サイロ化された監視ツールはアラート疲れと可視性ギャップを引き起こし、対応の遅れと問題の予測・防止能力の低下につながっていました。
  • 頻繁な変更によるリスク:革新と先行導入を重視する文化が、IT 環境への継続的な変更を生んでいます。急激な変更がインシデント増加と直結していることが分かり、革新を止めずに中断を最小化することが不可欠となりました。
  • リソースの最適化: 環境とデータの複雑さが高まるにつれ、AI とデータの活用方法をより効果的に改善することが重要になりました。データをエンジニアの負担にするのではなく力に変える実行可能な洞察へ転換し、生産性を成長に合わせて維持する必要がありました。


「すべてのデータを一元化することが出発点でした。それを真に実行可能な洞察へ変換することこそが、環境が進化する中でレジリエンスを維持する力になります」

Jon Heaton: Director, IT, Cisco IT – Networking Engineering and Operations

 


 

3 つの柱から成るオブザーバビリティ アプローチの策定

デジタルレジリエンスは、単に新しいツールを展開するだけでは達成できません。私たちは、IT 環境全体にまたがる包括的なアプローチを必要としていました。相互に連携する 3 つの柱に IT オブザーバビリティ プラクティスを体系化することでこれを実現しました。

  1. ネットワーク:安全で信頼性の高いネットワークパフォーマンスは、ビジネスを継続的に運営するために不可欠です。この柱は、サードパーティ プロバイダー ネットワークを含む包括的なネットワーク可視性に重点を置き、ネットワークが安全かつ最適に稼働し、スムーズなユーザー体験を実現することを目指します。
  2. プラットフォームとデータ:ここでは、データセンター、クラウド、基盤インフラ全体のオブザーバビリティに注力しています。DevOps および SRE チームを含む組織全体がアクセス可能な形になるよう、プラットフォーム統合とデータ戦略を通じてオブザーバビリティデータを一元化しています。
  3. サービスオペレーション:サービスオペレーションおよびエンタープライズオペレーションセンターのエンジニアは、ネットワーク、インフラ、アプリケーション、サービスから提供される豊富なデータと洞察を活用して監視、分析、問題解決を行っています。これらの情報はAIによる自動化に活用され、効率向上に役立てられています。

 

重要なテクノロジーの導入

これら各オブザーバビリティの柱は、データ、テクノロジー、プロセスの組み合わせによって支えられ、データの潜在力を最大限に活用し、AI 自動化でさらなる効率化を推進します。以下のコア要素は、当社のオブザーバビリティ アプローチと成功を支える基盤です。

  • SplunkSplunk は当社のオブザーバビリティ戦略のバックボーンとして機能し、ネットワーク、インフラ、アプリケーション全体のデータを一元化して IT チームに単一の信頼できる情報源を提供します。
  • ThousandEyes:ThousandEyes は、内部および外部環境全体にわたるエンドツーエンドのネットワーク可視性とユーザー体験の監視を提供し、接続性の問題を迅速に特定し解決できるようにします。
  • 構成管理データベース(CMDB:当社の CMDB はすべての IT 資産に対する単一の信頼できる情報源を提供し、アラートやインシデントに重要なコンテキストを付加して、効率的かつ能動的な運用を支えます。
  • AI 運用:当社の AI システムは Splunk に集約されたオブザーバビリティデータを活用し、イベント分析を自動化し、アラート疲れを軽減し、インシデント対応を加速させ、エンジニアがより高付加価値の業務に集中できるようにします。例えば、サービスオペレーションでは複数の AI アシスタントを活用した AI 駆動型インシデント管理を行い、インシデントの割り当てを予測し解決手段を提案しています。

Splunk を ThousandEyes、CMDB、その他のツールと統合することで、ビジネスとともに成長するシームレスでスケーラブルなオブザーバビリティ アプローチを確保できます。

 

具体的な成果

この統合オブザーバビリティ アプローチにより、最も差し迫った課題に対処し、総体的にデジタルレジリエンスを強化する成果を実現しました。過去 18 か月で、次の成果を確認しました。

  • 重大インシデントの大幅削減: 前年比で重大インシデントを 25% 削減し、以前は四半期ごとに 3~4 件発生していた重大ネットワークインシデントを 0 件にしました。
  • 復旧の高速化と効率化: 前年比で平均検出および解決時間を 45% 短縮し、より迅速な回復と中断の最小化を実現しました。
  • 変更管理の強化: 統合データの洞察とエンドツーエンドの可視性により、変更が原因のインシデントを 20% 削減し、よりスマートな変更管理プロセスを支えました。
  • 可視性とデータ活用の強化: 現在は従来の  10 倍のネットワーク テレメトリ データを監視し、より深い洞察と  4 倍の可視性 を実現し、潜在的問題を拡大前に早期検知し能動的に解決できます。
  • スケーラブルな自動化と効率性: Splunk にデータを集約したことで AIOps の継続的進化の基盤が確立され、現在では 1 日約 400 万件のアラートの 99.998% を処理する AI 自動化を実現し、業務効率を大幅に向上させました。


「この取り組みは、テクノロジーを展開することと同じくらい、意識改革が重要です。私たちは、すべてのエンジニアが単なるアラートではなく、洞察に基づいて行動できるよう支援しています」

Mark Hutchins: Director, IT Service Management

 


 

実践的なポイント

私たちのデジタルレジリエンスの取り組みは継続中ですが、日々得られる学びを、お客様自身の取り組み強化に役立てていただくため共有しています。私たちは以下を推奨します。

  • あらゆる場所からテレメトリを収集:ネットワーク、インフラ、クラウド、アプリケーション、サービス全体の重要なメトリック、イベント、ログ、トレースを最適化するため、テレメトリを集中管理してください。
  • データを最優先に 成功の土台:データ品質とデータ衛生に注力してください。正確でクリーンなデータは、信頼できる洞察生成と効果的な自動化に不可欠です。
  • 既存のスマート機能を活用:まず、AI とオブザーバビリティが組み込まれた既存システムの機能を活用してください。次に、既存システムに不足がある場合は、カスタム AI ソリューションを試すようチームを支援してください。

引き続き継続的な革新と最適化の進捗と学びにご注目ください。



「デジタルレジリエンスは常に変化する目標です。私たちは環境の進化に合わせて常に学び、適応し、アプローチを磨き続けています」

Jon Heaton: Director, IT, Cisco IT – Networking Engineering and Operations

 


 

追加リソース:

シスコがデジタルレジリエンスをどのように強化しているかを、他のケーススタディでご覧ください。

Authors

末永 真理

Sales Specialist

Splunk Observability

コメントを書く