この記事は、Intent Based Networking Group (IBNG) の Product Marketing Engineer である Joseph Ezerski によるブログ「Making the Most of Network Telemetry in an Imperfect World」(2021/7/15)の抄訳です。
「人生は芸術を模倣する(Life Imitates Art)」という格言は、皆さんご存じかと思います。人生は IT 運用を模倣するというのもまた然りではないでしょうか。最近の個人的な経験がきっかけで、データセンターに適切な Day 2 運用ツールを導入することの重要性について、新たな見解を持つようになりました。このブログ記事では、ACI および NXOS DC ファブリックに最適なツール、Nexus Dashboard Insights をご紹介します。
1 年ほど前、片方の目の調子が悪くなりました。痛みはなかったので、検査を受けるのが遅くなってしまったのですが、担当医に精密検査が必要だと言われたときは本当に驚きました。
どんな医師でも、何かを診断する際にはまず「何が原因なのか」という大きな問題に向き合うことになります。原因が分からないことには治療を始めることはできません。最初は簡単な診察だけだったのが、すぐにさまざまな専門医の検査を次々に受けることになりました。原因が分からなければ、まずはデータ集めから始めます。仮診断も、根本原因の迅速な特定を重視したものになっていました。
すべての検査と診察を済ませ、数週間後には生理機能に関するデータが大量に集まりました。こうしたデータは何を意味し、データを見て理解できるのは誰で、根本的な原因は特定できるのでしょうか。そして何より重要なことですが、問題の解決につながる何らかの結論をすぐに得られるのでしょうか。
こうした検査、データ、医師の様子には、データセンターのネットワーキングと運用の世界と似たところがあります。じっと動かず MRI 検査を受けながら、ふと関係づけて考えずにはいられませんでした。
問題は情報過多
データセンターで基準から外れた事象が発生すると、特定のプロセス、つまりライフサイクルが発生します。対応するのは運用チームです。診断を下そうとする医師と同じく、まず何が問題かを理解するために時間を費やします。根本原因を突き止めるか、少なくとも合理的な仮説を立てない限り、信頼できる方法で対処することはできません。ただ多くの場合、あまりにも時間がかかりすぎます。そしてその間は、業務に支障が出ることになるのです。
原因の解明は、解決に向けた最初のステップにすぎません。次に、問題の範囲を把握する必要があります。問題の発生理由、発生場所、影響が及ぶ人や物、発生時期、まだ発生し続けているかどうか。これにも時間がかかりますし、多くの場合、多大なストレスにさらされます。IT 運用部門は、思いつく限りの情報源からデータや情報を必死になって収集します。データは確かに存在するのですが、膨大な量のデータに悩まされることになりがちです。syslog を思い浮かべてみてください。障害、イベント、アラート、ping、CLI コマンド、インターフェイスカウンタ、ルーティング情報、環境データなど、大量のデータを収集しています。
そのうえ、問題に関与している可能性がある何百ものデバイスがデータセンター内で相互接続されていて、膨大な量のテレメトリデータが存在します。これではきりがありません。こうしたシステムとデータの大部分は相関関係がなく、さまざまな時期に構築された各種のツールから集められており、全体像を理解できるようにはなっていないのです。
全体像の把握は技術的な課題であるだけでなく、ビジネスにも影響を及ぼします。
Nexus Dashboard Insights で問題をすばやく解決
今、データセンターの医師に当たる IT 運用チームは新たな疑問を抱くようになっています。非常に多くの可動部が相互接続されている高度な世界で、ライフサイクルの「修復フェーズ」にできるだけ早く進む方法はないのか。この疑問に答えるために必要となるのが、最新のデータセンターのニーズに対応するために開発された便利なツールセットです。そして、このツールセットを必要としているのはビジネスです。
シスコが Nexus Dashboard Insights を開発した理由もそこにあります。
Nexus Dashboard Insights は、データセンターファブリックから複数の多様なデータソースを受信するために開発された、多機能の「適切なツールセット」です。複数の多様なデータソースを受信することは難しくありません。Nexus Dashboard Insights が真価を発揮するのはその後なのです。強力な相関エンジンである Nexus Dashboard Insights は、機械学習を活用したインテリジェンスにより、データが他のデータとどのように関連しているかを把握できます。それも一時的ではなく、ファブリック全体のコンテキストで継続的に実行し続けるのです。すごいことだとは思いませんか?それだけではありません。
Nexus Dashboard Insights が優れているのは、こうした関係や傾向を時系列で分析し、正常な動作、ベストプラクティス、健全な状態の境界を決める基準と比較できる点です。人間にとっては大変な作業ですが、Nexus Dashboard Insights にとっては造作もないことです。
しかもこれで終わりではないのです。
先に述べたように、求められているのは、ライフサイクルの「修復フェーズ」に早く進む方法です。Nexus Dashboard Insights は、データセンター環境の状態と運用について把握しているすべての情報をもとに、人が簡単に実行できる形式の具体的なアクションを促します。これが「修復フェーズ」に該当します。オペレータが特定の環境のコンテキストで実行すべきアクションが、確定したセットとして提示されます。つまり、何が問題で、どこで問題が発生しているのか、問題が発生した原因、そして問題の解決方法がすぐに分かるようになるのです。ファブリック全体の範囲内のすべての面倒な作業は Nexus Dashboard Insights が迅速に処理するので、平均修復時間(MTTR)が桁違いに短縮されました。
ではここで、ビジネスにとっての意義を考えてみましょう。ダウンタイムには莫大なコストがかかります。時間が長くなればなるほど、コストも大きくなります。Nexus Dashboard Insights にインテリジェントなツールセットを導入すれば、問題を迅速に認識し、すばやく解決できます。そして最終的には、ビジネスを保護できます。Nexus Dashboard Insights の真価はここにあります。IT 部門は、状況認識能力が向上して迅速に行動に移すことができるようになり、ずっと早く修復フェーズに進むことができます。こうなれば、ビジネスにとっても、インフラの健全性を維持して最適な状態で運用するという使命を持つ IT 運用チームにとっても有益です。
これは、主なユースケースのシナリオの 1 つにすぎません。何か問題が起きて実際にビジネスに影響を与える前に、問題を予測したり検出したりできるとしたらどうでしょうか。ツールの導入にかかる費用の何倍もの価値があるはずです。ここでも Nexus Dashboard Insights は先駆的地位を占めていますが、それについては今後のブログ記事でご紹介します。
こうしたツールがない場合、どうすればよいのでしょうか。運に任せますか?ですが、そんな悠長なことをしている余裕があるでしょうか。当然ありません。
世の中にはトラブルはつきものなのかもしれません。ですが、適切なタイミングで適切なツールを使用すれば、改善に大いに役立ちます。