Cisco France Blog

Focus Expert : Retour d’expérience du NOC @ CiscoLive 2019

6 min read



Pour la 4eme fois consécutive, j’ai eu la chance de faire partie de l’équipe Wi-Fi de Cisco Live 2019 à Barcelone et m’occuper du design jusqu’au déploiement. L’objectif est toujours le même : déployer et fournir les meilleurs services à l’ensemble des participants, exposants, organisateurs et personnels Cisco. Faisons un « petit » tour des points marquants de ce Cisco Live 2019 !

Coté Datacenter:

Nous avons appliqué la même recette que l’année dernière avec l’utilisation d’HyperFlex, d’UCS mini, Nexus 9000 , des MDS connectés à un Storage NetApp. Nous testons de plus en plus d’application pour améliorer les services, la supervision et la sécurité de notre réseau, et le résultat est flagrant : 896 vCPUs, et autant de mémoire RAM que de mémoire disque ( 12Tbps) !!

 

Coté LAN:

il y a eu deux grosses nouveautés :

  • La première est la disparition des 6500 dans l’architecture, traditionnellement utilisé dans le cœur de réseau. Nous y avons mis à la place des 9500 avec 48 ports 25Gbps et 4x100G en uplink, beaucoup plus compact et permettant de connecter le Datacenter en 100Gbps.
  • La création d’une Fabric SD-Access sur le Hall 5. Voici la topologie de cette fabric :

L’architecture est simple, nous avons utilisé des Catalyst 9300 à l’accès en tant que Edge Node, deux Catalysts 9500 en tant que Border Node et deux Catalyst 9500 de Fusion pour intégrer la segmentation dynamique de la Fabric avec la Segmentation Traditionnelle du reste du réseau CiscoLive. Coté Wi-Fi, nous avons déployé dans cette zone des Aironet 4800 pour profiter de l’hyperlocation (géolocalisation entre 1 et 3m) et la capacité de faire de la capture intelligente en utilisant la 3ème radio).

Tous les switches tournaient en  version IOS-XE 16.2s, les WLCs (des WLC 3504s dédiés) en 8.8 MR1, ISE en version 2.4 Patch 5 et DNA-Center en version 1.2.8.

Et du coup, me direz-vous, pourquoi ne pas mettre une fabric sur l’intégralité de CiscoLive ? Il y a une raison extrêmement simple à cela:  les équipements que nous utilisons font partie d’un stock réservé pour les événements, et nous n’avons pas encore assez de Catalyst 9000 ou 3850 pour pouvoir le faire. Mais sachant que nous sommes déjà en Routed Access, la cible est claire 🙂

Côté Sécurité:

Nous utilisons Stealthwatch couplé à Cognitive Threat Analytics pour surveiller l’intégralité du réseau en Netflow et Umbrella pour la sécurité du trafic Internet. Application Visibility & Control est activé sur le réseau, ce qui permet de connaître en temps réels le panel applicatif qui circule sur le réseau. Utile pour simplifier l’analyse du trafic d’un point de vue Sécurité, mais aussi optimiser le paramétrage de la QoS. Voici un screenshot de Cognitive Threat Analytics sur un type de trafic intéressant circulant sur le réseau 🙂

 

Coté Wi-Fi, En quelques chiffres, 810 Bornes avec un pic à 16380 connexions simultanées. Nous avons réutilisé les APs du centre de convention FIRA, majoritairement des Aironet 3700 et quelques Aironet 3800, et nous avons ajouté nos Aironet 3800 pour améliorer la capacité et la densité, et des Aironet 1560 pour la couverture Outdoor. A l’exception des WLCs affectés à la fabric SDA, nous avons utilisé la release 8.5.140.0. La très bonne nouvelle est que 93% des clients connectés se sont connectés en 5Ghz, encore un effort et nous pourrons enfin désactiver le 2,4Ghz 🙂

Cela fait maintenant deux ans que nous utilisons intensivement les radios XOR des APs 3800, permettant de configurer l’AP pour fournir deux cellules 5Ghz avec une seule AP. L’intérêt est multiple : Gain de temps dans le déploiement, gain sur le câblage, gain du nombre d’AP et du nombre de ports sur les switches. Voici le type d’installation que nous avons effectués lors de la Keynote (Salle de 6000 personnes) :

 

Dans la Hall 8.0 qui était sous ma responsabilité, où la majorité des Breakout Sessions sont effectuées, plus de 50% des bornes était configurées en 2 x 5Ghz. L’idée est d’utiliser les APs de la FIRA (AP à 9m de haut fixées au plafond) uniquement pour le 2,4Ghz (en mode Best Effort), et faire une couverture spécifique au sol en 5Ghz pour connecter et géolocaliser via CMX les 6000 à 8000 personnes présentes chaque jour.

Coté Radio Fréquence, nous nous reposons entièrement sur les mécanismes du WLC (appelé RRM). Que ce soit l’affectation des canaux, la puissance, la remédiation des interférences, tout est calculé dynamiquement par RRM ! Pour ceux qui ne connaissent pas RRM, j’avais rédigé quelques articles sur RRM, notamment sur le choix de largeur de canal ou sur la fonctionnalité FlexDFS ! Bref, vous pouvez faire confiance à RRM !!

Au niveau du tooling, nous utilisons plusieurs interfaces :

  • Prime Infrastructure 3.5 qui permet de générer énormément de rapport tous les jours et à la fin de l’événement pour Analyse et fournir également des informations aux différents Dashboards que nous utilisons sur les écrans du Stand du NOC. J’en profite également pour faire mes propres Dashboards (après 4 Années au NOC, je commence à avoir mes petites habitudes) :

 

  • Les Dashboards simplifiés que l’on affiche sur nos écrans de supervision (soit des pages Web affichant des informations piochées dans Prime Infra, soit du Graphana sur du Prometheus (notamment pour les compteurs WAN, calcul de latences, charge CPU…).

  • CMX pour la géolocalisation. Nous avons interfacé CMX DNA Space, Operationnal Insight et Webex Teams (pour la remontée d’alertes des sensors, Asset Tracking, GeoFencing de certains devices…), MazeMap et les rapports d’Analytics étaient partagés avec l’organisation de Cisco Live. Bref, un outil central pour les services du NOC et pour tous les participants.
  • Et enfin et surtout DNA-Center Assurance. Pour ceux qui avait été à Cisco Live l’année dernière, nous avions mis en place un DNA-Center Assurance pour tester et les valider la pertinence de l’outil. Nous avions été enthousiasmés par les Insights remontés à l’époque. Les Insights sont tout simplement les problèmes que l’on rencontre sur le réseau.

Voici un exemple de problème que tout ingénieur Wi-Fi rencontre chaque jour : Les Sticky Clients !!

 

Les Stickys Clients, c’est à dire les clients qui restent attachés sur une borne alors qu’une borne plus proche pourrait offrir une meilleure connectivité, sont des phénomènes que l’on rencontre très régulièrement. L’information est très lisible, vous n’avez pas ce fameux compteur d’alarmes qui grossit chaque minute que toute plateforme d’administration possède. En quelques clics, vous trouvez la raison du problème, le nombre d’occurence  de ce problème (130), les explications détaillées, le chemin de remédiation et la liste des clients impactés !!

Dans la série des « Ce n’est pas la faute du Wi-Fi et je peux le prouver »:

 

Et enfin, le top du top, le petit moment de gloire de tout ingé Wi-Fi : « Ce n’est pas la faute du Wi-fi, c’est la faute de ton Device » !!! (J’ai caché les informations sensibles car c’était un utilisateur sur le SSID du NOC 🙂 ) :

 

Et si l’utilisateur insiste, il suffit de lui expliquer que c’est l’IPhone qui annonce cela à DNA-Center via la fonction Wifi Analytics for Apple IOS (et là, double moment de gloire !! 🙂 )

DNA-Center Assurance nous permet également de gagner énormément de temps, lorsqu’un responsable non technique vient nous voir pour demander si le réseau fonctionne bien. Assurance fournit des KPIs explicites et compréhensibles par tous, par exemple :

 

Bref, il y aurait des tonnes de choses à dire sur l’utilisation de DNA-Center, et ce qui est sûr, c’est qu’il a une place stratégique dans le fonctionnement du NOC aujourd’hui.

Il reste une fonctionnalité extrêmement intéressante de la partie DNA-Center Assurance : Les Sensors. L’idée est de simuler un client, de générer différents types de trafic et de vérifier que le résultat attendu est correct. Nous en avons déployé une quarantaine, et cela nous a été très utile. Je vais du coup faire un article dédié sur ce sujet en particulier.

Enfin, un petit mot sur le WAN. Nous avons consommé 43,25To sur le WAN en 5 jours, versus 35To l’année dernière.  L’année dernière, nous avions eu un souci avec notre opérateur qui n’avait pas pu fournir des liens Dual Stack. Problème résolu cette année avec 2x10G IPv4/IPv6, le résultat est clair : le trafic IPv6 représente 21,6% du trafic total. Mettez à jour vos applications et services en IPv6 pour exploser les scores l’année prochaine !

Pour conclure, ce fut encore une fois une expérience incroyable, un gros merci à tous les participants qui sont passés au Stand du NOC, à vous qui avez pris le temps de lire tout l’article, ainsi qu’à toute la Dream Team du NOC et en particulier à Antoine Orsoni et Mariam Housni pour l’aide précieuse pendant tout l’événement  !!

Vivement l’année prochaine 🙂

Authors

Vincent Makowski

Leader, Solutions Engineer

Laisser un commentaire