시스코 IT 팀에서는 시스코 컴퓨팅, 동급 최고의 NVIDIA GPU, 시스코 네트워킹과 함께 AI 레디 인프라를 설계해 시스코 제품 팀과 엔지니어링 팀의 수십 가지 사용 사례에 대한 AI 모델 훈련과 추론을 지원하게 했습니다.
비즈니스 전체에 걸쳐 AI를 구현해야 한다는 압박감으로 인해 IT 팀이 난항을 겪고 있다는 것은 누구나 아는 일입니다. 지금은 신기술을 그 어느 때보다 빠르게 배포해야 하고, 컴퓨팅, 네트워킹, 스토리지 수요가 늘어남에 따라 데이터 센터의 구축 방법 자체를 재고해야 한다는 문제점이 제기되는 시기입니다. 혁신과 비즈니스 발전의 속도는 짜릿하지만, 그만큼 버겁게 느껴지기도 합니다.
AI 워크로드를 지원하고 중요한 비즈니스 요구 사항의 속도에 맞추는 데 필요한 데이터 센터 인프라를 신속하게 구축하려면 어떻게 해야 할까요? 시스코 IT는 바로 이런 문제에 직면해 있었습니다.
비즈니스 부서의 요청
우리 팀은 제품 팀으로부터 시스코 제품에 들어갈 새 AI 기능을 개발하고 테스트하는 데 사용될 AI 워크로드를 실행할 방법이 필요하다는 요청을 받았습니다. 이 방법이 결국은 비즈니스 전체의 여러 팀과 수십 가지 사용 사례에 해당하는 모델 훈련 및 추론에 쓰이게 될 예정이었습니다. 그리고 빨리 완료해야 한다는 점도 문제였습니다. 최대한 빨리 고객에게 혁신을 제공해야 한다는 제품 팀의 요구 사항으로 겨우 3개월 만에 새 환경을 제공해야 했습니다.
기술적 요구 사항
우선, 새 AI 인프라의 요구 사항을 매핑하는 것부터 시작했습니다. AI 클러스터 내에서 안정적이고 예측 가능하며 성능도 우수한 데이터 전송을 보장하려면 AI 컴퓨팅 패브릭에 무중단(non-blocking), 무손실 네트워크가 필수적이었습니다. 여기에는 이더넷이 최선의 선택이었습니다. 이 외 다른 요구 사항은 다음과 같았습니다.
- 인텔리전트 버퍼링, 낮은 레이턴시: 다른 우수한 데이터 센터와 마찬가지로, AI 패브릭의 반응성을 강화하고 원활한 데이터 흐름을 유지하며 지연을 최소화하려면 이런 요소가 필수적입니다.
- 다양한 워크로드의 동적 혼잡 회피: AI 워크로드는 네트워크 및 컴퓨팅 리소스에 대한 수요가 천차만별일 수 있습니다. 동적 혼잡 회피(Dynamic Congestion Avoidance)를 이용하면 리소스가 효율적으로 할당되도록 보장하여 사용량이 피크일 때 성능 저하를 방지하고, 일관된 서비스 수준을 유지하며 운영을 중단시킬 수 있는 병목 현상을 방지할 수 있습니다.
- 전용 프런트엔드, 백엔드 네트워크, 무중단 패브릭: 확장 가능한 인프라를 구축해야 한다는 것이 목표인 만큼, 무중단 패브릭을 이용하면 데이터가 자유롭게 이동하는 데 충분한 대역폭을 보장하고, 동시에 고속 데이터 전송도 지원할 수 있을 것으로 판단되었습니다. 고속 데이터 전송은 AI 애플리케이션 특유의 대규모 데이터를 취급하는 데 꼭 필요한 기능입니다. 프런트엔드와 백엔드 네트워크를 분리하자 보안, 성능, 안정성을 강화할 수 있었습니다.
- Day 0에서 Day 2까지 운영 자동화: 배포, 구성하고 지속적인 관리를 시작한 날부터 프로세스를 빠른 속도로 유지하는 데 수동 개입을 줄이고 인간적인 오류를 최소화해야 했습니다.
- 텔레메트리와 가시성: 이러한 기능을 함께 동원하면 시스템 성능과 상태에 대한 인사이트를 제공하여 선제적 관리와 문제 해결이 가능할 것으로 전망되었습니다.
계획 – 몇 가지 극복해야 할 문제점 포함
요구 사항이 정리되자, 클러스터를 어디에 구축할 수 있을지 알아보기 시작했습니다. 기존 데이터 센터 시설은 AI 워크로드를 지원하도록 설계되지 않았습니다. 처음부터 구축해 데이터 센터 전체를 새로 고쳐야 한다면 18~24개월이 걸릴 수 있기 때문에 이 방안은 처음부터 선택지를 벗어났습니다. 제대로 작동하는 AI 인프라를 제공할 기간이 몇 주밖에 되지 않아서, 기존 설비를 활용하되 새로운 부분을 수용하기 위해 배선과 디바이스 배포를 최소한만 변경했습니다.
다음 우려 사항은 모델을 훈련하는 데 사용하는 데이터와 관련이 컸습니다. 그런 데이터 중 일부는 AI 인프라와 같은 시설에 로컬로 저장되지 않았기 때문에, 다른 데이터 센터의 데이터를 우리 AI 인프라 스토리지 시스템에 복제하여 네트워크 레이턴시와 관련된 성능 문제를 방지하기로 했습니다. 네트워크 팀에서 이러한 AI 인프라로의 데이터 복제를 처리하기 위해 충분한 네트워크 용량을 보장해야 했습니다.
이제 실제 인프라 차례입니다. AI 인프라의 심장부는 시스코 컴퓨팅, 동급 최고의 NVIDIA GPU, 그리고 시스코 네트워킹으로 설계했습니다. 네트워킹 면에서는 프런트엔드 이더넷 네트워크와 백엔드 무손실 이더넷 네트워크를 구축했습니다. 이 모델이라면 어느 환경에서든 고급 AI 기능을 신속하게 배포하고, 더 많은 시설을 온라인으로 설정하면서 계속 추가할 수도 있겠다는 확신이 있었습니다.
제품:
- Cisco 8100 Series embedded with Silicon One running SONiC
- Cisco Nexus 9000 Series running NX-OS
- Cisco Nexus Dashboard
- Cisco UCS M7
성장하는 환경 지원
초기 인프라를 사용 가능한 상태로 설정한 뒤, 비즈니스 측에서 매주 더 많은 사용 사례를 추가했으며 우리는 이를 지원하기 위해 더 많은 AI 클러스터를 추가했습니다. 스위치 구성을 관리하고 패킷 손실을 모니터링하는 등 모든 것을 더 관리하게 쉽게 만들 방안이 필요했습니다. 그래서 Cisco Nexus Dashboard를 사용하자 운영이 대폭 간소화되었고, 앞날을 대비한 성장과 확장이 보장되었습니다. 이미 이 대시보드를 데이터 센터 운영의 다른 부분에서 이용 중이었기 때문에 AI 인프라로 확대하기도 쉬웠고, 팀원들이 또 다른 도구 사용법을 배울 필요도 없었습니다.
결과
우리 팀은 솔루션을 설계하는 과정을 빠르게 진행하고, 몇 가지 장애물을 극복할 수 있었습니다. AI 패브릭 백엔드를 설계하고 배포하는 데 3시간이 채 걸리지 않았고, AI 클러스터와 패브릭 전체를 배포하는 데 걸린 기간은 3개월 미만이었으며, 이는 대안이었던 재구축 방안 대비 80%나 빠른 속도였습니다.
현재, 이 환경은 비즈니스 전체에서 25개 이상의 사용 사례를 지원하고 있으며, 매주 더 많은 사례가 추가되고 있습니다. 여기에는 다음이 포함됩니다.
- Webex Audio: 노이즈 캔슬링과 저대역폭 데이터 예측을 위한 코덱 개발 개선
- Webex Video: 배경 교체, 제스처 인식, 얼굴 랜드마크 등을 위한 모델 훈련
- 사이버 보안 제품 및 기능을 위한 사용자 지정 LLM 훈련
우리는 지금의 비즈니스 니즈를 지원할 수 있었을 뿐만 아니라, 미래를 대비해 데이터 센터가 어떻게 진화해야 할지 그 방식도 재고하고 있습니다. 더 많은 클러스터를 활발하게 추가하고 있으며, 앞으로 블로그를 통해 이 여정의 자세한 이야기를 공유할 예정입니다. 시스코 네트워킹, 컴퓨팅, 보안의 모듈성과 유연성 덕분에 비즈니스와 함께 계속 확장해 나갈 수 있다는 확신이 생겼습니다.
기타 리소스:
- 시스코, AI 레디 데이터 센터를 신속 배포하여 미래에 대비해 확장
- Cisco Silicon One으로 AI/ML 네트워크 진화
- 시스코 라이브 암스테르담 2025: 시스코의 AI에 맞는 데이터 센터 현대화
- 시스코 라이브 암스테르담 2025: 초고성능, 확장 가능한 무중단 이더넷 패브릭을 위한 Cisco Silicone One 기반 AI 클러스터용 이더넷 패브릭
- 시스코가 본 시스코(Cisco on Cisco)