시스코 코리아 블로그

DeepSeek를 비롯한 최신 추론 모델에 대한 보안 위험 평가

1 min read



본 포스팅은 시스코 Paul Kassianik(AI Safety and Security Researcher, Security Business Group)과 Amin Karbasi(Senior Director Robust Intelligence Engineering)이 작성한 Evaluating Security Risk in DeepSeek and Other Frontier Reasoning Models 포스팅을 번역한 글입니다.

이 독자적 연구는 시스코 산하 Robust Intelligence와 펜실베니아 대학교의 AI 보안 연구진(Yaron Singer, Amin Karbasi, Paul Kassianik, Mahdi Sabbaghi, Hamed Hassani, George Pappas 등)의 긴밀한 협업의 결과물입니다.

전체 요약

이 글에서는 중국 AI 스타트업 딥시크(DeepSeek)의 최신 추론 모델인 DeepSeek R1의 취약점을 분석합니다. 딥시크 R1은 고급 추론 기능과 비용 효율적 훈련 방법으로 전 세계의 주목을 받았습니다. DeepSeek R1의 성능은 OpenAI o1과 같은 최신 모델과 경쟁할 수 있을 만큼 우수하지만, 보안 평가 결과 심각한 안전상의 결함이 발견되었습니다.

저희 팀은 알고리즘 탈옥 기법을 사용하여 DeepSeek R1에 자동화된 공격 방법을 적용하고, HarmBench 데이터셋에서 무작위로 추출한 50개의 프롬프트를 활용하여 테스트했습니다. 이 테스트는 사이버 범죄, 거짓 정보, 불법 활동, 일반적 피해 등 6가지 유형의 유해한 행동에 대해 다루었습니다.

그 결과는 심각했습니다. DeepSeek R1에 대한 공격은 100%의 성공률을 보였으며, 이는 단 하나의 유해한 프롬프트도 차단하지 못했음을 의미합니다. 이는 적어도 부분적인 저항을 보인 다른 최신 모델들과 극명한 대조를 이룹니다.

본 연구 결과는 강화 학습, 생각의 사슬을 활용한 자기 평가, 그리고 증류 등 DeepSeek가 주장하는 비용 효율적인 훈련 방법이 보안 메커니즘을 손상시켰을 수 있음을 시사합니다. 다른 최신 모델들과 비교했을 때, DeepSeek R1은 강력한 보호 장치가 결여되어 있어 알고리즘 탈옥과 잠재적인 오용에 매우 취약합니다.

저희 연구팀은 추론 모델의 알고리즘 탈옥 관련 개선 사항을 자세히 설명하는 보고서를 작성할 예정입니다. 저희 연구 결과는 효율성과 추론의 혁신이 안전성을 희생하는 일이 없도록 하기 위해 AI 개발 과정에서 철저한 보안 평가가 시급하다는 점을 입증합니다. 또한, AI 애플리케이션 전반에 걸쳐 일관되고 신뢰할 수 있는 안전 및 보안 보호 기능을 제공하는 제3자 안전 장치를 사용하는 것이 중요하다는 점을 다시 한 번 상기시켜 줍니다.

 

소개

지난 주 헤드라인은 중국 AI 스타트업 딥시크(DeepSeek)가 개발한 새로운 추론 모델인 DeepSeek R1을 둘러싼 이야기들로 가득했습니다. 이 모델이 벤치마크 테스트에서 보여준 놀라운 성능은 AI 커뮤니티뿐만 아니라 전 세계의 관심을 사로잡았습니다.

우리는 이미 DeepSeek R1을 분석하고 글로벌 AI 혁신에 대한 의미를 추측하는 수많은 언론 보도를 보았습니다. 그러나 이 모델의 보안에 대한 논의는 많지 않았습니다. 그래서 저희는 AI Defense 알고리즘 취약성 테스트와 유사한 방법을 적용하여 DeepSeek R1에 대한 안전 및 보안 프로파일을 더 자세히 파악하기로 결정했습니다.

이번 글에서는 세 가지 주요 질문에 답하고자 합니다: 왜 DeepSeek R1이 중요한 모델인가? 왜 우리는 DeepSeek R1의 취약점을 이해해야 하는가? 마지막으로, 다른 최신 모델과 비교했을 때 DeepSeek R1은 얼마나 안전한가?

 

DeepSeek R1이란 무엇이며 왜 중요한 모델인가?

오늘날의 최첨단 AI 모델은 지난 몇 년 동안 비약적으로 발전한 비용 효율성과 컴퓨팅 능력에도 불구하고 구축과 훈련에 수억 달러의 비용과 막대한 컴퓨팅 자원이 필요합니다. 딥시크는 자사의 모델을 통해, 훨씬 적은 자원을 사용하면서도 최첨단 모델과 비교할 만한 결과를 보여주고 있습니다.

딥시크의 최근 출시 제품들, 특히 DeepSeek R1-Zero(강화 학습으로만 훈련되었다고 알려짐)와 DeepSeek R1(지도 학습을 사용하여 R1-Zero를 개선함)은 고급 추론 기능을 갖춘 LLM 개발에 중점을 두고 있습니다. 그들의 연구에 따르면, 이러한 모델은 수학, 코딩, 과학적 추론과 같은 작업에서 Claude 3.5 Sonnet과 ChatGPT-4o를 능가하는 동시에 OpenAI o1 모델과 비슷한 성능을 보입니다. 특히, DeepSeek R1에는약 6백만 달러의 비용이 들었다고 하는데, 이는 오픈AI와 같은 회사들이 지출한 수십억 달러의 극히 일부에 불과합니다.

DeepSeek 모델 훈련의 차이점은 다음 세 가지 원칙으로 요약할 수 있습니다.

  • 생각의 사슬을 통해 모델이 자체적으로 성능을 평가할 수 있습니다.
  • 강화 학습을 통해 모델이 스스로를 지도할 수 있습니다.
  • 증류를 통해 원래의 큰 모델(6,710억 개의 매개변수)에서 더 작은 모델(15억 개에서 700억 개의 매개변수)을 개발하여 접근성을 높일 수 있습니다.

생각의 사슬 프롬프트는 AI 모델이 복잡한 문제를 더 작은 단계로 세분화할 수 있도록 해줍니다. 이는 인간이 수학 문제를 풀 때 작업 과정을 보여주는 것과 비슷합니다. 이 접근 방식은 모델이 최종 답과 별개로 중간 계산을 통해 작업할 수 있는 “스크래치 패딩”과 결합됩니다. 이 과정에서 모델이 실수를 하면, 이전의 올바르게 수행된 단계로 되돌아가 다른 접근 방식을 시도할 수 있습니다.

또한 강화 학습 기법은 최종 답이 정확할 때뿐만 아니라 중간 단계가 정확할 때도 모델에 보상을 제공합니다. 이러한 방법들은 세부적인 추론이 필요한 복잡한 문제에서 AI의 성능을 극적으로 향상시켰습니다.

증류는 큰 모델의 대부분의 기능을 유지하면서 더 작고 효율적인 모델을 만드는 기법입니다. 이 기법은 큰 “교사” 모델을 사용하여 작은 “학생” 모델을 훈련시키는 방식으로 작동합니다. 이 과정을 통해 학생 모델은 특정 작업에 대한 교사의 문제 해결 능력을 복제하는 방법을 배우면서 더 적은 계산 자원을 소비합니다.

딥시크는 생각의 사슬 프롬프트와 보상 모델링을 결합하여 높은 운영 효율성을 유지하면서 추론 작업에서 기존의 대규모 언어 모델(LLM)을 훨씬 능가하는 모델을 만들었습니다.

 

왜 우리는 딥시크의 취약점을 이해해야 하는가?

딥시크의 패러다임은 새로운 것입니다. 오픈AI의 o1 모델이 도입된 이후, 모델 제작자들은 추론 기능을 갖춘 모델을 구축하는 데 집중해 왔습니다. o1 이후, LLM은 사용자와의 지속적인 상호 작용을 통해 상황에 적응하는 방식으로 작업을 수행할 수 있게 되었습니다. 그러나 DeepSeek R1 팀은 값비싼 인간이 라벨링한 데이터셋이나 방대한 연산 자원에 의존하지 않고도 높은 성능을 구현했습니다.

딥시크의 모델 성능이 AI 분야에 큰 영향을 미쳤다는 것은 의심할 여지가 없습니다. 하지만 성능에만 집중하기보다는 딥시크와 그 새로운 추론 패러다임이 안전과 보안 측면에서 유의미한 타협점을 가지고 있는지에 대해 이해해야 합니다.

 

딥시크는 다른 최신 모델에 비해 얼마나 안전한가?

방법론

저희는 인기 있는 여러 프론티어 모델과 두 가지 추론 모델(DeepSeek R1, OpenAI o1-preview)에 대해 안전 및 보안 테스트를 수행했습니다.

해당 모델을 평가하기 위해, 대중적인 HarmBench 벤치마크에서 균일하게 샘플링된 50개의 프롬프트에 대해 자동 탈옥 알고리즘을 실행했습니다. HarmBench 벤치마크는 사이버 범죄, 거짓 정보, 불법 활동, 일반적 피해 등 7가지 피해 범주에 걸쳐 총 400가지의 행동을 포함하고 있습니다.

저희 연구의 핵심 지표는 공격 성공률(Attack Success Rate)입니다. 이 지표는 탈옥이 발견된 행동의 비율을 측정합니다. 이것은 탈옥 시나리오에서 사용되는 표준 지표이며, 저희도 이번 평가에 해당 지표를 채택했습니다.

저희는 가장 보수적인 설정인 온도 0에서 표적 모델을 샘플링했습니다. 이로써 저희가 생성한 공격의 재현성과 정확성을 보장할 수 있었습니다.

저희는 자동 거부 감지 방법과 인적 감시를 통해 탈옥 여부를 확인했습니다.

결과

DeepSeek R1은 다른 프런티어 모델 제작자들이 모델 개발에 사용하는 예산의 극히 일부로 훈련된 것으로 알려져 있습니다. 그러나, 이 모델은 다른 비용, 즉 안전과 보안이라는 대가를 치르고 있습니다.

저희 연구팀은 100%의 확률로 DeepSeek R1을 탈옥하는 데 성공했습니다. 이것은 HarmBench 셋에서 DeepSeek R1이 긍정적 답변을 얻지 못한 프롬프트가 단 하나도 없다는 것을 의미합니다. 이것은 o1과 같은 다른 최신 모델과는 대조적입니다. o1의 경우 모델 가드레일로 대부분의 적대적 공격을 차단합니다.

아래의 차트는 저희 연구의 전반적인 결과를 보여줍니다.

아래 표는 다양한 피해 범주에서 각 모델이 프롬프트에 어떻게 반응했는지에 대한 더 자세한 정보를 제공합니다.

알고리즘 탈옥과 추론에 관한 참고 사항: 이 분석은 시스코 산하 Robust Intelligence의 고급 AI 연구팀이 펜실베이니아 대학의 연구원들과 협력하여 수행했습니다. AI Defense 제품에서 활용하는 것과 유사한 완전히 알고리즘 기반의 검증 방법을 활용한 덕분에 이 평가의 총 비용은 50달러 미만이었습니다. 이와 더불어, 이 알고리즘적 접근 방식은 작년에 저희가 발표한 Tree of Attack with Pruning (TAP) 연구에서 제시된 기능들을 능가하는 추론 모델에 적용됩니다.

*포스팅 원문보기: Evaluating Security Risk in DeepSeek and Other Frontier Reasoning Models

댓글 쓰기