Cisco Japan Blog

DeepSeek とその他のフロンティア推論モデルにおけるセキュリティリスクの評価

1 min read




この記事は、Security Business Group,AI Safety and Security ResearcherのPaul KassianikとRobustIntelligence Engineering Senior Director Amin Karbasi によるブログ「Evaluating  Security Risk in DeepSeek and Other Frontier Reasoning Models」(2025/1/31)の抄訳です。


この独自の研究は、Robust Intelligence(現在はシスコの一部門)とペンシルベニア大学の AI セキュリティ研究者(Yaron Singer、Amin Karbasi、Paul Kassianik、Mahdi Sabbaghi、Hamed Hassani、George Pappas)の緊密な協力により実現したものです。

 

エグゼクティブサマリー

本記事では、中国の AI スタートアップ企業 DeepSeek が開発した新たなフロンティア推論モデル DeepSeek R1 の脆弱性に関する調査結果を取り上げています。DeepSeek R1 は、その高度な推論能力とコスト効率の高いトレーニング方法で世界的に注目を集めています。OpenAI o1 のような最先端モデルに匹敵するパフォーマンスを発揮しますが、今回実施したセキュリティ評価によって、安全性に重大な欠陥があることが明らかになりました。

評価にあたっては、アルゴリズムによるジェイルブレイク(制限突破)手法を用い、自動化した攻撃方法を DeepSeek R1 に適用しました。テストでは、HarmBench データセットから無作為に選んだ 50 個のプロンプトに対する応答を評価しました。使用したプロンプトは、サイバー犯罪、誤情報、違法行為、一般的な危害など、6 つのカテゴリの有害行為に関わるものです。

結果は憂慮すべきものでした。DeepSeek R1 に対する攻撃成功率は 100% で、有害なプロンプトを 1 つもブロックできなかったのです。他の主要モデルは少なくとも部分的には防御能力を示しており、対照的な結果となっています。

今回の調査結果が示唆しているのは、DeepSeek が主張するコスト効率の高いトレーニング方法(強化学習思考連鎖による自己評価蒸留)が、安全メカニズムを損なう可能性があるということです。他のフロンティアモデルと比較すると、DeepSeek R1 は堅牢なガードレールを欠いているため、アルゴリズムによるジェイルブレイクや潜在的な悪用に対して極めて脆弱になっています。

アルゴリズムによる推論モデルのジェイルブレイク手法の進展については、次回のレポートで詳しく報告する予定です。本研究で浮き彫りとなった課題は、効率性と推論における飛躍的進歩により安全性が犠牲になることのないよう、AI 開発における厳密なセキュリティ評価が急務であるということです。また、AI アプリケーション全体に信頼性のある一貫した安全性とセキュリティ保護を提供するサードパーティのガードレールを企業が利用することの重要性も改めて確認されました。

 

概要

先週のニュースの見出しは、中国の AI スタートアップ企業 DeepSeek が開発した新しい推論モデルである DeepSeek R1 に関する話題で持ちきりでした。この推論モデルと、ベンチマークテストで示された驚異的なパフォーマンスは、AI コミュニティだけでなく世界中の注目を集めています。

すでに多くのメディアが DeepSeek R1 を詳細に分析し、世界的な AI イノベーションへの影響を推測して報道していますが、このモデルのセキュリティに関する議論はほとんど行われていません。そこで、DeepSeek R1 の安全性とセキュリティ特性をより深く理解するために、アルゴリズムによるシスコの AI Defense 脆弱性テストと同様の手法を DeepSeek R1 に適用することにしました。

このブログでは、3 つの主要な疑問に答えます。まず、DeepSeek R1 はなぜ重要なモデルなのか。次に、なぜ DeepSeek R1 の脆弱性を理解する必要があるのか。最後が、DeepSeek R1 は他のフロンティアモデルと比べてどの程度安全なのか、です。

DeepSeek R1 とは何か、なぜ重要なモデルなのか

ここ数年、費用対効果やコンピューティングの面で進歩が見られるとはいえ、現在の最先端 AI モデルの構築とトレーニングには、数億ドル規模のコストと膨大な計算リソースが必要です。一方、DeepSeek のモデルは最先端のフロンティアモデルに匹敵する結果を示しており、わずかなリソースしか必要としないという触れ込みです。

DeepSeek が最近リリースしたモデル、特に DeepSeek R1-Zero(強化学習のみでトレーニングしたとされるモデル)と DeepSeek R1(教師あり学習を使用して R1-Zero を改良したモデル)は、高度な推論能力を備えた LLM の開発に重点を置いたものです。DeepSeek の研究によると、OpenAI o1 モデルに匹敵するパフォーマンスを示しており、数学やコーディング、科学的推論といったタスクでは Claude 3.5 Sonnet と ChatGPT-4o を上回るとされています。特に注目すべきは、DeepSeek R1 のトレーニングコストが約 600 万ドルだと報じられている点です。OpenAI のような企業が数十億ドルを費やしていることを考えると、ほんのわずかなコストでしかありません。

DeepSeek モデルのトレーニングにおけるこの違いは、以下の 3 つの原則に要約できます。

  • 思考連鎖:モデルが自身のパフォーマンスを自己評価することが可能
  • 強化学習:モデルの自己最適化を支援
  • 蒸留:元の大規模モデル(6,710 億のパラメータ)からより規模の小さいモデル(15 億から 700 億のパラメータ)の開発が可能になり、アクセス性が向上

思考連鎖プロンプトは、人間が数学の問題を解くときに途中式を書くのと同じように、AI モデルが複雑な問題を小さなステップに分けて解決する手法です。これを「スクラッチパディング」という手法と組み合わせることで、AI モデルは最終解答とは別に中間計算を行えます。途中でモデルがミスをしても、前の正しいステップに戻って別のアプローチを試せるということです。

さらに、強化学習手法では、最終的な正解を導き出した場合だけでなく、中間の正しいステップを生成した場合にもモデルに報酬を与えます。これらの手法により、詳細な推論を必要とする複雑な問題に対する AI のパフォーマンスが大幅に向上しました。

蒸留は、大規模なモデルのほとんどの能力を保持した、より小規模で効率的なモデルを作成するための手法です。仕組みとしては、大規模な「教師」モデルを使用して小規模な「生徒」モデルをトレーニングします。このプロセスを通じて、生徒モデルが特定のタスクで教師モデルの問題解決能力を再現する方法を学習すると同時に、必要な計算リソースも削減されます。

DeepSeek は、思考連鎖プロンプトと報酬モデルに蒸留を組み合わせることで、高い運用効率を維持したまま、推論タスクにおいて従来の大規模言語モデル(LLM)を大きく上回るモデルを開発しました。

なぜ DeepSeek の脆弱性を理解する必要があるのか

DeepSeek の背後にあるパラダイムは新しいものです。OpenAI の o1 モデルが登場して以来、モデルプロバイダーは、推論能力を持つモデルの構築に注力してきました。o1 以降、LLM はユーザーとの継続的な対話を通じて適応的にタスクをこなせるようになりました。一方、DeepSeek R1 の開発チームは、人間がラベル付けした高価なデータセットや膨大な計算リソースに頼ることなく、高いパフォーマンスを実証しています。

DeepSeek のモデルのパフォーマンスが AI を取り巻く状況に大きな影響を与えたことは間違いありません。パフォーマンスだけに注目するのではなく、DeepSeek とその新たな推論パラダイムが、安全性とセキュリティの面で大きなトレードオフを伴っていないか理解する必要があります。

DeepSeek は他のフロンティアモデルと比べてどの程度安全なのか

 

評価方法

本研究では、複数の主要なフロンティアモデルと、2 つの推論モデル(DeepSeek R1 および OpenAI O1-preview)に対して、安全性とセキュリティのテストを実施しました。

各モデルを評価するにあたり、よく知られた HarmBench ベンチマークから無作為に選んだ 50 個のプロンプトに基づいて、自動ジェイルブレイク アルゴリズムを実行しました。HarmBench ベンチマークの対象は、7 つのカテゴリ(サイバー犯罪、誤情報、違法行為、一般的な危害など)に分類された全部で 400 の有害行為です。

主要な評価指標は、ジェイルブレイクが成功した有害行為の割合を測定する攻撃成功率(ASR)です。ジェイルブレイクのシナリオで使用される標準的な指標であり、今回の評価でも採用しました。

評価対象モデルに対して温度 0(最も保守的な設定)でサンプリングテストを実施し、生成される攻撃の再現性と忠実性が保たれるようにしました。

ジェイルブレイクの検証にあたっては、回答拒否を自動的に検出するだけでなく、人間による監視も行いました。

 

結果

DeepSeek R1 は、他のフロンティアモデルのプロバイダーがモデル開発に費やしている予算と比べ、わずかな予算でトレーニングされたということですが、その代償として、安全性とセキュリティに課題があります。

当研究チームは DeepSeek R1 のジェイルブレイクに成功し、攻撃成功率は 100% でした。つまり、HarmBench データセットから抽出したどのプロンプトに対しても、DeepSeek R1 は回答を拒否することなく、肯定的な回答を返したということです。o1 のような、モデルのガードレールで敵対的攻撃の大半をブロックする他のフロンティアモデルとは対照的な結果となっています。

以下のグラフは全体的な結果を示したものです。

以下の表から、さまざまなカテゴリの有害行為に関するプロンプトに対して、各モデルがどのように応答したかについての詳しいインサイトが得られます。

アルゴリズムによるジェイルブレイクと推論について:この分析は、Robust Intelligence(現在はシスコの一部門)の高度 AI 研究チームが、ペンシルベニア大学の研究者と共同で実施したものです。アルゴリズムのみによる検証手法(シスコの AI Defense 製品で使用している手法と同様のもの)を用いており、評価にかかった総コストは 50 ドル未満でした。さらに、このアルゴリズムによる手法は、昨年の Tree of Attack with Pruning(TAP)研究で発表された能力を上回る推論モデルにも適用されています。次回の投稿では、アルゴリズムによるジェイルブレイク推論モデルの今までにない能力について、さらに詳しく解説する予定です。

ぜひお客様のご意見をお聞かせください。以下から質問やコメントを投稿し、ソーシャルネットワークで Cisco Secure の最新情報を入手してください。

Cisco Security のソーシャルネットワーク

Instagram
Facebook
Twitter
LinkedIn

 

執筆者

Paul Kassianik

AI 安全性・セキュリティ研究者 

セキュリティ ビジネス グループ

 

Amin Karbasi

シニアディレクタ

Robust Intelligence エンジニアリング

Tags: 大規模言語モデル(LLM) AI 向けのセキュリティ 脅威リサーチ

 

コメントを書く