Cisco Japan Blog

Cisco LLM Security Leaderboard のご紹介:AI セキュリティの透明性を実現

1 min read



この記事は、AI Software and Platform Senior Director, AI Engineering and Research である Arjun Sambamoorthy  と AI Software & Platform Head of AI Threat Intelligence and Security Research である Amy Chang によるブログ「Introducing the Cisco LLM Security Leaderboard: Bringing Transparency to AI Security 」( 2026年 3月 23日 )の抄訳です。

 

このブログは、Arjun SambamoorthyAmy ChangNicholas Conley によって共同執筆されました。

シスコは本日、モデルのセキュリティリスクや敵対的攻撃に対する脆弱性を評価するための包括的なリソースである LLM Security Leaderboard をリリースしました。この リーダーボードは、悪意のあるプロンプトやジェイルブレイクの試みといった攻撃手法に対するモデルの対応を評価し、指標とその理由を示すなど、脆弱性の評価シグナルを提示します。このツールでは脅威がシスコの AI セキュリティおよび安全性フレームワークのタクソノミーに沿って評価されるため、組織はモデルのセキュリティリスクを明確かつ客観的に把握できるとともに、AI 導入における多層防御アプローチを採用することができます。新たなモデルが登場し、攻撃手法が進化する中、当社は今後も評価範囲を拡げるとともに、手法を改良し、モデルのリリースと同時に強化を図っていく予定です。本ツールの改善に向けた皆様からのフィードバックやご意見をお待ちしております。

Cisco LLM Security Leaderboard は以下を提供します。

  • シングルターンおよびマルチターンの攻撃シナリオにおける厳格なテストに基づく客観的なセキュリティスコア(ランク付け)
  • Cisco AI セキュリティフレームワークに準拠した詳細な脅威マッピング
  • 透明性の高い評価手法(測定対象の正確な理解を支援)

セキュリティパフォーマンスが重要な理由

大規模言語モデル(LLM)の急速な普及に伴い、実際の攻撃に対する標準化されたセ キュリティ評価が急務となっています。工学、数学、科学分野におけるベンチマーク機能と比較して、セキュリティ評価基準の策定はこれまで遅れをとっていた課題と言えます。AI アシスタントやチャットボットなどの AI 搭載アプリケーションを導入済み、あるいは導入を検討している組織は、これらのモデルが敵対的な攻撃手法にどのように対処するかを示す明確かつ実用的なデータを基に、資産のセキュリティを強化する方法を把握する必要があります。

セキュリティの観点においては、すべての LLM が同等に構築されているわけではありません。自組織のユースケースに適さないモデルを導入した場合、有害なコンテンツの生成からデータ漏えい、ブランドイメージの毀損に至るまで、さまざまな弊害が生じる恐れがあります。こうしたモデルがエージェントと連携している場合、被害リスクは飛躍的に増大する一方、一度発生した被害を元に戻すことは極めて困難になります。

 

シスコのアプローチの特長

 

包括的な攻撃カバレッジ

シスコのセキュリティ評価は、単なるプロンプトインジェクションテストにとどまりません。有害または悪意のある応答を引き出そうとする、シングルターンおよびマルチ ターンの両方の攻撃に対するモデルの動作を評価します。各々のモデルについて、シングルターン耐性(50%)とマルチターン防御能力(50%)を均等に重み付けした総合セキュリティスコアが算出されるため、セキュリティ態勢を包括的に把握することができます。

 

公平かつ公正なテスト

テストはいずれも、追加のガードレールや安全層が付加されていないベースモデルに対して実施されます。本番環境への展開ではガードレール、コンテンツフィルタ、追加の安全メカニズムが導入されることが一般的ですが、当社のセキュリティ評価はモデル自体に組み込まれた固有のセキュリティ機能に焦点を当てています。このアプローチにより、多様なモデルプロバイダーやバージョンにわたる公平なベースライン評価が可能となり、組織は、基盤となるセキュリティ態勢を把握してから追加の保護対策を施すことができます。

 

・Cisco AI セキュリティフレームワーク

シスコは、あらゆる攻撃データを AI セキュリティフレームワークのタクソノミーにマッピングしています。これにより、特定の種類の攻撃に対するモデルの脆弱性や、そうした弱点が露呈する原因や箇所を把握しやすくなります。このタクソノミーは、以下 3 つの側面に沿って階層的に分類されます。

  1. 目的 — 概要レベルのセキュリティ目標および攻撃カテゴリ
  2. 手法 — 攻撃者がモデルを侵害するために用いる具体的な手法
  3. サブ手法 — 詳細な攻撃のバリエーションおよび実装の詳細透明性

独自の評価とは異なり、Cisco LLM Security Leaderboard は一般に公開されており、導入の決定に先立って各モデルを同時に比較したり、関心のある特定のモデルをフィルタリングして検索したり、手順、コンテンツの種類、攻撃手法ごとのパフォーマンスを詳細に分析したり、当社のタクソノミーの各レベルにおける防御率を把握したりすることが可能です。

 

リーダーボードの操作

このプラットフォームは、[LLM セキュリティランキング(LLM Security Rankings)]、 [Cisco AI セキュリティおよび安全フレームワーク(Cisco AI Security and Safety Framework)]、[手法(Methodology)] という 3 つの主要コンポーネントで構成されています。

 

・ランキングページ

このページでは、包括的なモデル セキュリティ ランキングを確認でき、シスコの攻撃データセットに対してパフォーマンスが最も高い、または低いモデルを即座に比較することができます。各モデルの項目を展開すると、さまざまな種類の攻撃における詳細なパフォーマンス指標が表示されます。

1. メインのランキング画面には総合セキュリティスコアが表示され、パフォーマンスが最も高いモデルや低いモデル、全モデルを素早く絞り込むためのフィルターが用意されています。検索機能を使用すれば、モデルを素早く検索することができます。

 

・詳細なモデル指標

この詳細ビューにより、セキュリティチームは特定の脅威パターンを把握し、各自の ユースケースに沿って的確なリスク評価を行うことができます。任意のモデルをクリックして包括的なパフォーマンスデータを展開し、以下の項目を調査することができます。

  • シングルターン攻撃およびマルチターン攻撃における全体的な防御率と成功率
  • 最も高い/低いパフォーマンスが見られた手法
  • 最も強力/脆弱な防御が見られたコンテンツタイプ
  • サブ手法の脅威パターン
  • マルチターン戦略の有効性

2. モデルビューを展開すると、攻撃手法、コンテンツタイプ、サブ手法、マルチターン戦略ごとに、パフォーマンスの詳細な内訳が表示されます。指標ごとに防御率と攻撃成功率の両方が表示されるため、透明性が一貫して確保されます。

 

Cisco AI セキュリティおよび安全性フレームワークページ

シスコのセキュリティフレームワークに沿ってモデルのパフォーマンスが評価されたインタラクティブな階層構造を閲覧し、ほぼすべてのモデルに共通する課題となる特定の攻撃手法や、モデル固有の脆弱性に関するインサイトを得ることができます。また、モデルごとにフィルタリングすることで、フレームワーク全体における特定のモデルのパフォーマンスを確認し、平均的な防御率や全体的な攻撃カバー率を把握することもできます。こうした詳細なインサイトにより、的を絞ったリスク軽減戦略の策定が可能になります。

3. このインタラクティブな分類ツリーでは、すべての攻撃データが Cisco AI セキュリティフレームワークとマッピングされています。各ノードには、防御率、テストされたプロンプトの総数、および拒否数/成功数が表示されます。モデルごとにフィルタリングして、階層全体におけるセキュリティパフォーマンスを確認できます。

・手法ページ

透明性が信頼の基盤となります。[手法(Methodology)] ページでは、以下の詳細を確認できます。

  • 総合スコアの算出方法
  • データソースと評価基準
  • スコアの評価範囲(優良:85 ~ 100%、良好:70 ~ 84%、普通:50 ~69%、不良:0 ~ 49%
  • 用語一覧
  • 品質保証手順

このリーダーボードで評価されたモデルはいずれも、追加のガードレールが適用されていない基本構成でテストされました。ただし、一部のクラウド サービス プロバイダーでは、無効化できない組み込みのコンテンツフィルタリングやセキュリティ対策が適用されている場合があります。そのため、観測されたモデルの動作には、モデル固有のレジリエンスと、テスト実施時に適用されていたプロバイダーレベルの保護策がいずれも反映されている可能性があります。

 

データに基づく事実

初期のランキング調査によると、LLM のセキュリティ機能には大きなばらつきが見られます。一部のモデルは 85% を超える優れた防御率を示しており、直接的な攻撃と会話型攻撃の両方に対して優れた防御を実現しています。一方、信頼関係を築いてから悪意のある要求を行うというマルチターン型の攻撃手法において特に顕著な脆弱性が見られるモデルもあります。

テストはガードレールのないベースモデルに対して行われるため、組織は一貫した基準に基づいてセキュリティ機能を評価することができます。本番環境への展開にあたっては、これらのインサイトと具体的なユースケースの要件に基づき、追加の保護策を講じる必要があります。

当社のアプローチを実際にご覧になりたい方は、今すぐ Cisco LLM Security Leaderboardにアクセスしてください。

 


 

免責事項:提示されているスコアおよびランキングは、詳述のベンチマーク手法に基づいてモデルのパフォーマンスを反映することのみを目的としており、パフォーマンスに係る推奨や保証を意味するものではありません。ユーザーは、独立した評価を実施し、特定の AI ガバナンスおよびセキュリティ要件に対するモデルの妥当性を判断する責任を単独で負うものとします。Cisco LLM Security Leaderboard は「現状有姿」で提供され、いかなる種類の保証も付随しません。シスコが、評価対象のモデルが安全であること、セキュアであること、またはお客様の特定のユースケースに適していることを保証するものではありません。

Authors

中村 光宏

セキュリティ事業

SE本部長

コメントを書く