
- サイバー犯罪者は、大規模言語モデル(LLM)などの人工知能(AI)技術を犯罪目的のハッキング活動に役立てる方法を模索し続けています。
- 一部のサイバー犯罪者は、検閲のない LLM や、犯罪用途に特化したカスタム LLM を違法な目的で使用しています。
- 宣伝されている悪意のある LLM の機能を見ると、サイバー犯罪者がこれらのシステムをさまざまな外部ツールに接続して、外部へのメールの送信、サイトの脆弱性のスキャン、窃取したクレジットカード番号の検証などを行っていることがわかります。
- 正規の LLM をジェイルブレイクするなど、サイバー犯罪者が正当な AI 技術を悪用して犯罪活動に役立てている事例もあります。
生成 AI と LLM が世界中で急速に普及しています。説得力のある文章の生成、問題解決、コンピューターコードの作成といった能力を備えた LLM は、社会のほぼあらゆる分野に組み込まれつつあります。Hugging Face
(モデルをホストするプラットフォーム)によると、現在では 180 万種類以上のモデルから LLM を選択できるようになっています。
LLM には通常、アライメントやガードレールといった重要な安全機能が組み込まれています。アライメントとは、LLM がバイアスを最小限に抑え、人間の価値観や倫理に沿った出力を生成できるようにするためのトレーニングプロセスです。ガードレールとは、ユーザーの入力に対して LLM が有害または望ましくないアクションを実行しないように制御する、追加のリアルタイムの安全メカニズムです。最も先進的な(「フロンティア」とも呼ばれる)LLMの多くは、このような保護機能を備えています。たとえば ChatGPT にフィッシングメールの作成を依頼すると、「申し訳ありませんが、フィッシングメールの作成には対応できません」といった拒否応答が返されます。
LLM を攻撃の実行や強化に利用しようとするサイバー犯罪者にとって、こうした安全メカニズムは大きな障壁となります。そのため、サイバー犯罪者は目的を達成するために、検閲のない LLM、サイバー犯罪者によって設計された LLM、そして正規の LLM をジェイルブレイクしたものを利用する傾向を強めています。
検閲のない LLM
検閲のない LLM とは、アラインメントされていないモデルのことであり、ガードレールの制約なしに動作します。こうした LLM は、ユーザーの入力に対して、センシティブな情報、物議を醸す内容、あるいは潜在的に有害な出力を躊躇なく生成します。そのため、検閲のない LLM はサイバー犯罪者にとって理想的なツールとなっています。

図 1. ハッキングフォーラム「Dread」で宣伝されている、検閲のない LLM「OnionGPT」
検閲のない LLM は簡単に入手できます。たとえば、クロスプラットフォームの Omni-Layer Learning Language Acquisition(Ollama)フレームワーク
を使用すれば、ユーザーは検閲のない LLM をローカルマシンにダウンロードして実行できます。Ollama には、Meta の Llama 2 モデルをベースにした「Llama 2 Uncensored」など、検閲のないモデルが複数含まれています。Ollama を実行すると、安全性を重視する LLM 実装では拒否されるようなプロンプトも入力できるようになります。ただし、これらのモデルはユーザーのローカルマシンで実行されるため、一般的により優れた結果をもたらす大規模モデルを実行するには、より多くのシステムリソースが必要になるという欠点があります。

図 2. フィッシングメールのプロンプトと「Llama 2 Uncensored」の出力例
サイバー犯罪者の間で人気のある検閲のない LLM には、他にも WhiteRabbitNeo
というツールがあります。WhiteRabbitNeo は「(開発)セキュリティ運用チーム向けの検閲のない AI モデル」を謳っており、「攻撃・防御両面のサイバーセキュリティのユースケース」に対応しているとしています。この LLM は、攻撃用のセキュリティツールやフィッシングメールなどを躊躇なく作成します。

図 3. WhiteRabbitNeo の検閲のない LLM の出力例
研究者たちは、既存のオープンソースモデルのトレーニングデータに組み込まれたアライメントを解除する方法も公開
しています。アライメントを解除することで、修正済みのトレーニングデータを用いてベースモデルを微調整し、LLM を検閲のない状態にすることができます。
サイバー犯罪者によって設計された LLM
一般的な LLM のほとんどには強力なガードレールが備わっているため、一部の野心的なサイバー犯罪者は、制限のない独自の LLM を開発し、他のサイバー犯罪者に販売しています。たとえば、GhostGPT、WormGPT、DarkGPT、DarkestGPT、FraudGPT などのアプリケーションです。

図 4. ダーク Web 上の FraudGPT のホームページ
たとえば FraudGPT の開発者である CanadianKingpin12 は、ダーク Web で FraudGPT を宣伝しており、Telegram のアカウントも持っています。ダーク Web 上の FraudGPT のサイトでは、以下のような興味深い機能が宣伝されています。
- 悪意のあるコードの作成
- 検出されないマルウェアの作成
- VBV(VISA 認証サービス)を要求しない BIN(銀行識別番号)の検索
- フィッシングページの作成
- ハッキングツールの作成
- グループ、サイト、マーケットの検索
- 詐欺ページ/詐欺手紙の作成
- 漏洩した情報や脆弱性の発見
- コーディング/ハッキングの学習
- 不正カードの利用が可能なサイトの検索
- 数百万件のフィッシングメールのサンプル
- 6220 件以上のマルウェアソースコードのサンプル
- ログ/Cookie を複製するための自動スクリプト
- パネル内でのページホスティング(月 10 ページ)。安全でないサイトについての Google Chrome の警告表示を回避する機能付き
- コードの難読化
- カスタムデータセット(.html 形式のサンプルページをアップロード)
- 仮想マシンとアカウントのボット作成(ライセンスごとに月 1 台の仮想マシン)
- GoldCheck CVV チェッカーの利用
- スプーフィング機能付き OTP ボット(*追加パッケージ)
- GoldCheck API による CVV チェック
- username:password の Web サイト設定の作成
- OpenBullet のリモート設定
- 大規模 CVE データベースでの Web サイトの脆弱性スキャン(*PRO のみ)
- リアルなフィッシングパネル、ページ、SMS、メールの生成
- Web シェルからのメールの送信
Talos は Telegram で CanadianKingpin12 に接触し、FraudGPT へのアクセスを試みました。かなりの交渉の末、ようやく FraudGPT ダーク Web サイトのユーザー名とパスワードを入手しましたが、CanadianKingpin12 が提供したユーザー名とパスワードは機能しませんでした。その後、CanadianKingpin12 は、FraudGPT のログインページ用のソフトウェア「クラック」の購入代金として、仮想通貨の送金を Talos に要求してきました。この時点で、CanadianKingpin12 が実際に機能する製品を持っておらず、FraudGPT の潜在顧客から仮想通貨を騙し取る詐欺を行っていたことが明らかになりました。これは、FraudGPT LLM へのアクセスを購入しようとして CanadianKingpin12 に騙された他の複数の被害者によって裏付けられています。このような詐欺は、悪質な人物を相手にする際に常に存在するリスクであり、サイバー犯罪界においては詐欺の常套手段となっています。
ダーク Web 上には、サイバー犯罪者によって設計された同様の LLM プロジェクトが他にもあります。DarkestGPT というサイバー犯罪者向けの LLM は、1 か月のサブスクリプションが 0.0015BTC から提供されており、以下の機能があると宣伝されています。

図 5. ダーク Web サイト上の DarkestGPT の「Tools and Potential」タブ
LLM のジェイルブレイク
検閲のない LLM は、リソースの制約に加え、サイバー犯罪者による LLM の提供において詐欺や不正が横行していることから、その実用性には限界があります。このため、サイバー犯罪者の多くは正規の LLM を悪用するようになっています。サイバー犯罪者が克服しなければならない最大の障壁が、トレーニングアライメントとガードレールです。これらは、LLM が非倫理的、違法、または有害な内容を含むプロンプトに応答することを防ぐ役割を果たしています。プロンプトインジェクションの一種
であるジェイルブレイク攻撃は、LLM にアライメントトレーニングとガードレールによる保護を無視させることを目的としています。
LLM を騙して危険な応答をさせる方法は数多く存在します。新しいジェイルブレイク手法が絶えず研究され発見される一方で、LLM 開発者はガードレールを強化することで応戦しており、一種のジェイルブレイク軍拡競争が繰り広げられています。以下のようなジェイルブレイク手法がありますが、これらはごく一部です。
難読化/エンコードベースのジェイルブレイク
テキストベースのジェイルブレイク攻撃では、特定の語句を難読化することで、ハードコードされている特定の単語やトピックに対する制限を回避したり、LLM 開発者が設定した保護を回避するような非標準的なパスに従う実行を試みたりします。こうした難読化手法には以下のようなものがあります。
- Base64/Rot-13 エンコーディング
- 別の言語の使用
- L33t sp34k
- モールス信号
- 絵文字
- 文字列へのスペースや UTF-8 文字の挿入、その他

敵対的サフィックス ジェイルブレイク
この攻撃は難読化やエンコードの手法と似ています。敵対的サフィックス ジェイルブレイクでは、プロンプトの内容自体を変更するのではなく、悪意のあるプロンプトの末尾にランダムなテキストを追加することで、有害な応答を引き出します。
ロールプレイ型ジェイルブレイク
この種の攻撃では、LLM に架空の世界観やキャラクターの人格になりきるよう指示し、モデル開発者が定めた倫理規則を無視させ、あらゆる命令を進んで実行するように仕向けます。この手法には、DAN(Do Anything Now)や、チャットボットにユーザーの祖母になりきらせる Grandma ジェイルブレイクなどがあります。
メタプロンプト
メタプロンプトとは、自身の制限に対するモデルの認識を悪用して効果的な回避策を考案させ、モデル自体を自身の安全策の迂回に協力させる手法です。
コンテキスト操作によるジェイルブレイク
これには、以下のようなジェイルブレイク手法が該当します。
- クレッシェンド:LLM のガードレールがどこでどのように実装されているかを調べるため、何らかの拒否応答が返されるまでプロンプトの有害性を段階的に高めていく手法です。
- コンテキスト コンプライアンス攻撃:多くの LLM が会話の状態を保持していないという事実を逆手に取る手法です。攻撃者は、偽装した過去の LLM 応答(センシティブな話題について触れている簡単な説明や、ユーザーの希望があれば詳細な情報を提供するといった内容など)をプロンプトに挿入します。
数学プロンプトによるジェイルブレイク
数学プロンプト手法では、集合論、群論、抽象代数などの数学的枠組みを使って偽装されている悪意のある入力を、AI システムがどの程度適切に処理できるかを評価します。有害な要求を数学の問題として提示することで、高度な大規模言語モデル(LLM)の安全機能を回避できる可能性があります。
ペイロード分割
このシナリオでは、LLM を誘導して複数のプロンプトを結合させ、有害な出力を生成させます。テキスト A とテキスト B が単体では無害に見えても、それらを組み合わせる(A+B)と悪意のあるコンテンツが生成される可能性があります。
学術的フレーミング
この手法では、有害なコンテンツを研究や教育的議論の一部として位置づけることで、受け入れ可能に見せかけます。学術的意図と学問の自由に対するモデルの解釈を悪用し、多くの場合は学術的な表現や文体を用いて安全策を回避します。
システムオーバーライド
この手法では、モデルを騙して通常の制限が解除された特別なモードで動作していると信じ込ませようとします。システムレベルの機能やメンテナンス状態に対するモデルの認識を利用して、安全メカニズムを迂回します。
サイバー犯罪者が LLM を活用する方法
2024 年 12 月、Claude LLM の開発元である Anthropic 社が、ユーザーがどのように Claude を活用しているかを詳述したレポートを発表しました
。Clio というシステムを使用して、AI モデルとユーザーの会話を要約して分類しています。Anthropic 社によると、Claude の上位 3 つの用途はプログラミング、コンテンツ作成、リサーチでした。

図 6. Anthropic 社による Claude.ai の主な用途のグラフ
犯罪者によって設計された LLM が宣伝している機能を分析すると、サイバー犯罪者は通常の LLM ユーザーとほぼ同じ用途で LLM を使用していることがわかります。犯罪者によって設計された多くの LLM のプログラミング機能には、ランサムウェア、リモートアクセス型トロイの木馬、ワイパー、コード難読化、シェルコード生成、スクリプト/ツール作成でサイバー犯罪者を支援する機能が含まれています。コンテンツ作成に関しては、フィッシングメール、ランディングページ、設定ファイルの作成を支援する機能があります。また、盗難クレジットカードの検証、サイト/コードの脆弱性スキャン、さらにはサイバー犯罪者が次の大きな利益を得るための「儲かる」犯罪アイデアの考案支援といったリサーチ活動もサポートしています。
さまざまなハッキングフォーラムでも、LLM の犯罪利用に関するさらなる情報が明らかにされています。たとえば、人気のハッキングフォーラム「Dread」では、LLM を Nmap などの外部ツールに接続し、LLM を使って Nmap の出力を要約する方法について議論が行われていました。

図 7. LLM と Nmap の接続について議論しているハッキングフォーラム「Dread」の投稿
LLM もサイバー攻撃の標的に
通常、新しい技術には攻撃対象領域の変化が伴いますが、LLM も例外ではありません。攻撃者は LLM を悪用するだけでなく、LLM とそのユーザーを狙った侵害も試みています。
バックドア付き LLM
Hugging Face で利用可能なモデルの大部分は、Python の pickle
モジュールを使用してモデルをファイルにシリアル化し、ユーザーがダウンロードできるようにしています。巧妙な攻撃者は Python コードを pickle ファイルに含めることができ、これが逆シリアル化プロセスの一部として実行されます。そのため、ユーザーが AI モデルをダウンロードして実行すると、攻撃者がモデルに仕込んだコードを実行してしまう危険性があります
。Hugging Face は Picklescan をはじめとするツールを使用して、ユーザーがアップロードしたモデルをスキャンし
、不正な動作をするモデルを特定しようと取り組んでいます。しかし、Picklescan には最近いくつかの脆弱性が発見されており
、研究者はすでにマルウェアを含む Hugging Face のモデルを特定しています
。いつものことですが、ファイルをダウンロードして実行する際は、ファイルの発行元が信頼できるかどうかを必ず確認し、感染リスクを抑えるためにサンドボックス内でファイルを実行することを検討してください。
検索拡張生成(RAG)
検索拡張生成(RAG)を利用する LLM は、外部データソースを呼び出して、トレーニングデータを最新の情報で補強します。たとえば、特定の日の天気について LLM に尋ねた場合、LLM は正確な予報を取得するために Web サイトなどの外部データソースにアクセスする必要があります。攻撃者が RAG データベースにコンテンツを送信したり、データベース内のコンテンツを改変したりする権限を持っている場合、検索結果を改ざんすることができます。たとえば、ユーザーのプロンプトに対する応答を変更するよう LLM に追加の指示を出すことも、さらには特定のユーザーを標的にすることも想定されます。
まとめ
AI 技術の進歩が続く中、プロセスの合理化、ユーザーを侵害するために使用できるツールやスクリプトの作成、防御をより容易に回避できるコンテンツの生成のために、サイバー犯罪者が引き続き LLM を活用すると Cisco Talos は予想しています。この新技術は、サイバー犯罪者にまったく新しいサイバー兵器を提供するわけではありませんが、よく知られている攻撃を強化して高度化する戦力倍増装置として機能します。
本稿は 2025 年 6 月 18 日にTalos Group
のブログに投稿された「Cybercriminal abuse of large language models
」の抄訳です。