Cisco Japan Blog
Share

新しい研究論文:マルウェアエコシステムにおける低エントロピーパッキング方式の広がりと影響


2020年3月5日


マルウェアの検出は、マルウェア検出/防御技術と、マルウェア作成者との間の絶え間ない戦いです。攻撃者が使う一般的な手法は、バイナリのパッケージ化です。実行可能ファイルのパッケージ化は圧縮または暗号化に似ています。パッケージ化されたマルウェアを検出できない一部のテクノロジーに対して効果があります。エントロピーが高いことは、以前からパッカーの存在を示す証拠とされていますが、多くのマルウェアアナリストはエントロピが低いパッカーに何度も遭遇しています。多くの一般的なツール(たとえば PEiD、Manalyzepopup_iconDetect It Easypopup_icon など)や、マルウェア関連のコース、参考書などは、パックされたマルウェアがしばしば高いエントロピを示すと断言しています。その結果、多くの研究者は分析ルーチンにこのヒューリスティックを適用しています。また、パッカーを検出するために一般的に使用されるツールは署名照合をベースとしています。他のヒューリスティックを組み合わせている場合もあるとはいえ、流通している署名の多くは誤検知となる傾向があるため、その結果は完全に信頼できるものではないということもよく知られています。

 

[Armadillo v1.71]
signature = 55 8B EC 6A FF 68 ?? ?? ?? ?? 68 ?? ?? ?? ?? 64 A1
ep_only = false

 

このような不正確な検出は、マルウェア関連のシステムや調査に多くの影響を及ぼします。この署名は、オンラインで利用可能な多くのパッカー署名データベースに含まれていますが、同時に誤検出の原因ともなっています(たとえば、一般的に使用されるツールである 7z .exepopup_icon には、Armadillo によってパックされているというフラグが立てられてしまっています)。

  • サンプル取り込みパイプラインは、多くの場合、静的データに依存しており、サンプルがパックされている場合は信頼できません。
  • 機械学習ベースの分類器は、信頼できる正解ソースを使ってトレーニングする必要があります。データセットが汚染されていると、これらのアプローチの信頼性とパフォーマンスが低下します。
  • マルウェアがパックされているかどうかの判断が間違っていた場合、マルウェアのトレンド分析の学習に影響を与える可能性があります。

低エントロピパッカーの存在は、研究者によってこれまでに指摘されてはいましたが、この現象が関連しているのか、無視できるものであるかは依然として明らかではありませんでした。Talos では、2013 年~2019 年にかけて監査された VirusTotal のパブリックフィードから取得された、複数のファミリに属する、低エントロピの有害 PE ファイル 5 万件の収集データセットについて、体系的な調査を実施しました。次に、PANDApopup_icon バイナリ計装フレームワークに基づく動的分析システムを活用して、パッカーの存在と、エントロピを低く保つために使用されるスキーム(バイトパディング、符号化、転置、単アルファベット置換/多アルファベット置換)についての正解を導き出せるようにしました。

スキームおよび動的分析コンポーネントについての詳細、また、実験のコンセプトや実施方法については、レポートの全文popup_iconを参照してください。調査の結果、これらの低エントロピファイルの 30% 以上に、何らかのタイプのランタイムパッキングが行われていることがわかりました。同様に、多数のレポートやホワイトペーパーから抽出した APT サンプルに属するデータセットを取得して同様の実験を実施した結果、これらの低エントロピファイルの最大 15% がパックされたものであることが確認されました。これらの数字は、この現象が容認できないもの、今後の調査において無視してはならないものであることを確証するものです。

2 回目のテストでは、PEiD、DIE、Manalyze といった一般的に使用されるツールの検出率を評価しました。すべてのツールにおいて、低エントロピパッカーの認識は難しいものでした。中には、ヒューリスティックや署名の検出力が貧弱なために、既知のパッカーを誤検出したものもありました。

最後に、パックされているファイルとそうでないファイルを区別するための機械学習ベースの分類アプローチを評価する実験を行いました。そのために、さまざまな学術資料で現在までに使用されたすべての特徴を収集しました。いずれの場合も、これらの分類器は、低エントロピパッカーを使用したデータセット上でトレーニングと評価を行った場合に、重要なパフォーマンスの低下を示しました。最良の結果を示した分類器でさえ、データセット内のパックされたサンプルを 70% しか検出できませんでした。

調査の詳細については、当研究論文の執筆者により、2020 年 2 月 26 日に NDSSpopup_icon で発表される予定です。研究論文の全文をこちらpopup_iconからダウンロードすることもできます。

 

本稿は 2020年2月25日に Talos Grouppopup_icon のブログに投稿された「New Research Paper: Prevalence and impact of low-entropy packing schemes in the malware ecosystempopup_icon」の抄訳です。

 

コメントを書く