NICT Darknet Data Set 2019
本データセットはホスト単位に統計処理を行ったデータであったため,使い道が限定的でした.NICT Darknet Dataset 2022はホスト単位の統計処理を行わず,ハッシュ化処理のみ行ったパケット単位のデータであるため,より汎用的に活用することができると考えられます.
データセット概要
参考文献
[1] C. Han, J. Shimamura, T. Takahashi, D. Inoue, M. Kawakita, J. Takeuchi, and K. Nakao. Real-Time Detection of Malware Activities by Analyzing Darknet Traffic Using Graphical Lasso. IEEE International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom): Security Track, 2019.
利用方法
- お先に留意点をご確認ください.
- ユーザーは,以下に定める方法により,当機構に対し,個別に電子メールを送信し,本規約及び共通規約に同意をすることで,本データセットを利用することができます・
- NICT Darknet Data Set 2019 利用規約
- AIデータテストベッド共通利用規約
- 当機構の電子メールアドレスの表示
- ✉ csl-ai(アットマーク)ml(ドット)nict(ドット)go(ドット)jp
- 件名を “[NICTサイバー・リポジトリ] – NICT Darknet Dataset 2019” としてご送信ください.
ダークネットPCAPデータ収集
- 2018年10月の1ヶ月間に8つのNICTERダークネットセンサから観測されたトラフィックについて,PCAP データを収集した.以下の表に各センサのIDとそのIPアドレス観測規模と論文[1]で解析した結果から得られたアラートの数を示す.
Sensor ID |
#Observed IP Address |
#Alerts |
Sensor ID |
#Observed IP Address |
#Alerts |
A |
29,182 (/17) |
122 |
E |
8,188 (/19) |
198 |
B |
14,593 (/18) |
199 |
F |
16,384 (/18) |
115 |
C |
4,098 (/20) |
146 |
G |
2,044 (/21) |
118 |
D |
4,096 (/20) |
460 |
H |
2,045 (/21) |
276 |
NICTにおいて本ダークネット統計データを作成した手順
前処理
- 上記で収集したPCAPデータに対して前処理を行う.
- TCP-SYNパケットのみ使用
- 送信元ホストのIPアドレスはoctet2(上位16bit)までを一つの送信元ホストとしてカウント
- 長期間(e.g., 1週間)に渡り,定常的に多くのパケットまたは多くの送信元ホストが観測されるTCPポート番号へのパケットを除外.以下に表示.
TCP Port: 22, 23, 80, 81, 445, 2323, 3389, 5431, 5555, 8080, 50382, 50390, 52869
統計データ処理
-
前処理後の1ヶ月のPCAPデータを10分ごとのPCAPデータに分ける.
- 1日計144個のPCAPデータ * 31日分 * 8つのダークネットセンサ = 計35,712個のPCAPデータ
-
1つの10分間のPCAPデータをさらに50秒ごとに分けて,かつ、送信元ホストごとに分けてパケット数を数える. 以下の図は理解のための1つのダークネット統計データの例である.
- 1つのデータのサイズは 「12個の単位時間サンプル数 * 送信元ホスト数」 の2次元データとなり,要素はパケット数を表す
- 送信元ホストのIPアドレスは隠す.
- 1列目にはUNIX timestampを入れる.
-
全てのPCAPデータに上記の2番を適用し,CSV形式で保存する.
- 1日計144個のCSVデータ * 31日分 * 8つのダークネットセンサ = 計35,712個のCSVデータ
まとめデータ(data.json)
- ダークネット統計データを参照しやすいように,全てのCSVデータに関する情報をまとめたJSON形式ファイル(data.json)を作成.
- オブジェクト
- Timestamp: タイムスタンプ(UNIX, JST)
- File: ファイル名
- Error: PCAPデータに明らかにデータ落ちが生じている場合true,正常はfalse
- #Host: 送信元ホストの数
- Size(Byte): データサイズ(Byte)
- Alert: 論文[1]で解析した結果,その時間にアラートが発行された場合true,それ以外はfalse
解析結果データ
- 参考文献の手法によってダークネット統計データを解析し取得した結果(アラート情報) をJSON形式(alert.json)に作成したものである.
- 論文[1]では送信元ホスト間に異常なほど協調性がある時間帯をアラートとして発行している.
- オブジェクト
- Timestamp: タイムスタンプ(UNIX, JST)
- Port: 対象宛先TCPポート番号
- ダークネット統計データには宛先ポート番号情報は含まれていないが,論文[1]では評価のために直接PCAPデータから対象宛先TCPポート番号を特定している.
- Type: アラートのタイプ.詳しくは論文[1]を参照.
- 1: サイバー攻撃, 2: サーベイスキャン, 3: 一点集中型
- #Host: 対象TCPポートへパケットを送信した送信元ホストの数
留意点
- ダークネットトラフィックデータは一時的なデータ抜けがあるため,ダークネット統計データに含むCSVデータの数は,統計データ処理に記載した35,712個よりも少ない.
- 論文[1]で使ったダークネット統計データと今回公開すダークネット統計データは前処理で異なる部分があり,同一ではない.
- ダークネット統計データは観測点と時間の2次元のデータであり,ダークネットトラフィックの宛先TCPポート情報は含まない.解析結果データは,論文[1]で採用した方法により,宛先TCPポート番号も用いて作成している.
担当者
国立研究開発法人情報通信研究機構サイバーセキュリティ研究所サイバーセキュリティ研究室
- 研究マネージャー 高橋 健志
- 主任研究員 班 涛
- 研究員 韓 燦洙
問い合わせ窓口
本データセットの利用に関する問い合わせ窓口は,以下のとおりとします.
- ✉ csl-ai(アットマーク)ml(ドット)nict(ドット)go(ドット)jp
Last updated on Aug 15, 2022
© NICT, Japan.
韓 燦洙
NICT Darknet Data Set 2019
新バージョンのデータセットを公開しました (NICT Darknet Dataset 2022)
本データセットはホスト単位に統計処理を行ったデータであったため,使い道が限定的でした.NICT Darknet Dataset 2022はホスト単位の統計処理を行わず,ハッシュ化処理のみ行ったパケット単位のデータであるため,より汎用的に活用することができると考えられます.
データセット概要
本データセットには,論文[1]の解析に用いたダークネット統計データおよび解析結果データが含まれています.
利用方法
ダークネットPCAPデータ収集
NICTにおいて本ダークネット統計データを作成した手順
前処理
TCP Port: 22, 23, 80, 81, 445, 2323, 3389, 5431, 5555, 8080, 50382, 50390, 52869
統計データ処理
前処理後の1ヶ月のPCAPデータを10分ごとのPCAPデータに分ける.
1つの10分間のPCAPデータをさらに50秒ごとに分けて,かつ、送信元ホストごとに分けてパケット数を数える. 以下の図は理解のための1つのダークネット統計データの例である.
全てのPCAPデータに上記の2番を適用し,CSV形式で保存する.
まとめデータ(data.json)
解析結果データ
留意点
担当者
国立研究開発法人情報通信研究機構サイバーセキュリティ研究所サイバーセキュリティ研究室
問い合わせ窓口
本データセットの利用に関する問い合わせ窓口は,以下のとおりとします.