NICT Darknet Dataset 2022
データセット概要
本データセットは,NICTERで観測したダークネット・トラフィックデータを公開する.
以下のような条件で作成したパケット単位のデータセットです.
- TCP-SYNパケットのみを公開します.(無差別型スキャン攻撃を分析するため)
- パケットごとに,以下のようなデータをCSV形式のデータセットです.
データ名 | 意味 |
timestamp | パケット受信時刻(UNIX time) |
hash[ip.src.upper16] | 上位16bitの送信元IPアドレスのハッシュ値 |
hash[ip.src.32] | 32bitの送信元IPアドレスのハッシュ値 |
ip.dst.lower16 | 下位16bitのダークネット宛先IPアドレス |
tcp.dstport | 16bitのTCP宛先ポート番号 |
本サイトの構成
- 利用方法
本データセットの利用を希望する方は,こちらの利用方法をご覧ください.
- サンプルデータ
擬似的に作成したCSV形式のサンプルデータです.
- 公開するデータの期間とセンサID一覧
こちらの一覧から利用したいデータの期間,センサIDをご確認ください.
NICTで行った研究の再現性を保証するために,研究で用いた期間のデータを公開しています.
今後NICTの研究活動によって直近のデータを随時追加更新する予定です.
NICT Darknet Data Set 2019との違い
NICT Darknet Data Set 2019ではホスト単位に統計処理を行ったデータであったため,使い道が限定的でした.本データセットはホスト単位の統計処理を行わず,ハッシュ化処理のみ行ったパケット単位のデータであるため,より汎用的に活用することができると考えられます.
利用方法
- ユーザーは,以下に定める方法により,当機構に対し個別に電子メールを送信し,本規約に同意をすることで,本データセットを利用することができます・
- NICT Darknet Dataset 2022 利用規約
- 当機構の電子メールアドレスの表示
- ✉ csl-ai(アットマーク)ml(ドット)nict(ドット)go(ドット)jp
- 件名を “[NICTサイバー・リポジトリ] – NICT Darknet Dataset 2022” としてご送信ください.
- 希望するデータの期間,センサIDを明記してください.
- データについて
- データはJST(日本標準時)を基準に,日毎にCSVファイルを分けています.
- データはbzip2で圧縮しています.pbzip2を使うとマルチコアで素早く解凍できます.
tar -I pbzip2 -xf XXX.tar.bz2
- 解析について
- 本データは送信元IPアドレスがハッシュ化されているため,生のIPアドレスを用いる解析はできません.
- IPアドレスやその他ヘッダ情報を含む生のダークネットトラフィックデータで解析を行いたい方は,NICTERダークネットセンサをあなたの所属組織に設置することをご検討の上,メールにてご相談ください.
サンプルデータ
こちらのサンプルデータは,擬似的に作ったCSV形式のデータです.
UNIXTIME | ip.src.upper16 | ip.src.32 | ip.dst.lower16 | tcp.dport |
1640962800.12 | 111.111 | 111.111.1.2 | 100.100 | 23 |
1640962800.21 | 222.222 | 222.222.2.4 | 100.101 | 2323 |
1640962800.21 | 123.123 | 123.123.123.123 | 101.100 | 80 |
1640962800.33 | 121.121 | 121.121.123.123 | 101.101 | 8080 |
1640962800.36 | 2.2 | 2.2.2.2 | 100.102 | 443 |
UNIXTIME,hash[ip.src.upper16],hash[ip.src.32],ip.dst.lower16,tcp.dport
1640962800.12,2fe1ec63c455bd46152926d283e91a8cc4a5fe4f471c27a56f825d046cdf8185,457d5c7b1a91d24d7747179ea793c009f509378781b7aaaa0c1748791b0108e0,100.100,23
1640962800.21,2d9e8afbdd75fd5a3be91f1fa290d4e43c90486a29519ceecd1ca5fd39dce22f,39825211c3134d68dd26708eb73fcad7c7fc3cf65b7a75e7fa8f9ab7c0c0c38e,100.101,2323
1640962800.21,1f5f57cbe46c479aef35f4dcb66d618c38d68fdc3739abe8b5e6fc0a5484c8fb,2ee37d765230eaa9f69a0508f0fc43589111b9e7c1a8ec26cd768d572defc1f6,101.100,80
1640962800.33,cf31089c853c78cfde5c57687cd3613288bd6ffc6c18dcf61a3a8cde7786d8bf,ea9eb9ad3e94e59103d4554332374c2fb19339ff5ba9e263e489edc6ce739f49,101.101,8080
1640962800.36,7f10d3eecd32bfb1c83b81238d42673b5c21b3c5533a6fa7ba7b5e2cf607430f,717aecfa766c462729db6b7443dbf928b61247142e3e575f9f4ba72a04420ff3,100.102,443
公開するデータの期間とセンサID一覧
利用されたいデータの期間,センサIDをご確認ください.
- NICTで行った研究の再現性を保証するために,研究で用いた期間のデータを公開しています.
そのため公開するデータの期間ごとに,そのデータを用いて研究を行ったNICT側の参考文献を載せています.
利用規約の通り,本データセット等を利用した成果物を公表する際には,論文[1]を引用してください.必要に応じて他の参考文献も是非引用を願います.
- 今後NICTの研究活動によって直近のデータを随時追加更新する予定です.
データ一覧
データ期間 | ダークネットセンサID (規模) | データサイズ | 参考文献 |
Oct. 2018 (1ヶ月分) | A (/17 subnet) | 63GB | [1--4] |
Oct. 2018 (1ヶ月分) | B (/18 subnet) | 40GB | [1--4] |
Oct. 2018 (1ヶ月分) | C (/20 subnet) | 9.5GB | [1--4] |
Oct. 2018 (1ヶ月分) | D (/20 subnet) | 11GB | [1--4] |
Oct. 2018 (1ヶ月分) | E (/19 subnet) | 18GB | [1--4] |
Oct. 2018 (1ヶ月分) | F (/18 subnet) | 35GB | [1--4] |
Oct. 2018 (1ヶ月分) | G (/21 subnet) | 5.4GB | [1--4] |
Oct. 2018 (1ヶ月分) | H (/21 subnet) | 5.1GB | [1--4] |
Jun. 2019 -- Oct. 2020 (*1) | A - H | ----- | [1 and 5] |
09/01/2022 (1日分) | D (/20 subnet) | 633MB | [6] |
Jul. 1st - 10th 2023 (9日分) | D (/20 subnet) | 7.1GB | [7] |
- (*1) Jun. 2019 - Oct. 2020のデータは,ご希望に応じて一部期間のデータを提供可能です
- 規模の大きいセンサデータ(センサA,B,E,F)は1週間分を上限とします
- 規模の小さいセンサデータ(センサC,D,G,H)は1ヶ月以上も提供可能
参考文献一覧
- [1] C. Han, J. Takeuchi, T. Takahashi, and D. Inoue, ‘‘Dark-TRACER: Early Detection Framework for Malware Activity Based on Anomalous Spatiotemporal Patterns,’’ IEEE ACCESS, 2022. [DOI] [PDF] [Slides]
- [2] C. Han, J. Shimamura, T. Takahashi, D. Inoue, M. Kawakita, J. Takeuchi, and K. Nakao, ‘‘Real-Time Detection of Malware Activities by Analyzing Darknet Traffic Using Graphical Lasso,’’ IEEE International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom), 2019. [DOI] [PDF] [Slides]
- [3] C. Han, J. Shimamura, T. Takahashi, D. Inoue, J. Takeuchi, and K. Nakao, ‘‘Real-time Detection of Global Cyberthreat Based on Darknet by Estimating Anomalous Synchronization Using Graphical Lasso,’’ IEICE Transactions on Information and Systems, Vol.E103-D, No.10, pp.2113-2124, Oct. 2020. [DOI] [PDF]
- [4] C. Han, J. Takeuchi, T. Takahashi, and D. Inoue, ‘‘Automated Detection of Malware Activities Using Nonnegative Matrix Factorization,’’ IEEE International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom), 2021. [DOI] [PDF] [Slides]
- [5] C. Han, A. Tanaka, and T. Takahashi, ‘‘Darknet Analysis-Based Early Detection Framework for Malware Activity: Issue and Potential Extension,’’ IEEE International Conference on Big Data (Workshop on Big Data for Cybersecurity), 2022. [DOI] [PDF] [Slides]
- [6] C. Han, A. Tanaka, J. Takeuchi, T. Takahashi, T. Morikawa, and T. Lin, ‘‘Towards Long-Term Continuous Tracing of Internet-Wide Scanning Campaigns Based on Darknet Analysis,’’ International Conference on Information Systems Security and Privacy (ICISSP), 2023. [DOI] [PDF] [Poster]
- [7] C. Han, A. Tanaka, T. Takahashi, S. Dadkhah, A. Ghorbani, and T. Lin, ‘‘Traceability Measurement Analysis of Sustained Internet-Wide Scanners via Darknet,’’ IEEE Conference on Dependable and Secure Computing (DSC), Nov 2024.
担当者
国立研究開発法人情報通信研究機構サイバーセキュリティ研究所サイバーセキュリティ研究室
問い合わせ窓口
本データセットの利用に関する問い合わせ窓口は,以下となります.
- ✉ csl-ai(アットマーク)ml(ドット)nict(ドット)go(ドット)jp
謝辞
この取り組みは総務省の「電波資源拡大のための研究開発(JPJ000254)」における委託研究「電波の有効利用のためのIoTマルウェア無害化/無機能化技術等に関する研究開発」によって実施した成果を含む.
Last updated on Nov 4, 2024
© NICT, Japan.
韓 燦洙
NICT Darknet Dataset 2022
データセット概要
本データセットは,NICTERで観測したダークネット・トラフィックデータを公開する.
以下のような条件で作成したパケット単位のデータセットです.
本サイトの構成
本データセットの利用を希望する方は,こちらの利用方法をご覧ください.
擬似的に作成したCSV形式のサンプルデータです.
こちらの一覧から利用したいデータの期間,センサIDをご確認ください.
NICTで行った研究の再現性を保証するために,研究で用いた期間のデータを公開しています.
今後NICTの研究活動によって直近のデータを随時追加更新する予定です.
NICT Darknet Data Set 2019との違い
NICT Darknet Data Set 2019ではホスト単位に統計処理を行ったデータであったため,使い道が限定的でした.本データセットはホスト単位の統計処理を行わず,ハッシュ化処理のみ行ったパケット単位のデータであるため,より汎用的に活用することができると考えられます.
利用方法
サンプルデータ
こちらのサンプルデータは,擬似的に作ったCSV形式のデータです.
公開するデータの期間とセンサID一覧
利用されたいデータの期間,センサIDをご確認ください.
データ一覧
参考文献一覧
担当者
国立研究開発法人情報通信研究機構サイバーセキュリティ研究所サイバーセキュリティ研究室
問い合わせ窓口
本データセットの利用に関する問い合わせ窓口は,以下となります.
謝辞
この取り組みは総務省の「電波資源拡大のための研究開発(JPJ000254)」における委託研究「電波の有効利用のためのIoTマルウェア無害化/無機能化技術等に関する研究開発」によって実施した成果を含む.