随意一点 --> CSE-CIC-IDS2018 on AWS

  NIDS在正式部署在网络上之前,需要经过大量的测试、评估和调整。这就需要我们使用合适的数据集进行这些内容。但当前数据集的获取主要存在以下两个问题:(1)很多数据集是内部非公开的,无法被共享。(2)数据的匿名化,使得它们无法反应当前的情况、趋势或是某些统计特征。

  所以需要寻找到一些符合我们要求的次优数据集。然而,随着网络行为和模式的变化以及入侵的发展,研究的需要逐渐从静态和一次性数据集转向动态生成的数据集,它们不仅能够反映了当时的流量构成和入侵,还应该具有可扩展性和可复制性,即可以对其进行修改。

  CSE-CIC-IDS2017/2018 on AWS数据集是通信安全机构(CSE)与加拿大网络安全研究所(CIC)之间的协作项目,它以基于创建用户概要文件来生成用于入侵检测的多样且全面的基准数据集,该概要文件包含网络上看到的事件和行为的抽象表示,而配置文件将被组合以生成一组不同的数据集,每个数据集都具有一组独特的功能,这些功能能够覆盖评估域的一部分。

  攻击基础设施:50台计算机,受害组织有5个部门,包括420台计算机和30台服务器。

  数据集:捕获的每台计算机的网络流量和系统日志,以及使用CICFlowMeter-V3从捕获的流量中提取的80个功能

一、配置文件

  配置文件包含针对应用程序,协议或下层网络实体的入侵和抽象分布模型的详细说明,可以将其应用于具有不同拓扑的各种网络协议。配置文件和概要文件可以一起用于生成特定需求的数据集。

两种类别:

1.B-profiles:包含用户的抽象行为。使用各种机器学习和统计分析技术(例如K-Means,Random Forest,SVM和J48)封装用户的实体行为。封装的特征是协议的数据包大小,每个流的数据包数量,有效负载中的某些模式,有效负载的大小以及协议的请求时间分布的分布。在测试平台环境中,模拟的协议有:HTTPS,HTTP,SMTP,POP3,IMAP,SSH和FTP。测试过程中,大部分流量是HTTP和HTTPS。

2.M-Profiles:以明确的方式描述攻击情形。理解了这些攻击之后,即可以使用配置文件并执行。详细见下表Table 1.

  

二、攻击场景

  这个数据集包含7个不同的攻击场景:

  1.Brute-force(蛮力攻击)

    使用弱用户名和密码组合闯入帐户。最终方案的设计目标是通过对主服务器运行字典暴力攻击来获取SSH和MySQL帐户。

    在此数据集中,使用Kali Linux计算机上的FTP和SSH作为攻击者计算机,Ubuntu 14.0系统作为受害者计算机对于密码列表,使用了一个大型词典,其中包含9000万个单词。推荐使用的破解工具Patator(全面多线程的),用Python编写,更可靠、灵活,可以将每个响应保存在单独的日志文件中,以供以后查看。

  2.Heartbleed(心脏出血漏洞)

    著名的Last updated attacks(基于某些漏洞的攻击可以在特定时间内执行,这些异常漏洞有时会影响数百万台服务器或受害者,通常需要花费数月的时间才能修补所有漏洞)之一。Heartleech是开发Heartbleed的最著名工具之一。它能够扫描容易受到该错误影响的系统,然后用来对其进行利用并窃取数据。使用OpenSSL version 1.0.1f作为受害应用

附:Heartleech的一些功能

  • 关于目标是否易受攻击的结论性/非结论性裁决
  • 大量/快速下载令人讨厌的数据到一个大文件中,以便使用许多线程进行脱机处理
  • 自动检索私钥,无需其他步骤
  • 一些有限的IDS规避
  • STARTTLS支持
  • IPv6支持
  • Tor / Socks5n代理支持
  • 广泛的连接诊断信息

  3.Botnet(僵尸网络)

    使用Zeus--一个运行在Microsoft Windows版本上的特洛伊木马恶意软件程序包,通常用于通过浏览器中的击键记录和表单获取来窃取银行信息,还可还用于安装Crypto-Locker勒索软件。Zeus主要通过偷渡式下载和网络钓鱼计划进行传播。作为补充,使用Ares僵尸网络--一个开放源代码的僵尸网络,并具有以下功能:

  • 远程cmd.exe外壳
  • 坚持不懈
  • 文件上传/下载
  • 屏幕截图
  • 按键记录

    本数据集使用以上两个不同的僵尸网络感染计算机,每隔400秒向僵尸请求屏幕截图。

  4.DoS(拒绝服务攻击)& 5.DDoS(分布式拒绝服务攻击)

    HTTP拒绝服务攻击:使用Slowloris和LOIC作为主要工具,这些工具已被证明可以使用单一攻击机使得web服务器完全无法访问。Slowloris使一台计算机可以关闭另一台计算机的Web服务器,同时以最小的带宽以及对不相关服务和端口的副作用。首先与远程服务器建立完整的TCP连接。该工具通过定期向服务器发送有效的,不完整的HTTP请求来保持连接打开,以防止套接字关闭。由于任何Web服务器都具有服务连接的有限能力,因此用尽所有套接字并且无法建立其他连接只是时间问题。

    HOIC是一种用BASIC编写的开源网络压力测试和拒绝服务攻击应用程序,可以对网站发起DoS攻击,旨在同时攻击多达256个URL。本数据集中使用4台计算机进行DDOS攻击。

  6.Web attacks(Web攻击)

    使用Web应用程序(DVWA)作为受害者Web应用程序,DVWA的主要目标是帮助安全专业人员在法律环境中测试他们的技能和工具,帮助Web开发人员更好地了解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全性 ,它也极易受到攻击。第一步,通过Web应用程序漏洞扫描程序扫描网站,然后对易受攻击的网站进行不同类型的Web攻击,包括SQL注入,命令注入和无限制的文件上传。

  7.infiltration of the network(网络渗透)

    通过电子邮件向受害者发送恶意文件并利用应用程序漏洞。成功利用后,将在受害者的计算机上执行后门,使用他的计算机在内部网络中扫描其他易受攻击的应用,并在可能的情况下加以利用。攻击包括包括IP扫描,全端口扫描和使用Nmap的服务枚举。

三、特征提取

  这里用到的工具是CICFlowMeter,它是一个使用Java编写的网络流量流生成器,在选择要计算的功能,添加新功能以及更好地控制流超时持续时间方面提供了更大的灵活性。它会生成双向流(Biflow),其中第一个数据包确定正向(从源到目的地)和反向(目的地到源)方向。它有83种统计功能,例如持续时间,数据包数量,字节数,数据包长度,等等也分别在正向和反向上计算。

  应用程序的输出为CSV文件格式,每个流有六列标记,分别是FlowID,SourceIP,DestinationIP,SourcePort,DestinationPort和具有80多个网络流量功能的协议。通常,TCP流在连接断开时(通过FIN数据包)终止,而UDP流在流超时时终止。流超时值可以由各个方案任意分配,例如,对于TCP和UDP,均为600秒。

  提取特征并创建CSV文件后进行标记数据。在这里,使用了攻击方案时间表、源和目标的IP和端口、协议名称来标记每个流的数据。

四、如何使用?

  数据集按天进行组织。每天记录原始数据,包括每台计算机的网络流量(Pcaps)和事件日志(Windows和Ubuntu事件日志)。在从原始数据进行特征提取的过程中,使用CICFlowMeter-V3并提取了80多个流量特征,将其保存为每台计算机的CSV文件。

1.使用AI技术进行分析:可以下载生成的数据(CSV)文件并分析网络流量。

2.要使用新的特征提取器:可以使用原始捕获的文件(PCAP和日志)提取自己需要的特征。然后,使用数据挖掘技术来分析这些生成的数据。

最后,附上CSE-CIC-IDS2018 on AWS 获取地址:https://www.unb.ca/cic/datasets/ids-2018.html

To see I can not see, to know I do not know.
原文地址:https://www.cnblogs.com/aluomengmengda/p/14000117.html