复杂的流量分析,例如加密的流量分析和未知的恶意软件检测,强调需要进行高级方法来分析网络流量。使用固定模式,签名匹配和检测网络流量中已知模式的规则的传统方法已被AI(人工智能)驱动算法取代。但是,缺乏高性能AI网络特定的框架使得不可能在网络工作负载中部署基于AI的实时处理。在本文中,我们描述了流量分析开发工具包(TADK)的设计,这是一个针对基于AI的网络工作负载处理的行业标准框架。 TADK可以在数据中心到边缘的网络设备中基于实时的AI网络工作负载处理,而无需专门硬件(例如GPU,神经处理单元等)。我们已经在商品WAF和5G UPF中部署了TADK,评估结果表明,Tadk可以在流量功能提取时达到每个核心最多35.3Gbps的吞吐量,每核6.5Gbps在流量分类中,并且可以减少SQLI/XSS检测到下降至4.5us每个请求的精度比固定模式解决方案更高。
translated by 谷歌翻译
互联网流量分类在网络可见性,服务质量(QoS),入侵检测,经验质量(QOE)和交通趋势分析中起关键作用。为了提高隐私,完整性,机密性和协议混淆,当前的流量基于加密协议,例如SSL/TLS。随着文献中机器学习(ML)和深度学习(DL)模型的使用增加,由于缺乏标准化的框架,不同模型和方法之间的比较变得繁琐且困难。在本文中,我们提出了一个名为OSF-EIMTC的开源框架,该框架可以提供学习过程的完整管道。从著名的数据集到提取新的和知名的功能,它提供了著名的ML和DL模型(来自交通分类文献)的实现以及评估。这样的框架可以促进交通分类域的研究,从而使其更可重复,可重复,更易于执行,并可以更准确地比较知名和新颖的功能和新颖的功能和模型。作为框架评估的一部分,我们演示了可以使用多个数据集,模型和功能集的各种情况。我们展示了公开可用数据集的分析,并邀请社区使用OSF-EIMTC参与我们的公开挑战。
translated by 谷歌翻译
目前,数据赢得了用户生成的数据和数据处理系统之间的大鼠竞赛。机器学习的使用增加导致处理需求的进一步增加,而数据量不断增长。为了赢得比赛,需要将机器学习应用于通过网络的数据。数据的网络分类可以减少服务器上的负载,减少响应时间并提高可伸缩性。在本文中,我们使用现成的网络设备以混合方式介绍了IISY,以混合方式实施机器学习分类模型。 IISY针对网络内分类的三个主要挑战:(i)将分类模型映射到网络设备(ii)提取所需功能以及(iii)解决资源和功能约束。 IISY支持一系列传统和集合机器学习模型,独立于开关管道中的阶段数量扩展。此外,我们证明了IISY用于混合分类的使用,其中在一个开关上实现了一个小模型,在后端的大型模型上实现了一个小模型,从而实现了接近最佳的分类结果,同时大大降低了服务器上的延迟和负载。
translated by 谷歌翻译
社交媒体,职业运动和视频游戏正在推动实时视频流的快速增长,在抽搐和YouTube Live等平台上。自动流媒体经验非常易于短时间级网络拥塞,因为客户端播放缓冲区通常不超过几秒钟。不幸的是,识别这些流和测量他们的QoE进行网络管理是具有挑战性的,因为内容提供商在很大程度上使用相同的交付基础设施来用于实时和视频点播(VOD)流,并且不能提供数据包检查技术(包括SNI / DNS查询监控)始终区分两者。在本文中,我们设计,构建和部署康复:基于网络级行为特征的实时视频检测和QoE测量的机器学习方法。我们的贡献是四倍:(1)我们从抽搐和YouTube分析约23,000个视频流,并在其流量配置文件中识别区分实时和按需流的关键功能。我们将我们的交通迹线释放为公众的开放数据; (2)我们开发基于LSTM的二进制分类器模型,该模型将Live从按需流实时区分,在提供商的高度超过95%的准确度; (3)我们开发了一种方法,估计实时流动流动的QoE度量,分辨率和缓冲率分别分别为93%和90%的总体精度; (4)最后,我们将我们的解决方案原型,将其培训在实验室中,并在服务于7,000多名订阅者的Live ISP网络中部署它。我们的方法提供了ISP,具有细粒度的可视性,进入实时视频流,使它们能够测量和改善用户体验。
translated by 谷歌翻译
互联网流量分类广泛用于促进网络管理。它在服务质量(QoS),经验质量(QOE),网络可见性,入侵检测和交通趋势分析中起着至关重要的作用。尽管没有理论上的保证,即基于深度学习的解决方案比经典的机器学习(ML)的解决方案更好,但基于DL的模型已成为常见默认值。本文比较了著名的基于DL和基于ML的模型,并表明,在恶意交通分类的情况下,最先进的基于DL的解决方案不一定优于基于经典的ML的解决方案。我们使用两个知名数据集来体现这一发现,用于各种任务,例如:恶意软件检测,恶意软件家庭分类,零日攻击的检测以及对迭代增长数据集的分类。请注意,评估所有可能的模型以做出具体陈述是不可行的,因此,上述发现不是避免基于DL的模型的建议,而是经验证明,在某些情况下,有更简单的解决方案,即更简单的解决方案,即可能表现更好。
translated by 谷歌翻译
医学事物互联网(IOMT)允许使用传感器收集生理数据,然后将其传输到远程服务器,这使医生和卫生专业人员可以连续,永久地分析这些数据,并在早期阶段检测疾病。但是,使用无线通信传输数据将其暴露于网络攻击中,并且该数据的敏感和私人性质可能代表了攻击者的主要兴趣。在存储和计算能力有限的设备上使用传统的安全方法无效。另一方面,使用机器学习进行入侵检测可以对IOMT系统的要求提供适应性的安全响应。在这种情况下,对基于机器学习(ML)的入侵检测系统如何解决IOMT系统中的安全性和隐私问题的全面调查。为此,提供了IOMT的通用三层体系结构以及IOMT系统的安全要求。然后,出现了可能影响IOMT安全性的各种威胁,并确定基于ML的每个解决方案中使用的优势,缺点,方法和数据集。最后,讨论了在IOMT的每一层中应用ML的一些挑战和局限性,这些挑战和局限性可以用作未来的研究方向。
translated by 谷歌翻译
As the number of heterogenous IP-connected devices and traffic volume increase, so does the potential for security breaches. The undetected exploitation of these breaches can bring severe cybersecurity and privacy risks. Anomaly-based \acp{IDS} play an essential role in network security. In this paper, we present a practical unsupervised anomaly-based deep learning detection system called ARCADE (Adversarially Regularized Convolutional Autoencoder for unsupervised network anomaly DEtection). With a convolutional \ac{AE}, ARCADE automatically builds a profile of the normal traffic using a subset of raw bytes of a few initial packets of network flows so that potential network anomalies and intrusions can be efficiently detected before they cause more damage to the network. ARCADE is trained exclusively on normal traffic. An adversarial training strategy is proposed to regularize and decrease the \ac{AE}'s capabilities to reconstruct network flows that are out-of-the-normal distribution, thereby improving its anomaly detection capabilities. The proposed approach is more effective than state-of-the-art deep learning approaches for network anomaly detection. Even when examining only two initial packets of a network flow, ARCADE can effectively detect malware infection and network attacks. ARCADE presents 20 times fewer parameters than baselines, achieving significantly faster detection speed and reaction time.
translated by 谷歌翻译
Increasingly, malwares are becoming complex and they are spreading on networks targeting different infrastructures and personal-end devices to collect, modify, and destroy victim information. Malware behaviors are polymorphic, metamorphic, persistent, able to hide to bypass detectors and adapt to new environments, and even leverage machine learning techniques to better damage targets. Thus, it makes them difficult to analyze and detect with traditional endpoint detection and response, intrusion detection and prevention systems. To defend against malwares, recent work has proposed different techniques based on signatures and machine learning. In this paper, we propose to use an algebraic topological approach called topological-based data analysis (TDA) to efficiently analyze and detect complex malware patterns. Next, we compare the different TDA techniques (i.e., persistence homology, tomato, TDA Mapper) and existing techniques (i.e., PCA, UMAP, t-SNE) using different classifiers including random forest, decision tree, xgboost, and lightgbm. We also propose some recommendations to deploy the best-identified models for malware detection at scale. Results show that TDA Mapper (combined with PCA) is better for clustering and for identifying hidden relationships between malware clusters compared to PCA. Persistent diagrams are better to identify overlapping malware clusters with low execution time compared to UMAP and t-SNE. For malware detection, malware analysts can use Random Forest and Decision Tree with t-SNE and Persistent Diagram to achieve better performance and robustness on noised data.
translated by 谷歌翻译
The recent success and proliferation of machine learning and deep learning have provided powerful tools, which are also utilized for encrypted traffic analysis, classification, and threat detection in computer networks. These methods, neural networks in particular, are often complex and require a huge corpus of training data. Therefore, this paper focuses on collecting a large up-to-date dataset with almost 200 fine-grained service labels and 140 million network flows extended with packet-level metadata. The number of flows is three orders of magnitude higher than in other existing public labeled datasets of encrypted traffic. The number of service labels, which is important to make the problem hard and realistic, is four times higher than in the public dataset with the most class labels. The published dataset is intended as a benchmark for identifying services in encrypted traffic. Service identification can be further extended with the task of "rejecting" unknown services, i.e., the traffic not seen during the training phase. Neural networks offer superior performance for tackling this more challenging problem. To showcase the dataset's usefulness, we implemented a neural network with a multi-modal architecture, which is the state-of-the-art approach, and achieved 97.04% classification accuracy and detected 91.94% of unknown services with 5% false positive rate.
translated by 谷歌翻译
人工智能(AI)和机器学习(ML)在网络安全挑战中的应用已在行业和学术界的吸引力,部分原因是对关键系统(例如云基础架构和政府机构)的广泛恶意软件攻击。入侵检测系统(IDS)使用某些形式的AI,由于能够以高预测准确性处理大量数据,因此获得了广泛的采用。这些系统托管在组织网络安全操作中心(CSOC)中,作为一种防御工具,可监视和检测恶意网络流,否则会影响机密性,完整性和可用性(CIA)。 CSOC分析师依靠这些系统来决定检测到的威胁。但是,使用深度学习(DL)技术设计的IDS通常被视为黑匣子模型,并且没有为其预测提供理由。这为CSOC分析师造成了障碍,因为他们无法根据模型的预测改善决策。解决此问题的一种解决方案是设计可解释的ID(X-IDS)。这项调查回顾了可解释的AI(XAI)的最先进的ID,目前的挑战,并讨论了这些挑战如何涉及X-ID的设计。特别是,我们全面讨论了黑匣子和白盒方法。我们还在这些方法之间的性能和产生解释的能力方面提出了权衡。此外,我们提出了一种通用体系结构,该建筑认为人类在循环中,该架构可以用作设计X-ID时的指南。研究建议是从三个关键观点提出的:需要定义ID的解释性,需要为各种利益相关者量身定制的解释以及设计指标来评估解释的需求。
translated by 谷歌翻译
机器学习(ML)代表了当前和未来信息系统的关键技术,许多域已经利用了ML的功能。但是,网络安全中ML的部署仍处于早期阶段,揭示了研究和实践之间的显着差异。这种差异在当前的最新目的中具有其根本原因,该原因不允许识别ML在网络安全中的作用。除非广泛的受众理解其利弊,否则ML的全部潜力将永远不会释放。本文是对ML在整个网络安全领域中的作用的首次尝试 - 对任何对此主题感兴趣的潜在读者。我们强调了ML在人类驱动的检测方法方面的优势,以及ML在网络安全方面可以解决的其他任务。此外,我们阐明了影响网络安全部署实际ML部署的各种固有问题。最后,我们介绍了各种利益相关者如何为网络安全中ML的未来发展做出贡献,这对于该领域的进一步进步至关重要。我们的贡献补充了两项实际案例研究,这些案例研究描述了ML作为对网络威胁的辩护的工业应用。
translated by 谷歌翻译
网络威胁情报(CTI)共享是减少攻击者和捍卫者之间信息不对称的重要活动。但是,由于数据共享和机密性之间的紧张关系,这项活动带来了挑战,这导致信息保留通常会导致自由骑士问题。因此,共享的信息仅代表冰山一角。当前的文献假设访问包含所有信息的集中数据库,但是由于上述张力,这并不总是可行的。这会导致不平衡或不完整的数据集,需要使用技术扩展它们。我们展示了这些技术如何导致结果和误导性能期望。我们提出了一个新颖的框架,用于从分布式数据中提取有关事件,漏洞和妥协指标的分布式数据,并与恶意软件信息共享平台(MISP)一起证明其在几种实际情况下的使用。提出和讨论了CTI共享的政策影响。拟议的系统依赖于隐私增强技术和联合处理的有效组合。这使组织能够控制其CTI,并最大程度地减少暴露或泄漏的风险,同时为共享的好处,更准确和代表性的结果以及更有效的预测性和预防性防御能力。
translated by 谷歌翻译
如今,随着数字银行业务已成为常态,信用卡的使用已变得很普遍。随着这一增加,信用卡中的欺诈也对银行和客户都有一个巨大的问题和损失。正常的欺诈检测系统无法检测欺诈,因为欺诈者使用新技术出现欺诈。这创造了使用基于机器学习的软件来检测欺诈的需求。当前,可用的机器学习软件仅着眼于检测欺诈的准确性,但不关注检测的成本或时间因素。这项研究重点是银行信用卡欺诈检测系统的机器学习可伸缩性。我们已经比较了新提出的技术可用的现有机器学习算法和方法。目的是证明,使用较少的位训练机器学习算法将导致更可扩展的系统,这将减少时间,并且实施成本也较低。
translated by 谷歌翻译
数据库中的部署机学习(ML)算法是由于现代ML算法的不同计算脚印和多数数据库技术的挑战,每个数据库技术都具有自己的限制性语法。我们介绍了一个基于Apache Spark的微服务编排框架,其扩展了数据库操作以包含Web服务基元。我们的系统可以协调数百台机器的Web服务,并充分利用群集,线程和异步并行性。使用此框架,我们为智能服务提供大规模客户端,如语音,视觉,搜索,异常检测和文本分析。这允许用户将随意使用的智能集成到具有Apache Spark连接器的任何数据存储器中。为了消除网络通信的大多数开销,我们还引入了我们架构的低延迟集装箱版本。最后,我们证明我们调查的服务在各种基准上具有竞争力,并在此框架中展示了两个应用程序来创建智能搜索引擎和实时自动竞赛分析系统。
translated by 谷歌翻译
数字双胞胎最近对工业控制系统(ICS)的模拟,优化和预测维护产生了重大兴趣。最近的研究讨论了在工业系统中使用数字双胞胎进行入侵检测的可能性。因此,这项研究为工业控制系统的基于数字双胞胎的安全框架做出了贡献,从而扩展了其模拟攻击和防御机制的能力。在独立的开源数字双胞胎上实施了四种类型的过程感知攻击方案:命令注入,网络拒绝服务(DOS),计算的测量修改和天真的测量修改。根据八种监督机器学习算法的离线评估,建议将堆叠的合奏分类器作为实时入侵检测。通过组合各种算法的预测,设计的堆叠模型就F1得分和准确性而言优于先前的方法,同时可以在接近实时(0.1秒)中检测和分类入侵。这项研究还讨论了拟议的基于数字双胞胎的安全框架的实用性和好处。
translated by 谷歌翻译
NetFlow数据是许多网络分析师和研究人员使用的众所周知的网络日志格式。与PCAP相比,使用此格式的优点是,它包含的数据较少,隐私侵入性较小,并且更易于收集和处理。但是,较少的数据确实意味着这种格式可能无法捕获重要的网络行为,因为将所有信息汇总到统计信息中。许多研究旨在通过使用机器学习来检测网络中的攻击来克服这一缺点。许多方法都可以用于在使用NetFlow数据来训练机器学习算法之前预处理数据。但是,其中许多方法只是将现有方法应用于数据,而不是考虑网络数据的特定属性。我们认为,对于源自软件系统(例如NetFlow或软件日志)的数据,频率和特征值上下文的相似性比值本身的相似性更为重要。因此,在这项工作中,我们提出了一种编码算法,该算法在处理数据时直接考虑特征值的频率和上下文。可以使用此编码来聚集不同类型的网络行为,从而帮助检测网络中的异常。从监视清洁系统获得的这些群集的窗口中,我们学习了状态机器行为模型以进行异常检测。这些模型非常适合建模NetFlow数据中存在的循环和重复模式。我们在一个新数据集上评估了我们为检测Kubernetes群集和两个著名公共NetFlow数据集中的问题而创建的编码。国家机器模型获得的性能结果与使用更多功能的现有作品相媲美,并且需要清洁和受感染的数据作为培训输入。
translated by 谷歌翻译
Darknets的匿名性质通常用于非法活动。先前的研究已经采用了机器学习和深度学习技术来自动对暗网流量的检测,以阻止这些犯罪活动。这项研究旨在通过评估支持向量机(SVM),随机森林(RF),卷积神经网络(CNN)和辅助分类器生成对抗网络(AC-GAN)来改善暗网流量检测申请类型。我们发现,我们的RF模型优于与CIC-Darknet2020数据集的先前工作中使用的最新机器学习技术。为了评估RF分类器的鲁棒性,我们混淆选择应用程序类型类,以模拟现实的对抗攻击方案。我们证明,我们表现最好的分类器可能会被这种攻击击败,我们考虑处理这种对抗性攻击的方法。
translated by 谷歌翻译
Machine Learning (ML) approaches have been used to enhance the detection capabilities of Network Intrusion Detection Systems (NIDSs). Recent work has achieved near-perfect performance by following binary- and multi-class network anomaly detection tasks. Such systems depend on the availability of both (benign and malicious) network data classes during the training phase. However, attack data samples are often challenging to collect in most organisations due to security controls preventing the penetration of known malicious traffic to their networks. Therefore, this paper proposes a Deep One-Class (DOC) classifier for network intrusion detection by only training on benign network data samples. The novel one-class classification architecture consists of a histogram-based deep feed-forward classifier to extract useful network data features and use efficient outlier detection. The DOC classifier has been extensively evaluated using two benchmark NIDS datasets. The results demonstrate its superiority over current state-of-the-art one-class classifiers in terms of detection and false positive rates.
translated by 谷歌翻译
Network traffic classification is the basis of many network security applications and has attracted enough attention in the field of cyberspace security. Existing network traffic classification based on convolutional neural networks (CNNs) often emphasizes local patterns of traffic data while ignoring global information associations. In this paper, we propose a MLP-Mixer based multi-view multi-label neural network for network traffic classification. Compared with the existing CNN-based methods, our method adopts the MLP-Mixer structure, which is more in line with the structure of the packet than the conventional convolution operation. In our method, the packet is divided into the packet header and the packet body, together with the flow features of the packet as input from different views. We utilize a multi-label setting to learn different scenarios simultaneously to improve the classification performance by exploiting the correlations between different scenarios. Taking advantage of the above characteristics, we propose an end-to-end network traffic classification method. We conduct experiments on three public datasets, and the experimental results show that our method can achieve superior performance.
translated by 谷歌翻译
命令和控制(C2)通信是任何结构化网络攻击的关键组成部分。因此,安全操作积极尝试检测其网络中的这种通信。这为合法的申请人构成了一个问题,这些问题试图保持未被发现,因为通常使用的pentesting工具(例如Metasploit)生成了恒定的流量模式,这些流量模式易于与常规的网络流量区分开。在本文中,我们从Metasploit的C2流量中的这些可识别的模式开始,并表明基于机器学习的检测器即使加密也能够以很高的精度检测到这种流量的存在。然后,我们概述并对元跨框架进行了一组修改,以降低该分类器的检测率。为了评估这些修改的性能,我们使用两个威胁模型,对这些修改的认识越来越多。我们查看逃避性能以及修改的字节数和运行时开销。我们的结果表明,在第二个增强的意识威胁模型中,框架侧交通修改比仅有效载荷侧的修改(50%)获得更好的检测回避率(90%)。我们还表明,尽管修改使用的TLS有效载荷比原始时间高3倍,但运行时没有显着更改,并且字节总数(包括TLS有效载荷)减少。
translated by 谷歌翻译