本文在使用易于使用的资源和使用语义的情况下,有关基于文本的网络钓鱼检测的实验报告。开发算法是先前发布的工作的修改版本,它适用于同一工具。在识别网络钓鱼电子邮件中获得的结果比以前报告的工作更好;但由于虚假被识别为网络钓鱼的文本率略差。预计添加语义组件将减少假阳性率,同时保留检测精度。
translated by 谷歌翻译
电子邮件网络钓鱼变得越来越普遍,随着时间的流逝,网络钓鱼变得更加复杂。为了打击这一上升,已经开发了许多用于检测网络钓鱼电子邮件的机器学习(ML)算法。但是,由于这些算法训练的电子邮件数据集有限,因此它们不擅长识别各种攻击,因此遭受了概念漂移的困扰。攻击者可以在其电子邮件或网站的统计特征上引入小小的变化,以成功绕过检测。随着时间的流逝,文献所报告的准确性与算法在现实世界中的实际有效性之间存在差距。这以频繁的假阳性和假阴性分类意识到自己。为此,我们建议对电子邮件进行多维风险评估,以减少攻击者调整电子邮件并避免检测的可行性。这种横向发送网络钓鱼检测配置文件的水平方法在其主要功能上发出了传入的电子邮件。我们开发了一个风险评估框架,其中包括三个模型,分析了电子邮件(1)威胁级别,(2)认知操纵和(3)电子邮件类型,我们合并了这些电子邮件类型以返回最终的风险评估评分。剖面人员不需要大量的数据集进行训练以有效,其对电子邮件功能的分析会减少概念漂移的影响。我们的参考器可以与ML方法结合使用,以减少其错误分类或作为培训阶段中大型电子邮件数据集的标签。我们在9000个合法的数据集中,使用最先进的ML算法评估了剖面人员对机器学习合奏的功效,并从一个大型澳大利亚大型研究组织的900个网络钓鱼电子邮件中进行了效力。我们的结果表明,探查者的概念漂移的影响减少了30%的假阳性,对ML合奏方法的虚假负面电子邮件分类少25%。
translated by 谷歌翻译
基于Web的网络钓鱼占数据泄露的90%以上,大多数Web浏览器和安全供应商都依靠机器学习(ML)模型作为缓解。尽管如此,还显示出在抗钓鱼聚合物(例如网络和Virustotal)上定期发布的链接可轻松绕过现有的探测器。先前的艺术表明,随着光突变的自动网站克隆正在吸引攻击者。这在当前文献中的暴露量有限,并导致基于ML的优势对策。这里的工作进行了第一项经验研究,该研究在广泛的循环中汇编和评估了各种最先进的克隆技术。我们收集了13,394个样品,发现了8,566个确认的网络钓鱼页面,使用7种不同的克隆机制针对4个流行网站。这些样品在受控平台中以防止意外访问的预防措施进行了删除的恶意代码复制。然后,我们将站点报告给Virustotal和其他平台,并定期对结果进行7天的调查,以确定每种克隆技术的功效。结果表明,没有安全供应商检测到我们的克隆,证明了对更有效的检测器的迫切需求。最后,我们提出了4项建议,以帮助网络开发人员和基于ML的防御能力减轻克隆攻击的风险。
translated by 谷歌翻译
科学出版物的产出成倍增长。因此,跟踪趋势和变化越来越具有挑战性。了解科学文档是下游任务的重要一步,例如知识图构建,文本挖掘和纪律分类。在这个研讨会中,我们从科学出版物的摘要中可以更好地理解关键字和键形酶提取。
translated by 谷歌翻译
网络钓鱼袭击在互联网上继续成为一个重大威胁。先前的研究表明,可以确定网站是否是网络钓鱼,也可以更仔细地分析其URL。基于URL的方法的一个主要优点是它即使在浏览器中呈现网页之前,它也可以识别网络钓鱼网站,从而避免了其他潜在问题,例如加密和驾驶下载。但是,传统的基于URL的方法有它们的局限性。基于黑名单的方法容易出现零小时网络钓鱼攻击,基于先进的机器学习方法消耗高资源,而其他方法将URL发送到远程服务器,损害用户的隐私。在本文中,我们提出了一个分层的防护防御,PhishMatch,这是强大,准确,廉价和客户端的。我们设计一种节省空间高效的AHO-Corasick算法,用于精确串联匹配和基于N-GRAM的索引技术,用于匹配的近似字符串,以检测网络钓鱼URL中的各种弧度标准技术。为了减少误报,我们使用全球白名单和个性化用户白名单。我们还确定访问URL的上下文并使用该信息更准确地对输入URL进行分类。 PhishMatch的最后一个组成部分涉及机器学习模型和受控搜索引擎查询以对URL进行分类。发现针对Chrome浏览器开发的PhishMatch的原型插件,是快速轻便的。我们的评价表明,PhishMatch既有效又有效。
translated by 谷歌翻译
在学术界,抄袭肯定不是一个新兴的关注,但它随着互联网的普及和对全球内容来源的易于访问而变得更大的程度,使人类干预不足。尽管如此,由于计算机辅助抄袭检测,抄袭远远远非是一个未被解除的问题,目前是一个有效的研究领域,该研究落在信息检索(IR)和自然语言处理(NLP)领域。许多软件解决方案有助于满足这项任务,本文概述了用于阿拉伯语,法国和英语学术和教育环境的抄袭检测系统。比较在八个系统之间持有,并在检测不同来源的三个混淆水平的特征,可用性,技术方面以及它们的性能之间进行:逐字,释义和跨语言抄袭。在本研究的背景下也进行了对技术形式的抄袭技术形式的关注检查。此外,还提供了对不同作者提出的抄袭类型和分类的调查。
translated by 谷歌翻译
Automatic keyword extraction (AKE) has gained more importance with the increasing amount of digital textual data that modern computing systems process. It has various applications in information retrieval (IR) and natural language processing (NLP), including text summarisation, topic analysis and document indexing. This paper proposes a simple but effective post-processing-based universal approach to improve the performance of any AKE methods, via an enhanced level of semantic-awareness supported by PoS-tagging. To demonstrate the performance of the proposed approach, we considered word types retrieved from a PoS-tagging step and two representative sources of semantic information -- specialised terms defined in one or more context-dependent thesauri, and named entities in Wikipedia. The above three steps can be simply added to the end of any AKE methods as part of a post-processor, which simply re-evaluate all candidate keywords following some context-specific and semantic-aware criteria. For five state-of-the-art (SOTA) AKE methods, our experimental results with 17 selected datasets showed that the proposed approach improved their performances both consistently (up to 100\% in terms of improved cases) and significantly (between 10.2\% and 53.8\%, with an average of 25.8\%, in terms of F1-score and across all five methods), especially when all the three enhancement steps are used. Our results have profound implications considering the ease to apply our proposed approach to any AKE methods and to further extend it.
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
我们使用不同的语言支持特征预处理方法研究特征密度(FD)的有效性,以估计数据集复杂性,这又用于比较估计任何训练之前机器学习(ML)分类器的潜在性能。我们假设估计数据集复杂性允许减少所需实验迭代的数量。这样我们可以优化ML模型的资源密集型培训,这是由于可用数据集大小的增加以及基于深神经网络(DNN)的模型的不断增加的普及而成为一个严重问题。由于训练大规模ML模型引起的令人惊叹的二氧化碳排放量,不断增加对更强大的计算资源需求的问题也在影响环境。该研究是在多个数据集中进行的,包括流行的数据集,例如用于培训典型情感分析模型的Yelp业务审查数据集,以及最近的数据集尝试解决网络欺凌问题,这是一个严重的社会问题,也是一个严重的社会问题一个更复杂的问题,形成了语言代表的观点。我们使用收集多种语言的网络欺凌数据集,即英语,日语和波兰语。数据集的语言复杂性的差异允许我们另外讨论语言备份的单词预处理的功效。
translated by 谷歌翻译
随着数字时代的出现,由于技术进步,每天的任务都是自动化的。但是,技术尚未为人们提供足够的工具和保障措施。随着互联网连接全球越来越多的设备,确保连接设备的问题以均匀的螺旋速率增长。数据盗窃,身份盗窃,欺诈交易,密码妥协和系统漏洞正在成为常规的日常新闻。最近的人工智能进步引起了网络攻击的激烈威胁。 AI几乎应用于不同科学和工程的每个领域。 AI的干预不仅可以使特定任务自动化,而且可以提高效率。因此,很明显,如此美味的传播对网络犯罪分子来说是非常开胃的。因此,传统的网络威胁和攻击现在是``智能威胁''。本文讨论了网络安全和网络威胁,以及传统和智能的防御方式,以防止网络攻击。最终,结束讨论,以潜在的潜在前景结束讨论AI网络安全。
translated by 谷歌翻译
本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源,重点关注公开可用的资源。除了提供有关可用语言资源的信息外,我们还提供了一组建议,并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。
translated by 谷歌翻译
复杂的工程系统的设计是一个漫长而明确的过程,高度依赖于工程师的专业知识和专业判断。因此,涉及人类因素的活动的典型陷阱通常是由于缺乏分析的完整性或详尽性,设计选择或文档之间的不一致性以及隐性主观性而表现出来。提出了一种方法,以帮助系统工程师从非结构化的自然语言文本中自动生成系统图。自然语言处理(NLP)技术用于从组织中提供的文本资源(例如规格,手册,技术报告,维护报告)从组织中提取实体及其关系,并将其转换为系统建模语言(SYSML)图表,并具有特定的图表专注于结构和需求图。目的是为用户提供一个更具标准化,全面和自动化的起点,随后根据其需求改进并调整图表。所提出的方法是灵活和开放域。它由六个步骤组成,这些步骤利用开放式工具,并导致自动生成的SYSML图,而无需中间建模要求,但通过用户对一组参数的规范。拟议方法的适用性和好处是通过六个案例研究显示的,其文本源为输入,并根据手动定义的图表元素进行了标准。
translated by 谷歌翻译
我们研究了从类别理论的数学字段中的英语文本中提取数学实体的不同系统,作为构建数学知识图的第一步。我们考虑四个不同的术语提取器,并比较它们的结果。这个小实验展示了从嘈杂域文本中提取的术语的构建和评估的一些问题。我们还提供了研究数学的两个开放语料库,尤其是类别理论:一小部分来自TAC期刊(3188个句子)的摘要,以及来自NLAB社区Wiki(15,000个句子)的较大语料库。
translated by 谷歌翻译
尽管将发票内容作为元数据存储以避免纸质文档处理可能是未来的趋势,但几乎所有每日发行的发票仍在纸上打印或以PDF等数字格式生成。在本文中,我们介绍了从扫描文档图像中提取信息的OCRMiner系统,该系统基于文本分析技术与布局功能结合使用(半)结构化文档的索引元数据。该系统旨在以人类读者使用的类似方式处理文档,即在协调决策中采用不同的布局和文本属性。该系统由一组互连模块组成,该模块以(可能是错误的)基于字符的输出从标准OCR系统开始,并允许应用不同的技术并在每个步骤中扩展提取的知识。使用开源OCR,该系统能够以90%的英语恢复发票数据,而捷克设置的发票数据为88%。
translated by 谷歌翻译
Natural Language Understanding has seen an increasing number of publications in the last few years, especially after robust word embeddings models became prominent, when they proved themselves able to capture and represent semantic relationships from massive amounts of data. Nevertheless, traditional models often fall short in intrinsic issues of linguistics, such as polysemy and homonymy. Any expert system that makes use of natural language in its core, can be affected by a weak semantic representation of text, resulting in inaccurate outcomes based on poor decisions. To mitigate such issues, we propose a novel approach called Most Suitable Sense Annotation (MSSA), that disambiguates and annotates each word by its specific sense, considering the semantic effects of its context. Our approach brings three main contributions to the semantic representation scenario: (i) an unsupervised technique that disambiguates and annotates words by their senses, (ii) a multi-sense embeddings model that can be extended to any traditional word embeddings algorithm, and (iii) a recurrent methodology that allows our models to be re-used and their representations refined. We test our approach on six different benchmarks for the word similarity task, showing that our approach can produce state-of-the-art results and outperforms several more complex state-of-the-art systems.
translated by 谷歌翻译
假新闻的迅速增加,这对社会造成重大损害,触发了许多假新闻相关研究,包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集:(1)假新闻检测,(2)事实验证,(3)其他任务;例如,假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后,我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究,而无需重新发明轮子,从而提高了深度的假新闻研究。
translated by 谷歌翻译
世界各地的隐私法律和法规的景观是复杂而不断变化的。国家和超国家法律,协议,法令和其他政府发行的规则构成了公司必须遵循的拼凑而成才能在国际上进行运作。为了检查该拼凑而成的状态和演变,我们介绍了1,043条隐私法,法规和准则的政府隐私指示语料库或GPI语料库,涵盖了182个司法管辖区。该语料库可以对法律焦点进行大规模定量和定性检查。我们检查了创建GPI的时间分布,并说明了过去50年中隐私立法的急剧增加,尽管较细粒度的检查表明,增加的速度取决于GPIS所说的个人数据类型。我们的探索还表明,大多数隐私法分别解决了相对较少的个人数据类型,这表明全面的隐私立法仍然很少见。此外,主题建模结果显示了GPI中常见主题的普遍性,例如财务,医疗保健和电信。最后,我们将语料库释放到研究界,以促进进一步的研究。
translated by 谷歌翻译
窃是声称自己是其他人,没有任何适当信用和引用的人。本文是一份调查论文,代表了一些很棒的研究论文及其对窃工作的比较。如今,窃成为自然语言处理领域中最有趣,最关键的研究点之一。我们回顾了一些基于不同类型的窃检测及其模型和算法的旧研究论文,并比较了这些论文的准确性。有几种方法可以使用不同的语言检测。有一些算法可以检测窃。类似,语料库,CL-CNG,LSI,Levenshtein距离等。我们分析了这些论文,并了解到它们使用了不同类型的算法来检测窃。在实验这些论文之后,我们得到了一些算法为检测pla窃提供了更好的输出和准确性。我们将对有关窃的一些论文进行审查,并将讨论其模型的利弊。我们还展示了一种提出的窃方法方法,该方法基于感知分离,单词分离并根据同义词制作句子并与任何来源进行比较。
translated by 谷歌翻译
The number of scientific publications continues to rise exponentially, especially in Computer Science (CS). However, current solutions to analyze those publications restrict access behind a paywall, offer no features for visual analysis, limit access to their data, only focus on niches or sub-fields, and/or are not flexible and modular enough to be transferred to other datasets. In this thesis, we conduct a scientometric analysis to uncover the implicit patterns hidden in CS metadata and to determine the state of CS research. Specifically, we investigate trends of the quantity, impact, and topics for authors, venues, document types (conferences vs. journals), and fields of study (compared to, e.g., medicine). To achieve this we introduce the CS-Insights system, an interactive web application to analyze CS publications with various dashboards, filters, and visualizations. The data underlying this system is the DBLP Discovery Dataset (D3), which contains metadata from 5 million CS publications. Both D3 and CS-Insights are open-access, and CS-Insights can be easily adapted to other datasets in the future. The most interesting findings of our scientometric analysis include that i) there has been a stark increase in publications, authors, and venues in the last two decades, ii) many authors only recently joined the field, iii) the most cited authors and venues focus on computer vision and pattern recognition, while the most productive prefer engineering-related topics, iv) the preference of researchers to publish in conferences over journals dwindles, v) on average, journal articles receive twice as many citations compared to conference papers, but the contrast is much smaller for the most cited conferences and journals, and vi) journals also get more citations in all other investigated fields of study, while only CS and engineering publish more in conferences than journals.
translated by 谷歌翻译
非结构化的文本中存在大量的位置信息,例如社交媒体帖子,新闻报道,科学文章,网页,旅行博客和历史档案。地理学是指识别文本中的位置参考并识别其地理空间表示的过程。虽然地理标准可以使许多领域受益,但仍缺少特定应用程序的摘要。此外,缺乏对位置参考识别方法的现有方法的全面审查和比较,这是地理验证的第一个和核心步骤。为了填补这些研究空白,这篇综述首先总结了七个典型的地理应用程序域:地理信息检索,灾难管理,疾病监视,交通管理,空间人文,旅游管理和犯罪管理。然后,我们通过将这些方法分类为四个组,以基于规则的基于规则,基于统计学学习的基于统计学学习和混合方法将这些方法分类为四个组,从而回顾了现有的方法参考识别方法。接下来,我们彻底评估了27种最广泛使用的方法的正确性和计算效率,该方法基于26个公共数据集,其中包含不同类型的文本(例如,社交媒体帖子和新闻报道),包含39,736个位置参考。这项彻底评估的结果可以帮助未来的方法论发展以获取位置参考识别,并可以根据应用需求指导选择适当方法的选择。
translated by 谷歌翻译