Web上的电子商务产品页面通常在结构化表格块中显示产品规格数据。这些产品属性值的提取有利于产品目录策策,搜索,问题应答等的应用程序受益。但是,在不同的网站上,存在各种HTML元素(如<table>,<ul>,<div>,<span>,<dl>等)通常用于呈现它们自动提取的块挑战。大多数目前的研究都集中在从表格和清单中提取产品规格,因此,当应用于大规模提取设置时,遭受召回。在本文中,我们提出了一种超越表或列表的产品规范提取方法,并横穿用于呈现规范块的不同HTML元素。我们首先使用手工编码功能和深度学习的空间和令牌功能的组合,首先识别产品页面上的规范块。然后,我们在由包装器感应启发的方法后从这些块中提取产品属性值对。我们创建了从一系列不同产品网站的14,111种不同的规格块中提取的产品规格的标签数据集。我们的实验表明,与当前规格的提取模型相比,我们的方法的功效,并支持我们对大规模产品规范提取的应用。
translated by 谷歌翻译
属性值提取是指识别来自产品信息的感兴趣属性的值的任务。产品属性值在许多电子商务方案中是必不可少的,例如客户服务机器人,产品排名,检索和建议。在现实世界中,产品的属性值通常不完整并随着时间的变化而变化,这极大地阻碍了实际应用。在本文中,我们介绍了一个新的数据集,以更好地促进产品属性值提取的研究。 Mave由亚马逊页面的策划组220万产品组成,跨越1257个独特类别的300万个属性值注释。 Mave有四个主要和独特的优势:首先,Mave是由属性值示例的数量的最大产品属性值提取数据集。其次,MAVE包括来自产品的多源表示,其捕获具有高属性覆盖的完整产品信息。第三,Mave表示相对于先前的数据集覆盖范围的更多样化的属性和值。最后,Mave提供了一个非常具有挑战性的零点测试集,因为我们经验在实验中说明。我们进一步提出了一种新的方法,它有效地从多源产品信息中提取了属性值。我们使用几个基线进行广泛的实验,并显示MAVE是属性值提取任务的有效数据集。它在零拍摄属性提取也是一个非常具有挑战性的任务。数据可在{\ it \ url {https://github.com/google-research-datasets/mave}}上获得。
translated by 谷歌翻译
链接的开放数据实践导致了过去十年中网络上结构化数据的显着增长。这样的结构化数据以机器可读的方式描述了现实世界实体,并为自然语言处理领域的研究创造了前所未有的机会。但是,缺乏有关如何使用此类数据,哪种任务以及它们在多大程度上对这些任务有用的研究。这项工作着重于电子商务领域,以探索利用此类结构化数据来创建可能用于产品分类和链接的语言资源的方法。我们以RDF N四分之一的形式处理数十亿个结构化数据点,以创建数百万个与产品相关的语料库单词,后来以三种不同的方式用于创建语言资源:培训单词嵌入模型,继续预训练类似于Bert的语言模型和训练机器翻译模型,这些模型被用作生成产品相关的关键字的代理。我们对大量基准测试的评估表明,嵌入单词是提高这两个任务准确性的最可靠和一致的方法(在某些数据集中,宏观 - 平均F1中最高6.9个百分点)。但是,其他两种方法并不那么有用。我们的分析表明,这可能是由于许多原因,包括结构化数据中的偏置域表示以及缺乏词汇覆盖范围。我们分享我们的数据集,并讨论如何将我们所学到的经验教训朝着这一方向介绍未来的研究。
translated by 谷歌翻译
Web搜索是人类获取信息的重要方法,但是对于了解网页内容的机器仍然是一个巨大的挑战。在本文中,我们介绍了对网上结构阅读理解(SRC)的任务。鉴于网页和关于它的问题,任务是从网页找到答案。此任务要求系统不仅要了解文本的语义,还需要了解文本的语义,还需要网页的结构。此外,我们提出了一种新的基于Web的结构阅读理解数据集。 WebSRC由400K问答对组成,从6.4K网页收集。与QA对一起,我们的数据集还提供了相应的HTML源代码,屏幕截图和元数据。 WebSRC中的每个问题都需要对网页的某种结构理解来回答,并且答案是网页或是/否的文本跨度。我们评估我们数据集的各种基线,以显示我们的任务难度。我们还研究了结构信息和视觉功能的有用性。我们的数据集和基线已在HTTPS://x-lance.github.io/websrc/上公开提供。
translated by 谷歌翻译
从HTML文档中提取结构化信息是一个长期研究的问题,其中包括知识库构造,面积搜索和个性化建议。先前的工作依靠每个目标网站上的一些人体标记的网页或一些从某些种子网站的人类标记的网页来培训可转移的提取模型,该模型在看不见的目标网站上概括。嘈杂的内容,较低的站点级别的一致性以及缺乏通信协议使标签网页成为耗时且昂贵的磨难。我们开发的最少是半结构化Web文档的标签有效的自我训练方法,以克服这些限制。至少利用一些人标记的页面来伪造来自目标垂直行业的大量未标记的网页。它使用自我训练对人类标记和伪标记的样品进行了可转移的Web取消模型训练。为了减轻由于嘈杂的训练样本而导致的错误传播,至少根据其估计的标签准确性重新重量重量,并将其纳入培训。据我们所知,这是第一项提出端到端培训的工作,用于仅利用少数人标记的页面进行可转移的Web提取模型。大规模公共数据集的实验表明,每个种子网站上使用少于十个人体标记的页面进行培训,最不受欢迎的模型在未见网站上的平均f1点以上的最新型号超过26个平均F1点,减少人类标记的页面的数量,以达到超过10倍的性能。
translated by 谷歌翻译
本文通过自然应用程序对网页和元素分类来解决复杂结构数据的高效表示的问题。我们假设网页内部元素周围的上下文对问题的价值很高,目前正在被利用。本文旨在通过考虑到其上下文来解决将Web元素分类为DOM树的子树的问题。为实现这一目标,首先讨论当前在结构上工作的专家知识系统,如树 - LSTM。然后,我们向该模型提出上下文感知扩展。我们表明,在多级Web分类任务中,新模型实现了0.7973的平均F1分数。该模型为各种子树生成更好的表示,并且可以用于应用此类元素分类,钢筋在网上学习中的状态估计等。
translated by 谷歌翻译
尽管将发票内容作为元数据存储以避免纸质文档处理可能是未来的趋势,但几乎所有每日发行的发票仍在纸上打印或以PDF等数字格式生成。在本文中,我们介绍了从扫描文档图像中提取信息的OCRMiner系统,该系统基于文本分析技术与布局功能结合使用(半)结构化文档的索引元数据。该系统旨在以人类读者使用的类似方式处理文档,即在协调决策中采用不同的布局和文本属性。该系统由一组互连模块组成,该模块以(可能是错误的)基于字符的输出从标准OCR系统开始,并允许应用不同的技术并在每个步骤中扩展提取的知识。使用开源OCR,该系统能够以90%的英语恢复发票数据,而捷克设置的发票数据为88%。
translated by 谷歌翻译
ClueWeb22, the newest iteration of the ClueWeb line of datasets, provides 10 billion web pages affiliated with rich information. Its design was influenced by the need for a high quality, large scale web corpus to support a range of academic and industry research, for example, in information systems, retrieval-augmented AI systems, and model pretraining. Compared with earlier ClueWeb corpora, the ClueWeb22 corpus is larger, more varied, of higher-quality, and aligned with the document distributions in commercial web search. Besides raw HTML, ClueWeb22 includes rich information about the web pages provided by industry-standard document understanding systems, including the visual representation of pages rendered by a web browser, parsed HTML structure information from a neural network parser, and pre-processed cleaned document text to lower the barrier to entry. Many of these signals have been widely used in industry but are available to the research community for the first time at this scale.
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
本文介绍了预测关系提取的文本文档的覆盖范围的新任务(重新):该文件是否包含给定实体的许多关系元组?覆盖预测可用于选择具有大型输入基层的知识库建设的最佳文档。为研究这个问题,我们为520个实体提供了31,366个不同文件的数据集。我们分析了文档覆盖的相关性与长度,实体提及频率,alexa等级,语言复杂性和信息检索分数的特征相关。这些特征中的每一个都只有适度的预测力量。我们采用方法将具有统计模型的功能相结合,如TF-IDF和BERT语言模型。该模型结合特性和BERT,HERB,实现了F1得分高达46%。我们展示了两种用例的覆盖预测的效用:KB建设和索赔驳斥。
translated by 谷歌翻译
越来越多的工作已经认识到利用机器学习(ML)进步的重要性,以满足提取访问控制属性,策略挖掘,策略验证,访问决策等有效自动化的需求。在这项工作中,我们调查和总结了各种ML解决不同访问控制问题的方法。我们提出了ML模型在访问控制域中应用的新分类学。我们重点介绍当前的局限性和公开挑战,例如缺乏公共现实世界数据集,基于ML的访问控制系统的管理,了解黑盒ML模型的决策等,并列举未来的研究方向。
translated by 谷歌翻译
本文解决了DOM树元素表示学习的探讨问题。我们推进了基于机器学习的网络自动化领域,并希望在两个贡献中促进这一关键领域的进一步研究。首先,我们改进了几种基于图形的神经网络模型,并将其应用于嵌入网站DOM树中的元素。其次,我们提出了一个大规模的网页数据集。通过提供此开放式访问资源,我们将进入该领域的入口障碍降低。 DataSet包含$ 51,701 $手动标记的产品页面,从$ 8,175 $ REAL电子商务网站。页面可以完全呈现​​在Web浏览器中,适用于计算机视觉应用程序。这使得它比其他数据集基本更富裕,而不是用于网网上的元素表示学习,分类和预测的其他数据集。最后,使用我们所提出的数据集,我们显示由图形卷积神经网络产生的嵌入品产生的,由Web元素预测任务中的其他最先进方法产生的表示。
translated by 谷歌翻译
大型预训练的神经网络无处不在,对于自然语言处理和计算机视觉中许多下游任务的成功至关重要。但是,在Web信息检索领域内,缺乏类似灵活且强大的预训练模型可以正确解析网页存在鲜明的对比。因此,我们认为,诸如内容提取和来自网页的信息挖掘之类的常见机器学习任务的收益较低,但仍未开发。我们的目标是通过引入不可知论的深图神经网络提取器来缩小差距,该图形提取器可以摄入网页结构,对大量未标记的数据进行自我监督,并对网页上的任意任务进行微调。最后,我们表明,我们的预训练模型使用两个非常不同的基准测试的多个数据集实现了最新的结果:网页清除板删除和流派分类,从而在不同的下游任务中提供了对其潜在应用的借贷支持。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
Wikidata是一个经常更新,社区驱动和多语言知识图形。因此,Wikidata是实体联系的一个有吸引力的基础,这是最近发表论文的增加显而易见的。该调查侧重于四个主题:(1)存在哪些Wikidata实体链接数据集,它们是多么广泛使用,它们是如何构建的? (2)对实体联系数据集的设计进行Wikidata的特点,如果是的话,怎么样? (3)当前实体链接方法如何利用Wikidata的特定特征? (4)现有实体链接方法未开发哪种Wikidata特征?本次调查显示,当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此,没有提升多语言和时间依赖数据集的可能性,是自然适合维基帽的数据集。此外,我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式,因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性,有时是描述,而是忽略超关系结构等特征。因此,例如,通过包括超关系图嵌入或类型信息,仍有改进的余地。许多方法还包括来自维基百科的信息,这些信息很容易与Wikidata组合并提供有价值的文本信息,Wikidata缺乏。
translated by 谷歌翻译
复杂的工程系统的设计是一个漫长而明确的过程,高度依赖于工程师的专业知识和专业判断。因此,涉及人类因素的活动的典型陷阱通常是由于缺乏分析的完整性或详尽性,设计选择或文档之间的不一致性以及隐性主观性而表现出来。提出了一种方法,以帮助系统工程师从非结构化的自然语言文本中自动生成系统图。自然语言处理(NLP)技术用于从组织中提供的文本资源(例如规格,手册,技术报告,维护报告)从组织中提取实体及其关系,并将其转换为系统建模语言(SYSML)图表,并具有特定的图表专注于结构和需求图。目的是为用户提供一个更具标准化,全面和自动化的起点,随后根据其需求改进并调整图表。所提出的方法是灵活和开放域。它由六个步骤组成,这些步骤利用开放式工具,并导致自动生成的SYSML图,而无需中间建模要求,但通过用户对一组参数的规范。拟议方法的适用性和好处是通过六个案例研究显示的,其文本源为输入,并根据手动定义的图表元素进行了标准。
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译
来自文本的采矿因果关系是一种复杂的和至关重要的自然语言理解任务,对应于人类认知。其解决方案的现有研究可以分为两种主要类别:基于特征工程和基于神经模型的方法。在本文中,我们发现前者具有不完整的覆盖范围和固有的错误,但提供了先验知识;虽然后者利用上下文信息,但其因果推断不足。为了处理限制,我们提出了一个名为MCDN的新型因果关系检测模型,明确地模拟因果关系,而且,利用两种方法的优势。具体而言,我们采用多头自我关注在Word级别获得语义特征,并在段级别推断出来的SCRN。据我们所知,关于因果关系任务,这是第一次应用关系网络。实验结果表明:1)该方法对因果区检测进行了突出的性能; 2)进一步分析表现出MCDN的有效性和稳健性。
translated by 谷歌翻译
The development of deep neural networks has improved representation learning in various domains, including textual, graph structural, and relational triple representations. This development opened the door to new relation extraction beyond the traditional text-oriented relation extraction. However, research on the effectiveness of considering multiple heterogeneous domain information simultaneously is still under exploration, and if a model can take an advantage of integrating heterogeneous information, it is expected to exhibit a significant contribution to many problems in the world. This thesis works on Drug-Drug Interactions (DDIs) from the literature as a case study and realizes relation extraction utilizing heterogeneous domain information. First, a deep neural relation extraction model is prepared and its attention mechanism is analyzed. Next, a method to combine the drug molecular structure information and drug description information to the input sentence information is proposed, and the effectiveness of utilizing drug molecular structures and drug descriptions for the relation extraction task is shown. Then, in order to further exploit the heterogeneous information, drug-related items, such as protein entries, medical terms and pathways are collected from multiple existing databases and a new data set in the form of a knowledge graph (KG) is constructed. A link prediction task on the constructed data set is conducted to obtain embedding representations of drugs that contain the heterogeneous domain information. Finally, a method that integrates the input sentence information and the heterogeneous KG information is proposed. The proposed model is trained and evaluated on a widely used data set, and as a result, it is shown that utilizing heterogeneous domain information significantly improves the performance of relation extraction from the literature.
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.
translated by 谷歌翻译