消费品的生产,运输,使用和处置对温室气体排放和资源耗竭有重大影响。机器学习(ML)可以通过考虑产品搜索或现代零售平台建议中的可持续性方面来帮助促进可持续消耗模式。但是,缺乏具有可信赖的可持续性信息的大型高质量公共产品数据阻碍了ML技术的发展,这可以帮助实现我们的可持续性目标。在这里,我们介绍GreendB,这是一个数据库,该数据库每周从欧洲在线商店收集产品。作为产品可持续性的代理,它依赖于由专家评估的可持续性标签。 GreendB模式扩展了著名的schema.org产品定义,并且可以轻松地集成到现有的产品目录中。我们提出了初步结果,表明接受我们数据训练的ML模型可以可靠地(F1分数96%)预测产品的可持续性标签。这些贡献可以帮助补充现有的电子商务体验,并最终鼓励用户采取更可持续的消费模式。
translated by 谷歌翻译
消费品的生产,运输,使用和处置对温室气体排放和资源耗竭有重大影响。现代零售平台在很大程度上依赖机器学习(ML)来搜索和推荐系统。因此,ML可以通过考虑产品搜索或建议中的可持续性方面来实施更可持续的消费模式的努力。但是,利用ML的潜力达到可持续性目标需要有关可持续性的数据。不幸的是,没有开放且公开可用的数据库可以按产品基础集成可持续性信息。在这项工作中,我们提出了填补这一空白的GreendB。根据数百万用户的搜索日志,我们优先考虑哪些产品用户最关心的是最关心的。 GreendB架构扩展了著名的schema.org产品定义,并且可以轻松地集成到现有的产品目录中,以改善可用于搜索和建议体验的可持续性信息。我们介绍了创建GREENDB数据集的刮擦系统的概念证明。
translated by 谷歌翻译
链接的开放数据实践导致了过去十年中网络上结构化数据的显着增长。这样的结构化数据以机器可读的方式描述了现实世界实体,并为自然语言处理领域的研究创造了前所未有的机会。但是,缺乏有关如何使用此类数据,哪种任务以及它们在多大程度上对这些任务有用的研究。这项工作着重于电子商务领域,以探索利用此类结构化数据来创建可能用于产品分类和链接的语言资源的方法。我们以RDF N四分之一的形式处理数十亿个结构化数据点,以创建数百万个与产品相关的语料库单词,后来以三种不同的方式用于创建语言资源:培训单词嵌入模型,继续预训练类似于Bert的语言模型和训练机器翻译模型,这些模型被用作生成产品相关的关键字的代理。我们对大量基准测试的评估表明,嵌入单词是提高这两个任务准确性的最可靠和一致的方法(在某些数据集中,宏观 - 平均F1中最高6.9个百分点)。但是,其他两种方法并不那么有用。我们的分析表明,这可能是由于许多原因,包括结构化数据中的偏置域表示以及缺乏词汇覆盖范围。我们分享我们的数据集,并讨论如何将我们所学到的经验教训朝着这一方向介绍未来的研究。
translated by 谷歌翻译
近年来,对机器学习算法在电子商务,全渠道营销和销售行业中的应用引起了人们的兴趣。它不仅符合算法的进步,而且还代表数据可用性,代表交易,用户和背景产品信息。以不同方式查找相关的产品,即替代品和补充对于供应商网站和供应商的建议至关重要,以执行有效的分类优化。本文介绍了一种新的方法,用于根据嵌入Cleora算法的图来查找产品的替代品和补充。我们还提供有关最先进的购物者算法的实验评估,研究了建议与行业专家的调查的相关性。结论是,此处提出的新方法提供了适当的推荐产品选择,需要最少的其他信息。该算法可用于各种企业,有效地识别替代品和互补产品选项。
translated by 谷歌翻译
在线发布的产品评论数量越来越多的是设计师的金矿,通过捕捉客户的声音,并相应地改善这些产品,了解他们开发的产品。与此同时,产品设计和开发在创造更可持续的未来方面具有重要作用。随着自然语言处理领域的人工智能技术最近,该研究旨在开发一体化机器学习解决方案,以便自动从线产品评论获得可持续设计的洞察。在本文中,讨论了,说明了现有框架 - 包括Python库,软件包以及伯爵等最先进的算法的机会和挑战。这一贡献讨论了达成的机会和建立机器学习管道的挑战,以便从产品审查中获取有限性,以设计更可持续的产品,包括五个阶段,包括与解释的可持续性相关的审查可持续设计引导:数据收集,数据格式,模型培训,模型评估和模型部署。给出了可持续设计见解的例子,可提供退出产品审查采矿和加工。最后,提供了用于该领域未来研究的有希望的线,包括与可持续替代品的平行标准产品的案例研究,以比较客户价值的特征,并在优质的可持续设计引线中产生。
translated by 谷歌翻译
属性值提取是指识别来自产品信息的感兴趣属性的值的任务。产品属性值在许多电子商务方案中是必不可少的,例如客户服务机器人,产品排名,检索和建议。在现实世界中,产品的属性值通常不完整并随着时间的变化而变化,这极大地阻碍了实际应用。在本文中,我们介绍了一个新的数据集,以更好地促进产品属性值提取的研究。 Mave由亚马逊页面的策划组220万产品组成,跨越1257个独特类别的300万个属性值注释。 Mave有四个主要和独特的优势:首先,Mave是由属性值示例的数量的最大产品属性值提取数据集。其次,MAVE包括来自产品的多源表示,其捕获具有高属性覆盖的完整产品信息。第三,Mave表示相对于先前的数据集覆盖范围的更多样化的属性和值。最后,Mave提供了一个非常具有挑战性的零点测试集,因为我们经验在实验中说明。我们进一步提出了一种新的方法,它有效地从多源产品信息中提取了属性值。我们使用几个基线进行广泛的实验,并显示MAVE是属性值提取任务的有效数据集。它在零拍摄属性提取也是一个非常具有挑战性的任务。数据可在{\ it \ url {https://github.com/google-research-datasets/mave}}上获得。
translated by 谷歌翻译
假新闻的迅速增加,这对社会造成重大损害,触发了许多假新闻相关研究,包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集:(1)假新闻检测,(2)事实验证,(3)其他任务;例如,假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后,我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究,而无需重新发明轮子,从而提高了深度的假新闻研究。
translated by 谷歌翻译
提高搜索结果的质量可以显着增强用户的体验和与搜索引擎的交战。尽管机器学习和数据挖掘领域的最新进展,但正确对特定用户搜索查询的项目进行了分类一直是一个长期的挑战,这仍然有很大的改进空间。本文介绍了“购物查询数据集”,这是一个很大的亚马逊搜索查询和结果的大型数据集,以促进研究以提高搜索结果的质量,以促进研究。该数据集包含大约1.3万个独特的查询和260万手动标记(查询,产品)相关性判断。该数据集具有多语言,其中包括英语,日语和西班牙语的查询。购物查询数据集用于KDDCUP'22挑战之一。在本文中,我们描述了数据集并介绍了三个评估任务以及基线结果:(i)对结果列表进行排名,(ii)将产品结果分类为相关性类别,以及(iii)确定给定查询的替代产品。我们预计这些数据将成为产品搜索主题的未来研究的黄金标准。
translated by 谷歌翻译
Humans inevitably develop a sense of the relationships between objects, some of which are based on their appearance. Some pairs of objects might be seen as being alternatives to each other (such as two pairs of jeans), while others may be seen as being complementary (such as a pair of jeans and a matching shirt). This information guides many of the choices that people make, from buying clothes to their interactions with each other. We seek here to model this human sense of the relationships between objects based on their appearance. Our approach is not based on fine-grained modeling of user annotations but rather on capturing the largest dataset possible and developing a scalable method for uncovering human notions of the visual relationships within. We cast this as a network inference problem defined on graphs of related images, and provide a large-scale dataset for the training and evaluation of the same. The system we develop is capable of recommending which clothes and accessories will go well together (and which will not), amongst a host of other applications.
translated by 谷歌翻译
在交互式环境中,现有的基础语言基准要么缺乏现实世界的语言元素,要么由于人类参与数据收集或反馈信号而难以扩展。为了弥合这一差距,我们开发了网络商店 - 一个模拟的电子商务网站环境,拥有11.18亿美元的现实世界中的产品和12,087美元的人群文本说明。给定指定产品需求的文本指令,代理需要导航多种类型的网页并发布各种操作以查找,自定义和购买项目。 WebShop为语言基础提供了一些挑战,包括了解构图说明,查询(重新)表述,理解和对网页中的嘈杂文本进行操作以及执行战略探索。我们为这项任务收集了超过1,600美元的人类示范,并使用强化学习,模仿学习以及预训练的图像和语言模型来训练和评估各种代理商。我们的最佳模型达到了任务成功率$ 29 \%$,它优于基于规则的启发式方法($ 9.6 \%$),但远低于人类专家绩效($ 59 \%$)。我们还分析了代理和人类轨迹,并消融各种模型组件,以提供有关具有更强语言理解和决策能力的未来代理人的见解。最后,我们表明,在Amazon.com上进行评估时,在网络商店进行培训的代理商展示了非平凡的SIM转移转移,这表明网络商店在开发可以在野外运行的实用基于网络的代理商中的潜在价值。
translated by 谷歌翻译
对话推荐系统比传统的推荐系统的一个关键特征是它们使用的自然语言引导学生用户偏好的能力。目前,主要的方法来诱导偏好是直接询问有关项目或项目属性。当用户没有目标域的足够的知识来回答这样的问题,这些战略没有的情况下表现良好。相反,在购物环境,说起规划用途项目不存在任何困难,甚至对那些新的领域。在本文中,我们问基于项目的使用隐含的问题提出了一种新的方法来诱导偏好。我们的方法包括两个主要步骤。首先,我们从包含有关项目使用情况的信息大量的评论文集识别句子。然后,我们透过这些句子,用神经文本到文本模型隐含的偏好启发的问题。这项工作的主要贡献还包括使用众包用于收集高质量标记的训练数据用于神经网络模型的多级数据协议注释。我们表明,我们的方法是有效的选择评述语句,并将它们转化到启发的问题,即使在有限的训练数据。此外,我们提供的模式,其中模型不优化进行分析。
translated by 谷歌翻译
本文确定了数据驱动系统中的数据最小化和目的限制的两个核心数据保护原理。虽然当代数据处理实践似乎与这些原则的赔率达到差异,但我们证明系统可以在技术上使用的数据远远少于目前的数据。此观察是我们详细的技术法律分析的起点,揭示了妨碍了妨碍了实现的障碍,并举例说明了在实践中应用数据保护法的意外权衡。我们的分析旨在向辩论提供关于数据保护对欧盟人工智能发展的影响,为数据控制员,监管机构和研究人员提供实际行动点。
translated by 谷歌翻译
Web搜索是人类获取信息的重要方法,但是对于了解网页内容的机器仍然是一个巨大的挑战。在本文中,我们介绍了对网上结构阅读理解(SRC)的任务。鉴于网页和关于它的问题,任务是从网页找到答案。此任务要求系统不仅要了解文本的语义,还需要了解文本的语义,还需要网页的结构。此外,我们提出了一种新的基于Web的结构阅读理解数据集。 WebSRC由400K问答对组成,从6.4K网页收集。与QA对一起,我们的数据集还提供了相应的HTML源代码,屏幕截图和元数据。 WebSRC中的每个问题都需要对网页的某种结构理解来回答,并且答案是网页或是/否的文本跨度。我们评估我们数据集的各种基线,以显示我们的任务难度。我们还研究了结构信息和视觉功能的有用性。我们的数据集和基线已在HTTPS://x-lance.github.io/websrc/上公开提供。
translated by 谷歌翻译
本文解决了DOM树元素表示学习的探讨问题。我们推进了基于机器学习的网络自动化领域,并希望在两个贡献中促进这一关键领域的进一步研究。首先,我们改进了几种基于图形的神经网络模型,并将其应用于嵌入网站DOM树中的元素。其次,我们提出了一个大规模的网页数据集。通过提供此开放式访问资源,我们将进入该领域的入口障碍降低。 DataSet包含$ 51,701 $手动标记的产品页面,从$ 8,175 $ REAL电子商务网站。页面可以完全呈现​​在Web浏览器中,适用于计算机视觉应用程序。这使得它比其他数据集基本更富裕,而不是用于网网上的元素表示学习,分类和预测的其他数据集。最后,使用我们所提出的数据集,我们显示由图形卷积神经网络产生的嵌入品产生的,由Web元素预测任务中的其他最先进方法产生的表示。
translated by 谷歌翻译
Web上的电子商务产品页面通常在结构化表格块中显示产品规格数据。这些产品属性值的提取有利于产品目录策策,搜索,问题应答等的应用程序受益。但是,在不同的网站上,存在各种HTML元素(如<table>,<ul>,<div>,<span>,<dl>等)通常用于呈现它们自动提取的块挑战。大多数目前的研究都集中在从表格和清单中提取产品规格,因此,当应用于大规模提取设置时,遭受召回。在本文中,我们提出了一种超越表或列表的产品规范提取方法,并横穿用于呈现规范块的不同HTML元素。我们首先使用手工编码功能和深度学习的空间和令牌功能的组合,首先识别产品页面上的规范块。然后,我们在由包装器感应启发的方法后从这些块中提取产品属性值对。我们创建了从一系列不同产品网站的14,111种不同的规格块中提取的产品规格的标签数据集。我们的实验表明,与当前规格的提取模型相比,我们的方法的功效,并支持我们对大规模产品规范提取的应用。
translated by 谷歌翻译
目前,用于网站分类的公开型号不提供嵌入式方法,并且对英语的语言有限。我们在92种语言中释放了一个以上的网站,其中包含来自Curlie的相对标签,这是最大的多语种蜂窝Web目录。 DataSet包含14个网站类别遍及语言。除此之外,我们介绍主页2VEC,这是一种机器学习的预训练模型,用于根据他们的主页以语言无话无方式对网站进行分类和嵌入网站。主页2VEC,由于其功能集(文本内容,元数据标记和视觉属性)以及自然语言表示的最新进展,是由设计无关的语言,可以生成嵌入式表示。我们显示主页2VEC正确对网站进行了分类,宏平均F1分数为0.90,具有稳定的性能,以及高资源语言。特征分析表明,即使使用有限的计算资源,也足以实现高性能的小节能。我们将公开可用的Cutated Curlie DataSet横跨语言,预先培训的主页2VEC模型和库。
translated by 谷歌翻译
创新是经济和社会发展的主要驱动力,有关多种创新的信息嵌入了专利和专利申请的半结构化数据中。尽管在专利数据中表达的创新的影响和新颖性很难通过传统手段来衡量,但ML提供了一套有希望的技术来评估新颖性,汇总贡献和嵌入语义。在本文中,我们介绍了Harvard USPTO专利数据集(HUPD),该数据集是2004年至2004年之间提交给美国专利商业办公室(USPTO)的大型,结构化和多用途的英语专利专利申请。 2018年。HUPD拥有超过450万张专利文件,是可比的Coldia的两到三倍。与以前在NLP中提出的专利数据集不同,HUPD包含了专利申请的发明人提交的版本(不是授予专利的最终版本),其中允许我们在第一次使用NLP方法进行申请时研究专利性。它在包含丰富的结构化元数据以及专利申请文本的同时也很新颖:通过提供每个应用程序的元数据及其所有文本字段,数据集使研究人员能够执行一组新的NLP任务,以利用结构性协变量的变异。作为有关HUPD的研究类型的案例研究,我们向NLP社区(即专利决策的二元分类)介绍了一项新任务。我们还显示数据集中提供的结构化元数据使我们能够对此任务进行概念转移的明确研究。最后,我们演示了如何将HUPD用于三个其他任务:专利主题领域的多类分类,语言建模和摘要。
translated by 谷歌翻译
我们考虑使用自动监督学习系统的数据表,不仅包含数字/分类列,而且还包含一个或多个文本字段。在这里,我们组装了18个多模式数据表,每个数据表都包含一些文本字段并源于真正的业务应用程序。我们的公开的基准使研究人员能够通过数字,分类和文本功能全面评估自己的监督学习方法。为了确保在所有18个数据集上执行良好的任何单一建模策略将作为多式化文本/表格自动机的实用基础,我们的基准中的不同数据集在:样本大小,问题类型(分类和回归任务组合),功能数量(数据集之间的文本列的数量范围为1到28),以及预测信号如何在文本与数字/分类特征(以及预测相互作用)之间分解。在此基准测试中,我们评估各种直接的流水线来模拟这些数据,包括标准的两阶段方法,其中NLP用于团体化文本,然后可以应用表格数据的自动机。与人类数据科学团队相比,在我们的基准测试(堆叠与各种树模型的堆栈组合多峰变压器的堆栈)的全自动方法也可以在两个机器预测竞赛中符合原始文本/表格数据和第二次在卡格的Mercari价格建议挑战中的地方(2380支球队)。
translated by 谷歌翻译
Automatic fake news detection is a challenging problem in misinformation spreading, and it has tremendous real-world political and social impacts. Past studies have proposed machine learning-based methods for detecting such fake news, focusing on different properties of the published news articles, such as linguistic characteristics of the actual content, which however have limitations due to the apparent language barriers. Departing from such efforts, we propose FNDaaS, the first automatic, content-agnostic fake news detection method, that considers new and unstudied features such as network and structural characteristics per news website. This method can be enforced as-a-Service, either at the ISP-side for easier scalability and maintenance, or user-side for better end-user privacy. We demonstrate the efficacy of our method using data crawled from existing lists of 637 fake and 1183 real news websites, and by building and testing a proof of concept system that materializes our proposal. Our analysis of data collected from these websites shows that the vast majority of fake news domains are very young and appear to have lower time periods of an IP associated with their domain than real news ones. By conducting various experiments with machine learning classifiers, we demonstrate that FNDaaS can achieve an AUC score of up to 0.967 on past sites, and up to 77-92% accuracy on newly-flagged ones.
translated by 谷歌翻译
了解产品内容的视觉和语言表示对于电子商务中的搜索和推荐应用程序至关重要。作为在线购物平台的骨干,受到代表学习研究的最新成功的启发,我们提出了一个对比度学习框架,该框架使用未标记的原始产品文本和图像来对齐语言和视觉模型。我们介绍了我们用来培训大规模代表性学习模型的技术,并共享解决特定领域挑战的解决方案。我们使用预先训练的模型作为多种下游任务的骨干进行研究,包括类别分类,属性提取,产品匹配,产品聚类和成人产品识别。实验结果表明,我们所提出的方法在每个下游任务中均优于单个模态和多种方式的基线。
translated by 谷歌翻译