消费品的生产,运输,使用和处置对温室气体排放和资源耗竭有重大影响。现代零售平台在很大程度上依赖机器学习(ML)来搜索和推荐系统。因此,ML可以通过考虑产品搜索或建议中的可持续性方面来实施更可持续的消费模式的努力。但是,利用ML的潜力达到可持续性目标需要有关可持续性的数据。不幸的是,没有开放且公开可用的数据库可以按产品基础集成可持续性信息。在这项工作中,我们提出了填补这一空白的GreendB。根据数百万用户的搜索日志,我们优先考虑哪些产品用户最关心的是最关心的。 GreendB架构扩展了著名的schema.org产品定义,并且可以轻松地集成到现有的产品目录中,以改善可用于搜索和建议体验的可持续性信息。我们介绍了创建GREENDB数据集的刮擦系统的概念证明。
translated by 谷歌翻译
消费品的生产,运输,使用和处置对温室气体排放和资源耗竭有重大影响。机器学习(ML)可以通过考虑产品搜索或现代零售平台建议中的可持续性方面来帮助促进可持续消耗模式。但是,缺乏具有可信赖的可持续性信息的大型高质量公共产品数据阻碍了ML技术的发展,这可以帮助实现我们的可持续性目标。在这里,我们介绍GreendB,这是一个数据库,该数据库每周从欧洲在线商店收集产品。作为产品可持续性的代理,它依赖于由专家评估的可持续性标签。 GreendB模式扩展了著名的schema.org产品定义,并且可以轻松地集成到现有的产品目录中。我们提出了初步结果,表明接受我们数据训练的ML模型可以可靠地(F1分数96%)预测产品的可持续性标签。这些贡献可以帮助补充现有的电子商务体验,并最终鼓励用户采取更可持续的消费模式。
translated by 谷歌翻译
The number of scientific publications continues to rise exponentially, especially in Computer Science (CS). However, current solutions to analyze those publications restrict access behind a paywall, offer no features for visual analysis, limit access to their data, only focus on niches or sub-fields, and/or are not flexible and modular enough to be transferred to other datasets. In this thesis, we conduct a scientometric analysis to uncover the implicit patterns hidden in CS metadata and to determine the state of CS research. Specifically, we investigate trends of the quantity, impact, and topics for authors, venues, document types (conferences vs. journals), and fields of study (compared to, e.g., medicine). To achieve this we introduce the CS-Insights system, an interactive web application to analyze CS publications with various dashboards, filters, and visualizations. The data underlying this system is the DBLP Discovery Dataset (D3), which contains metadata from 5 million CS publications. Both D3 and CS-Insights are open-access, and CS-Insights can be easily adapted to other datasets in the future. The most interesting findings of our scientometric analysis include that i) there has been a stark increase in publications, authors, and venues in the last two decades, ii) many authors only recently joined the field, iii) the most cited authors and venues focus on computer vision and pattern recognition, while the most productive prefer engineering-related topics, iv) the preference of researchers to publish in conferences over journals dwindles, v) on average, journal articles receive twice as many citations compared to conference papers, but the contrast is much smaller for the most cited conferences and journals, and vi) journals also get more citations in all other investigated fields of study, while only CS and engineering publish more in conferences than journals.
translated by 谷歌翻译
DBpedia is a community effort to extract structured information from Wikipedia and to make this information available on the Web. DBpedia allows you to ask sophisticated queries against datasets derived from Wikipedia and to link other datasets on the Web to Wikipedia data. We describe the extraction of the DBpedia datasets, and how the resulting information is published on the Web for human-and machine-consumption. We describe some emerging applications from the DBpedia community and show how website authors can facilitate DBpedia content within their sites. Finally, we present the current status of interlinking DBpedia with other open datasets on the Web and outline how DBpedia could serve as a nucleus for an emerging Web of open data.
translated by 谷歌翻译
各种网络的部署(例如,事物互联网(IOT)和移动网络),数据库(例如,营养表和食品组成数据库)和社交媒体(例如,Instagram和Twitter)产生大量的多型食品数据,这在食品科学和工业中起着关键作用。然而,由于众所周知的数据协调问题,这些多源食品数据显示为信息孤岛,导致难以充分利用这些食物数据。食物知识图表提供了统一和标准化的概念术语及其结构形式的关系,因此可以将食物信息孤单转换为更可重复使用的全球数量数字连接的食物互联网以使各种应用有益。据我们所知,这是食品科学与工业中食品知识图表的第一个全面审查。我们首先提供知识图表的简要介绍,然后主要从食物分类,食品本体到食品知识图表的进展。粮食知识图表的代表性应用将在新的配方开发,食品可追溯性,食物数据可视化,个性化饮食推荐,食品搜索和质询回答,视觉食品对象识别,食品机械智能制造方面来概述。我们还讨论了该领域的未来方向,例如食品供应链系统和人类健康的食品知识图,这应该得到进一步的研究。他们的巨大潜力将吸引更多的研究努力,将食物知识图形应用于食品科学和工业领域。
translated by 谷歌翻译
公众人物的行情可以标记历史上的转折点。一句话可以解释其发起人的行为,预示政治或个人决定并揭示性格特征。有影响力的行情跨语言障碍并影响了总体对特定立场的反应,总是面临被误入或脱离上下文的风险。提供的引号的跨语性知识图可以建立引号及其背景的真实性,这对于允许探索重要人物的生活以及主题的探索非常重要。在本文中,我们介绍了引号的第一个多语言知识图。我们提出了Quotekg创建管道,该管道从Wikiquote中提取引号,这是一种免费且合作创建的语言集合,并与同一报价的不同提及相符。 Quotekg包括$ 55 $语言的近一百万报价,在广泛的主题中,有超过69,000美元的公共利益人士说。 quotekg已公开可用,可以通过SPARQL端点访问。
translated by 谷歌翻译
链接的开放数据实践导致了过去十年中网络上结构化数据的显着增长。这样的结构化数据以机器可读的方式描述了现实世界实体,并为自然语言处理领域的研究创造了前所未有的机会。但是,缺乏有关如何使用此类数据,哪种任务以及它们在多大程度上对这些任务有用的研究。这项工作着重于电子商务领域,以探索利用此类结构化数据来创建可能用于产品分类和链接的语言资源的方法。我们以RDF N四分之一的形式处理数十亿个结构化数据点,以创建数百万个与产品相关的语料库单词,后来以三种不同的方式用于创建语言资源:培训单词嵌入模型,继续预训练类似于Bert的语言模型和训练机器翻译模型,这些模型被用作生成产品相关的关键字的代理。我们对大量基准测试的评估表明,嵌入单词是提高这两个任务准确性的最可靠和一致的方法(在某些数据集中,宏观 - 平均F1中最高6.9个百分点)。但是,其他两种方法并不那么有用。我们的分析表明,这可能是由于许多原因,包括结构化数据中的偏置域表示以及缺乏词汇覆盖范围。我们分享我们的数据集,并讨论如何将我们所学到的经验教训朝着这一方向介绍未来的研究。
translated by 谷歌翻译
在这项工作中,我们创建了一个Web应用程序,以突出训练法律文本中的NLP模型的输出。我们的系统主要是在新闻工作者和法律口译员的基础上建立的,我们专注于使用美国人口普查人口数量分配资源和组织政府的州级法律。我们的系统公开了我们收集6,000个州级法律的语料库,这些法律与美国人口普查有关,使用我们构建的25份刮刀来抓取我们发布的州法律网站。我们还构建了一个新颖的灵活注释框架,该框架可以在任意输入文本文档上处理跨度标记和关系标记,并将其简单地嵌入任何网页中。该框架使记者和研究人员可以通过纠正和标记新数据来添加我们的注释数据库。
translated by 谷歌翻译
食品药物中的额外标签药物使用由美国动物药用药物使用澄清法(AMDUCA)授权,估计的戒断间隔基于已发表的科学药代动力学数据。偶尔会有一种缺乏基于戒断间隔或正在处理的大量动物的科学数据的缺乏,驱动需要测试药物残留物的需要。快速测定商业农场侧测试对于监测动物产品中的药物残留物来保护人类健康至关重要。已经在制造商的网站上报告了用于商业快速测定测试的活性成分,灵敏度,矩阵和物种,或者在消费者可用的PDF文件中,但可能需要特殊访问请求。此外,该信息并不总是与FDA批准的公差相关联。此外,这些测试的参数变化可能非常具有挑战性,以定期识别,特别是网站上列出的那些或未公开可用的文件。因此,人工智能在有效地提取数据并确保当前信息时发挥着关键作用。通过学术界和商业工具建设者研究了从PDF和HTML文件中提取表。在实施自然语言规划方面,这些文件的文本挖掘研究已成为一个广泛但挑战的竞技场。然而,提取表的技术仍在他们的初期,并由研究人员调查和改进。在本研究中,我们开发并评估了数据挖掘方法,用于自动从电子文档中提取快速测定数据。我们的自动电子数据提取方法包括软件包模块,开发的模式识别工具和数据挖掘发动机。测定细节由几个生产这些快速药物残留测定的商业实体提供
translated by 谷歌翻译
科学家在寻找最佳的输入资源来解决目标预测任务的最佳输入资源方面的困难是在知识图图图上训练算法的主要障碍之一。除此之外,一个关键的挑战是确定如何操纵(和嵌入)这些数据,这些数据通常以特定的三元组(即主题,谓词,对象)的形式来启用学习过程。在本文中,我们描述了Liveschema倡议,即一个门户,该网关提供了一个服务家庭,可以轻松访问,分析,转换和利用知识图模式,其主要目标是促进这些资源在机器学习用例中的重复使用。作为该计划的早期实施,我们还推进了一个在线目录,该目录依赖于800多个资源,并提供了第一组示例服务。
translated by 谷歌翻译
上下文:大数据的有效处理是SQL和NOSQL数据库的一项具有挑战性的任务,在这种数据库中,有效的软件体系结构起着至关重要的作用。 SQL数据库设计用于构建数据和支持垂直可扩展性。相反,水平可伸缩性由NOSQL数据库支持,并且可以有效地处理较大的非结构化数据。可以根据组织的需求选择正确的范式;但是,做出正确的选择通常可能具有挑战性。 SQL和NOSQL数据库遵循不同的体系结构。同样,混合模型之后是NOSQL数据库的每个类别。因此,对于多个云服务提供商(CSP)的云消费者来说,数据移动变得困难。此外,每个云平台IAAS,PAAS,SaaS和DBAAS还监视各种范式。目的:该系统文献综述(SLR)旨在研究与SQL和NOSQL数据库软件体系结构相关的相关文章,并解决各种云平台之间的数据可移植性和互操作性。最新的状态通过观察缩放,性能,可用性,一致性和分片特性,介绍了SQL和NOSQL数据库的许多性能比较研究。根据研究研究,NOSQL数据库设计的结构可以是大数据分析的正确选择,而SQL数据库适合OLTP数据库。研究人员提出了许多与云中数据流动相关的方法。开发了基于平台的API,这使用户的数据移动变得困难。因此,在跨多个CSP的数据移动期间发现了数据可移植性和互操作性问题。为了最大程度地减少开发人员的努力和互操作性,要求统一的API使数据移动在各种云平台之间相对易于访问。
translated by 谷歌翻译
提高搜索结果的质量可以显着增强用户的体验和与搜索引擎的交战。尽管机器学习和数据挖掘领域的最新进展,但正确对特定用户搜索查询的项目进行了分类一直是一个长期的挑战,这仍然有很大的改进空间。本文介绍了“购物查询数据集”,这是一个很大的亚马逊搜索查询和结果的大型数据集,以促进研究以提高搜索结果的质量,以促进研究。该数据集包含大约1.3万个独特的查询和260万手动标记(查询,产品)相关性判断。该数据集具有多语言,其中包括英语,日语和西班牙语的查询。购物查询数据集用于KDDCUP'22挑战之一。在本文中,我们描述了数据集并介绍了三个评估任务以及基线结果:(i)对结果列表进行排名,(ii)将产品结果分类为相关性类别,以及(iii)确定给定查询的替代产品。我们预计这些数据将成为产品搜索主题的未来研究的黄金标准。
translated by 谷歌翻译
负责任的AI被广泛认为是我们时代最大的科学挑战之一,也是释放AI市场并增加采用率的关键。为了应对负责任的AI挑战,最近已经发布了许多AI伦理原则框架,AI系统应该符合这些框架。但是,没有进一步的最佳实践指导,从业者除了真实性之外没有什么。同样,在算法级别而不是系统级的算法上进行了重大努力,主要集中于数学无关的道德原则(例如隐私和公平)的一部分。然而,道德问题在开发生命周期的任何步骤中都可能发生,从而超过AI算法和模型以外的系统的许多AI,非AI和数据组件。为了从系统的角度操作负责任的AI,在本文中,我们采用了一种面向模式的方法,并根据系统的多媒体文献综述(MLR)的结果提出了负责任的AI模式目录。与其呆在道德原则层面或算法层面上,我们专注于AI系统利益相关者可以在实践中采取的模式,以确保开发的AI系统在整个治理和工程生命周期中负责。负责的AI模式编目将模式分为三组:多层次治理模式,可信赖的过程模式和负责任的逐设计产品模式。这些模式为利益相关者实施负责任的AI提供了系统性和可行的指导。
translated by 谷歌翻译
在由家用电器,电动汽车和太阳能电池板等各种设备组成的分散家庭能源系统中,最终用户可以更深入地研究该系统的细节,并进一步实现能源可持续性,如果向它们提供了有关电能消耗的数据和设备粒度的生产。但是,该领域中的许多数据库都是从其他域中孤立的,包括仅与能源有关的信息。这可能会导致每个设备能源使用的信息损失(\ textit {例如{例如}天气)。同时,许多这些数据集已在计算建模技术(例如机器学习模型)中广泛使用。尽管这种计算方法仅通过仅专注于数据集的局部视图来实现极高的准确性和性能,但不能保证模型可靠性,因为当考虑到信息遗漏时,此类模型非常容易受到数据输入波动的影响。本文通过在家庭能源系统的基础上检查语义Web方法来解决智能能源系统领域的数据隔离问题。我们提供了一种基于本体的方法,用于在系统中的设备级分辨率下管理分散数据。结果,与每个设备相关的数据的范围可以在整个网络中以可互操作的方式轻松扩展,并且只要根据W3C标准组织数据,就可以从网络中获得其他信息,例如天气。 。
translated by 谷歌翻译
大语言模型的兴起的一个关注点是它们可能造成重大伤害的潜力,尤其是在偏见,淫秽,版权和私人信息方面进行预处理。新兴的道德方法试图过滤预处理的材料,但是这种方法是临时的,未能考虑到上下文。我们提供了一种以法律为基础的过滤方法,该方法直接解决了过滤材料的权衡。首先,我们收集并提供了一堆法律,这是一个256GB(以及增长)的开源英语法律和行政数据数据集,涵盖法院意见,合同,行政规则和立法记录。对一堆法律进行预处理可能有助于解决有望改善司法接触的法律任务。其次,我们提炼政府已制定的法律规范将有毒或私人内容限制为可行的研究人员,并讨论我们的数据集如何反映这些规范。第三,我们展示了一堆法律如何为研究人员提供直接从数据中学习此类过滤规则的机会,从而为基于模型的处理提供了令人兴奋的新研究方向。
translated by 谷歌翻译
在学术界,抄袭肯定不是一个新兴的关注,但它随着互联网的普及和对全球内容来源的易于访问而变得更大的程度,使人类干预不足。尽管如此,由于计算机辅助抄袭检测,抄袭远远远非是一个未被解除的问题,目前是一个有效的研究领域,该研究落在信息检索(IR)和自然语言处理(NLP)领域。许多软件解决方案有助于满足这项任务,本文概述了用于阿拉伯语,法国和英语学术和教育环境的抄袭检测系统。比较在八个系统之间持有,并在检测不同来源的三个混淆水平的特征,可用性,技术方面以及它们的性能之间进行:逐字,释义和跨语言抄袭。在本研究的背景下也进行了对技术形式的抄袭技术形式的关注检查。此外,还提供了对不同作者提出的抄袭类型和分类的调查。
translated by 谷歌翻译
我们为AI驱动数据库提供了一个SYSML框架。使用Baihe,可能会改装现有的关系数据库系统以使用学习组件进行查询优化或其他常见任务,例如例如,学习索引结构。为确保Baihe的实用性和现实世界适用性,其高级架构基于以下要求:与核心系统的分离,最小的第三方依赖,鲁棒性,稳定性和容错,以及稳定性和可配置性。基于高级架构,我们将描述Baihe的具体实现PostgreSQL,并为学习查询优化器提供了实例使用情况。为了服务于从业者,以及DB和AI4DB社区的研究人员将在开源许可下发布PostgreSQL的Baihe。
translated by 谷歌翻译
本文确定了数据驱动系统中的数据最小化和目的限制的两个核心数据保护原理。虽然当代数据处理实践似乎与这些原则的赔率达到差异,但我们证明系统可以在技术上使用的数据远远少于目前的数据。此观察是我们详细的技术法律分析的起点,揭示了妨碍了妨碍了实现的障碍,并举例说明了在实践中应用数据保护法的意外权衡。我们的分析旨在向辩论提供关于数据保护对欧盟人工智能发展的影响,为数据控制员,监管机构和研究人员提供实际行动点。
translated by 谷歌翻译
This paper presents the OPUS ecosystem with a focus on the development of open machine translation models and tools, and their integration into end-user applications, development platforms and professional workflows. We discuss our on-going mission of increasing language coverage and translation quality, and also describe on-going work on the development of modular translation models and speed-optimized compact solutions for real-time translation on regular desktops and small devices.
translated by 谷歌翻译
许多数据分析任务在很大程度上依赖对表的深入了解(多维数据)。在整个任务中,都存在表字段 /列的共同使用的元数据属性。在本文中,我们确定了四个这样的分析元数据:测量/维度二分法,公共场作用,语义场类型和默认聚集函数。尽管这些元数据面临不足的监督信号的挑战,利用现有的知识和理解分布。为了将这些元数据推理为原始表,我们提出了多任务元数据模型,该模型将现场分布和知识图信息融合到预训练的表格模型中。对于模型培训和评估,我们通过使用下游任务的各种智能监督来收集分析元数据的大型语料库(来自私人电子表格和公共表格数据集的〜582K表)。我们的最佳模型的精度= 98%,命中率在TOP-1> 67%,精度> 80%和四个分析元数据推理任务的精度= 88%。它的表现优于基于规则,传统机器学习方法和预训练的表格模型的一系列基线。分析元数据模型被部署在流行的数据分析产品中,帮助下游智能功能,例如Insights挖掘,图表 /枢轴表建议和自然语言QA ...
translated by 谷歌翻译