问答(QA)作为一个研究领域,主要关注知识库(KB)或自由文本作为知识来源。这两个来源在历史上形成了通过资源提出的各种问题,以及为解决这些问题而开发的方法。在这项工作中,我们看到QA的实际用例,而不是用户指导的知识,它将结构化QA的元素与知识库,非结构化QA与叙述相结合,将多关系QA的任务引入个人叙述。作为实现这一目标的第一步,我们做出了三个关键贡献:(i)我们生成并发布TextWorldsQA,一组五个不同的数据集,whereeach数据集包含动态叙述,描述模拟世界中的实体和关系,与可变组成问题配对知识,(ii)我们在这项任务中对几个最先进的QA模型及其变体进行了全面的评估和分析,以及(iii)发布了一个轻量级的基于Python的框架,我们称之为TextWorlds,可以轻松生成任意的额外世界和叙事,目标是允许社区创建和分享越来越多的不同世界作为此任务的测试平台。
translated by 谷歌翻译
背景和意义:为临床试验选择队列通常需要昂贵且耗时的手动图表评论,导致参与不良。为了帮助实现该过程的自动化,National NLP临床挑战(N2C2)通过定义13个临床试验队列选择标准并提供培训和测试数据集,共同面临挑战。这项研究受到N2C2挑战的影响。方法:我们将任务分解为对应于每个标准的13个独立子任务,并使用规则或监督机器学习模型实现子任务。每项任务都严格依赖于任务专用词典形式的知识资源,为此我们开发了一种新颖的模型驱动方法。该方法允许我们首先从种子setand扩展词典然后从列表中删除噪声,从而提高准确性。结果:我们的系统在挑战时达到了0.9003的总体F值,并且在45名参与者中排名第一。模型驱动的词典开发和进一步调试训练集上的规则/代码将整体F测量值提高到0.9140,超过了挑战时的最佳数值结果。讨论:群组选择,如表型提取和分类,适用于基于规则或简单的机器学习方法,然而,所涉及的有关物质,例如药物名称或涉及医学问题的医学术语,严格地决定了总体准确性。自动化lexicondevelopment具有可扩展性和准确性的潜力。
translated by 谷歌翻译
整个网络上可用的数据很大程度上是非结构化的。由银行,数字钱包,商家等多种来源发布的优惠是当今世界中最常访问的广告数据之一。这些数据每天都被数百万人访问,很容易被人类解读,但由于它在很大程度上是非结构化和多样化的,因此使用算法方法从这些提议中提取有意义的信息很难。从这些要约中识别必要的要约实体(例如,其数量,适用于该产品的产品,提供要约的商家等)在定位合适的客户以改善销售方面起着至关重要的作用。该工作提出并评估了各种现有的命名实体识别器(NER)模型,这些模型可以从商品供稿中识别所需的实体。我们还提出了一级混合NER模型,该模型由第一级的条件随机场,双向LSTM和Spacy模型的二级堆叠以及第二级的SVM分类器构建。所提出的混合模型已经在从多个来源收集的报价馈送上进行了测试,并且与现有模型相比,在所述领域中表现出更好的性能。
translated by 谷歌翻译
Twitter最近在危机期间被用于与官员沟通并实时提供救援和救援行动。事件的地理位置信息以及用户在这些场景中至关重要。地理位置的识别是具有挑战性的任务之一,因为位置信息字段(例如用户位置和推文的地名)不可靠。从tweettext中提取位置信息很困难,因为它包含许多非标准的英语,语法错误,拼写错误,非标准缩写等等。本研究旨在使用基于卷积神经网络(CNN)的模型提取推文中使用的位置词。我们与地震相关的推文达到了0.929的准确匹配分数,汉明损失0.002和$ F_1 $ -score 0.96。我们的模型能够提取甚至三到四个字的长期位置参考,这也可以从超过92%的精确匹配得分中看出。本文的研究结果有助于早期事件本地化,紧急情况,实时道路交通管理,本地化广告以及各种基于位置的服务。
translated by 谷歌翻译
对于一些受欢迎的产品,产品评论在线发布数百甚至数千。对于买家,卖家甚至研究人员而言,处理如此大量的连续生成的在线内容是一项具有挑战性的任务。本研究的目的是使用他们预测的有用性评分对过多的评论进行排名。使用从随机森林分类器和梯度增强回归器的产品的评论文本数据,产品描述数据和客户问答数据中提取的特征来预测有益分数。系统通过随机森林分类器将评论分为低质量或高质量。高质量评论的有效性评分仅使用gradientboosting回归量预测。低质量评论的乐于助人得分未计算,因为它们永远不会进入前k评论。它们只是在评论列表的末尾添加到评论列表网站。建议的系统在审核列表页面上提供公平的审核放置,并在顶部为客户提供所有高质量的评论。来自两个受欢迎的印度电子商务网站的数据的实验结果证实了我们的主张,因为3-4个新的高质量评论被放置在前十个评论中,以及5-6个基于评论乐于助人的旧评论。我们的研究结果表明,包含产品描述数据和客户问题 - 答案数据中的特征可以提高有用性评分的预测准确性。
translated by 谷歌翻译
由于担心众包中的人为错误,标准实践是从多个互联网工作者收集相同数据点的标签。 Wehere表明,通过灵活的工人分配策略可以更有效地使用由此产生的预算,该策略要求较少的工人分析易于标签的数据,而更多的工人分析需要额外审查的数据。我们的主要贡献是展示如何在不使用工作人员配置文件的情况下,仅根据任务功能以最佳方式计算工作人员数量的分配。我们的目标任务是在显微镜图像中描绘细胞,并通过推文分析对2016年美国总统候选人的情绪。我们首先提出一种计算预算优化的人群工人分配(BUOCA)的算法。接下来,我们将培训机器学习系统(BUOCA-ML),该系统可预测最佳的人群工作人员数量,从而最大限度地提高标签的准确性。我们表明,计算分配可以大大节省众包预算(高达49个百分点),同时保持标签准确性。最后,我们设想了一种人机系统,用于在众包的可行性范围之外进行预算优化的数据分析。
translated by 谷歌翻译
我们提供了一种方法,弹性特征工程,用于创建对抗弹性分类器。根据现有工作,adversarialattacks识别分类器在训练期间学习的弱相关或非预测特征,并设计对抗性噪声以利用这些特征。因此,在分类过程中应首先使用高度预测的特征,以确定可能的输出标签集。我们的方法学将设计弹性分类器的问题集中在为这些高度预测特征设计弹性特征提取器的问题上。我们提供了两个支持我们方法论的定理。 SerialComposition Resilience和Parallel Composition Resilience定理表明,对侧弹性特征提取器的输出可以组合成一个同样弹性的分类器。根据我们的理论结果,我们概述了一种对抗弹性分类器的设计。
translated by 谷歌翻译
量子机器学习是全尺寸量子计算机最有前途的应用之一。在过去的几年中,已经提出了许多量子机器学习算法,它们可以提供相应的经典算法的考虑因素。在本文中,我们引入q-means,一种新的聚类量子算法,这是无监督机器学习中的一个规范问题。 $ q $ -means算法具有类似于$ k $ -means的收敛和精度保证,并且它以高概率输出$ k $聚类质心的近似,如经典算法。给定存储在QRAM中的$ N $ $ d $ -dimensional向量$ v_i $(在矩阵$ V \ in \ mathbb {R} ^ {N \ times d})$中的数据集,q-means的运行时间为$ \ widetilde {O} \ left(kd \ frac {\ eta} {\ delta ^ 2} \ kappa(V)(\ mu(V)+ k \ frac {\ eta} {\ delta})+ k ^ 2 \ frac {\ eta ^ {1.5}} {\ delta ^ 2} \ kappa(V)\ mu(V)\ right)$每次迭代,其中$ \ kappa(V)$是条件数,$ \ mu(V )$ isa参数出现在量子线性代数程序中,$ \ eta = \ max_ {i} || v_ {i} || ^ {2} $。对于\ emph {well-clusterable}数据集的自然概念,运行时间变为$ \ widetilde {O} \ left(k ^ 2 d \ frac {\ eta ^ {2.5}} {\ delta ^ 3} + k ^ {2.5} \ frac {\ eta ^ 2} {\ delta ^ 3} \ right)$ periteration,它是特征数$ d $的线性,以及therank $ k $中的多项式,最大平方范数$ \ eta $和错误参数$ \ delta $。两个运行时间只是数据点数$ N $的多对数。与每次迭代运行时间为$ O(kdN)$的经典$ k $ -means算法相比,Oural算法提供了大量的节省,特别是对于大型数据集的情况。
translated by 谷歌翻译
在本文中,我们提出了一种非线性控制策略,通过将摆动能量调整到所需的位置,将摆动摆动到直立平衡位置。虽然通常的卡杆系统的基座被限制为沿直线移动,但是允许本系统在x-y平面中以非完整的限制移动,其中其可允许的速度仅沿其方向。提出了一种简单的时不变控制律,并通过数值实验证明了其有效性。
translated by 谷歌翻译
本文提出了一种新的自动语法增强管道,它为小尺寸声学模型(AM)的系统提供了语音命令识别精度的显着改进。通过使用备用语法表达式扩充用户定义的语音命令集(也称为语法集)来实现改进。对于给定的语法集,从AM特定的统计发音字典构造用于增强的一组潜在语法表达(候选集),其捕获由发音,音调,节奏,重音,模糊拼写的变化引起的AM解码中的一致模式和错误。使用该候选集,基于贪婪优化和基于交叉熵方法(CEM)的算法被认为是利用命令特定数据集搜索具有改进的识别准确度的增强语法集。 Ourexperiments表明,提出的管道以及本文考虑的算法显着降低了误检测和错误分类率,而不会增加误报率。实验还证明了CEM方法与基于贪婪的算法相比具有一致的优越性能。
translated by 谷歌翻译