目的:与种系遗传学相关的医学文献呈指数增长。临床医生需要工具监测和文献优先排序,以了解致病性遗传变异的临床意义。我们开发并评估了两种机器学习模型,将摘要分类为与外显率(种系突变携带者的癌症风险)或种系基因突变的普遍性相关。方法:我们在PubMed中进行了文献检索,并检索了纸质标题和摘要,以创建一个用于训练和评估两种机器学习分类模型的注释数据集。我们的第一个模型是支持向量机(SVM),它基于每个标题和抽象的包的表示法来描述线性决策规则。我们的第二个模型是卷积神经网络(CNN),它基于原始标题和抽象学习复杂的非线性决策规则。我们评估了两种模型在论文分类中与外显率或普遍性相关的表现。结果:对于渗透分类,我们注释了3740篇论文题目和摘要,使用了60%的模型,20%用于调整模型,20%用于评估模型.SVM模型的准确率达到89.53%(正确分类的论文百分比)而CNN模型的准确率达到88.95%。对于普遍性分类,我们注释了3753篇论文题目和摘要。 SVM模型的准确率达到89.14%,而CNN模型的准确率达到89.13%。结论:我们的模型在分类与外显率或患病率相关的摘要中具有高准确性。通过促进文献综述,该工具可以帮助临床医生和研究人员及时了解基因 - 癌症协会的新兴知识,并使临床决策支持工具的知识库保持最新。
translated by 谷歌翻译
我们提出了一种专家混合方法,用于从多个来源进行无监督域适应。关键思想是明确捕获目标示例与不同源域之间的关系。由点到集度量表示的这种关系决定了如何组合在各种域上训练的预测器。使用元培训以无人监督的方式学习度量。情绪分析和词性标注的实验结果表明,我们的方法始终优于多个基线,并且可以稳健地处理负转移。
translated by 谷歌翻译
在对大量数据进行培训时,基于注意力的模型是成功的。在本文中,我们证明即使在资源匮乏的情况下,也可以有效地学习注意力。为此,我们从离散的人类注释开始,并将它们映射到持续关注。我们的中心假设是这种映射在域之间是通用的,因此可以从资源丰富的域转移到低资源域。我们的模型共同学习了adomain不变表示,并在理性和注意之间产生了理想的映射。我们的实证结果验证了这一假设,并表明我们的方法比最先进的基线提供了显着的收益,基准数据集的平均误差降低了15%以上。
translated by 谷歌翻译
In this paper, we explore the utilization of natural language to drive transfer for reinforcement learning (RL). Despite the widespread application of deep RL techniques, learning generalized policy representations that work across domains remains a challenging problem. We demonstrate that textual descriptions of environments provide a compact intermediate channel to facilitate effective policy transfer. Specifically, by learning to ground the meaning of text to the dynamics of the environment such as transitions and rewards, an autonomous agent can effectively bootstrap policy learning on a new domain given its description. We employ a model-based RL approach consisting of a differentiable planning module, a model-free component and a factorized state representation to effectively use entity descriptions. Our model outperforms prior work on both transfer and multi-task scenarios in a variety of different environments. For instance, we achieve up to 14% and 11.5% absolute improvement over previously existing models in terms of average and initial rewards, respectively.
translated by 谷歌翻译
没有正当理由的预测具有有限的适用性。作为一种补救措施,我们要提取输入文本作为理由 - 理由 - 这些都是为了简洁和连贯,但足以做出相同的预测。我们的方法结合了两个模块化组件,发电机和编码器,经过培训可以很好地协同工作。生成器将文本片段上的分布指定为候选基本原理,并将这些分布通过编码器进行预测。在训练期间从不给出理由。相反,该模型通过理想的规范进行规范化。我们评估了针对手动注释的测试用例的多方面情绪分析的方法。我们的方法通过一个重要的边缘优于基于注意力的基线。我们还成功地说明了问题检索任务的方法。
translated by 谷歌翻译
Most successful information extraction systems operate with access to a largecollection of documents. In this work, we explore the task of acquiring andincorporating external evidence to improve extraction accuracy in domains wherethe amount of training data is scarce. This process entails issuing searchqueries, extraction from new sources and reconciliation of extracted values,which are repeated until sufficient evidence is collected. We approach theproblem using a reinforcement learning framework where our model learns toselect optimal actions based on contextual information. We employ a deepQ-network, trained to optimize a reward function that reflects extractionaccuracy while penalizing extra effort. Our experiments on two databases -- ofshooting incidents, and food adulteration cases -- demonstrate that our systemsignificantly outperforms traditional extractors and a competitivemeta-classifier baseline.
translated by 谷歌翻译
已经开发了面部去识别算法以响应公共视频记录和监视摄像机的普遍使用。在这里,我们评估了在监控驾驶员的情况下身份掩蔽的成功,因为他们积极地操作机动车辆。我们比较了使用人类感知器的八种去识别算法的有效性。所测试的算法包括用于面部动作转移(FAT)的个性化监督双线性回归方法,呈现通用化身表面的DMask方法,以及使用和不使用图像极性反转(Canny,Scharr)实现的两种边缘检测方法。我们还使用了一种结合FAT和Canny方法的Overmask方法。我们比较了这些身份屏蔽方法,以识别驱动程序的未屏蔽视频。人类受试者在标准的面部识别实验中进行了测试,其中他们以高分辨率(工作室风格)图像学习驾驶员身份,并随后测试他们识别这些个人驾驶的蒙面和未掩盖视频的能力。相对于未屏蔽的视频,所有屏蔽方法基本上降低了识别准确度。最成功的方法,DMask和Canny,将人类识别性能降低到接近随机。在所有情况下,使用严格的决策标准进行鉴定,表明受试者对其决策的信心不足。我们得出结论,经过仔细测试的去识别方法,单独使用或组合使用,可以成为保护捕获的视频个人隐私的有效工具。未来的工作应该检查最有效的方法如何保持面部动作识别。
translated by 谷歌翻译
我们为Apache Spark(MMLSpark)引入了Microsoft机器学习,这是一个增强的生态系统,它扩展了Apache Spark分布式计算库,以解决深度学习,微服务编排,梯度提升,模型可解释性以及现代计算的其他领域中的问题。此外,我们提出了一个名为Spark Serving的新系统,它允许用户将任何Apache Spark程序作为由其现有Spark Cluster支持的分布式亚毫秒级Web服务运行。所有MMLSparkcontributions都具有相同的API,以支持跨框架的简单组合,以及在静态,弹性或无服务器集群上的批处理,流式处理和RESTful Web服务方案中的使用。我们通过创建一种深度物体检测方法来展示MMLSpark,该方法能够在没有人类标记数据的情况下进行学习,并证明其对雪豹保护的有效性。
translated by 谷歌翻译
数据可视化的算法是将数据转换为有用叙述的基本工具。不幸的是,很少有可视化算法可以处理许多真实场景​​的大数据集。在本研究中,我们将这些数据集的可视化作为多目标优化问题。我们提出了mQAPViz,一种用于计算大规模数据可视化的分而治之的多目标优化算法。我们的方法采用多目标二次分配问题(mQAP)作为数学基础来解决手头的可视化任务。该算法应用了源于机器学习领域的高级抽样技术和高效的数据结构,以扩展到数百万个数据对象。算法将对象分配到2D网格布局上。在真实世界和大型数据集上的实验结果表明,mQAPViz是现有技术的竞争性替代方案。
translated by 谷歌翻译