用于鉴定遗传变异体的DNA测序在临床环境中变得越来越有价值。对这种测序数据中的变体的评估通常通过贝叶斯启发式算法来实现。机器学习在改进这些变体调用方面显示出巨大的希望,但输入仍然是标准化的“堆积”图像,并不总是最适合。在本文中,我们提出了一种从DNA序列数据生成图像的新方法,它将人类参考基因组与个性化测序输出交织在一起,以最大限度地利用测序读数并提高机器学习算法的性能。我们证明了这在改进标准种系变异调用中的成功。我们还进一步采用这种方法,通过Siamese网络对肿瘤/正常数据进行包括调整。这些方法可用于测序数据的机器学习应用,希望改善临床结果,并可在www.ccg.ai免费用于非商业用途。
translated by 谷歌翻译
我们提出了一种用于标记非结构化文本的模型,该模型具有从树形结构词汇表(即,本体论)中抽取的任意数量的项。我们将此视为序列到序列学习的一种特殊情况,其中解码器在本体树的根节点处开始并递归地选择扩展子节点作为输入文本,当前节点和潜在解码器状态的函数。在我们的实验中,所提出的方法在自动将MeSH术语分配给生物医学摘要的重要任务上优于最先进的方法。
translated by 谷歌翻译
深度神经网络在过去几年中获得了极大的普及。它们已经应用于几乎每个领域的分类任务。尽管成功,但深度网络在足够大的数据集上训练甚至是大型模型的速度也非常慢。此外,这些网络需要大量数据才能概括。加速融合的重要性和深度网络的泛化是不可能的。在这项工作中,我们开发了一种优化算法,该算法基于从微型计算机派生的一般化最优更新,从而实现更快的收敛。接下来,我们在两个基准数据集上证明了所提出的方法比传统的反向传播实现了两个数量级的加速,并且对噪声/过度拟合更加稳健。
translated by 谷歌翻译
准确预测救护车呼叫何时何地发生可以减少响应时间并确保患者更快地得到紧急护理。在这里,我们提出了一种在时间和地理空间中使用高斯过程回归(GPR)进行救护车需求预测的新方法。该方法对MEDIC具有较高的实用性,这是一种已在工业中使用的方法。 GPR的使用具有额外的好处,例如每个预测的不确定性的量化,用于编码先验知识的核函数的选择以及捕获空间相关性的能力。概述了在当前背景下增加GPR效用的措施,具有大的训练集和泊松分布输出。
translated by 谷歌翻译
已提议PAC-Bayes界限基于训练样本获得风险评估。在本文中,PAC-Bayes方法与Hilbert空间值算法所学习的假设的稳定性相结合。 PAC-Bayes设置与高斯先验一起使用,以预期输出为中心。因此,我们论文的新颖之处在于使用根据数据生成分布定义的先验。我们的主要结果估计了假设稳定系数的随机算法的风险。我们还提供了SVM分类器的新约束,它与实验上的其他已知边界进行了比较。我们似乎是第一个基于稳定性的边界来评估重要值。
translated by 谷歌翻译
在未来,人工学习代理可能会在我们的社会中变得越来越普遍。他们将在各种复杂环境中与其他学习代理人和人类进行互动,包括社会困境。我们考虑外部代理如何通过在观察学习者行为的基础上分配额外的奖励和惩罚来促进人工学习者之间的合作。我们提出了一条规则,通过考虑玩家的预期参数更新,自动学习如何创建正确的激励。使用这种学习规则导致在矩阵游戏中与高社会福利的合作,否则代理人将以高概率学习缺陷。我们表明,即使在给定数量的剧集之后关闭计划代理,在某些游戏中产生的合作结果也是稳定的,而其他游戏需要持续干预以维持相互合作。然而,即使在后一种情况下,必要的额外激励的数量也会随着时间的推移而减少。
translated by 谷歌翻译
我们解决了算法公平性的问题:确保敏感变量不会不公平地影响分类器的结果。我们提出了一种基于经验风险最小化的方法,该方法将公平约束纳入学习问题。它鼓励学习分类器的条件风险相对于敏感变量近似恒定。我们得出了支持我们方法的统计一致性的风险和公平范围。我们指定了我们对内核方法的方法,并观察到公平性要求意味着正交性约束可以很容易地添加到这些方法中。我们进一步观察到,对于线性模型,约束转换为简单的数据预处理步骤。实验表明该方法在经验上是有效的,并且对最先进的方法表现出良好的效果。
translated by 谷歌翻译
In a traditional setting, classifiers are trained to approximate a target function f : X → Y where at least a sample for each y ∈ Y is presented to the training algorithm. In a zero-shot setting we have a subset of the labelsˆYlabelsˆ labelsˆY ⊂ Y for which we do not observe any corresponding training instance. Still, the function f that we train must be able to correctly assign labels also onˆYonˆ onˆY. In practice, zero-shot problems are very important especially when the label set is large and the cost of editorially label samples for all possible values in the label set might be prohibitively high. Most recent approaches to zero-shot learning are based on finding and exploiting relationships between labels using semantic embeddings. We show in this paper that semantic embeddings, despite being very good at capturing relationships between labels, are not very good at capturing the relationships among labels in a data-dependent manner. For this reason, we propose a novel two-step process for learning a zero-shot classifier. In the first step, we learn what we call a property embedding space capturing the "learnable" features of the label set. Then, we exploit the learned properties in order to reduce the generalization error for a linear nearest neighbor-based classifier.
translated by 谷歌翻译
The ICML 2013 Workshop on Challenges in Representation Learning focused onthree challenges: the black box learning challenge, the facial expressionrecognition challenge, and the multimodal learning challenge. We describe thedatasets created for these challenges and summarize the results of thecompetitions. We provide suggestions for organizers of future challenges andsome comments on what kind of knowledge can be gained from machine learningcompetitions.
translated by 谷歌翻译
本文介绍了自动驾驶汽车的算法和系统架构。引入的车辆由设计用于鲁棒性,可靠性和可扩展性的软件栈提供动力。为了自主地绕过先前未知的轨道,所提出的解决方案结合了来自不同机器人领域的技术的状态。具体而言,感知,估计和控制被合并到一个高性能自主车辆中。这个复杂的机器人系统由AMZ Driverless和ETHZurich开发,在我们参加的每个比赛中获得第一名:Formula StudentGermany 2017,Formula Student Italy 2018和Formula Student Germany 2018. Wediscuss这些比赛的结果和学习,并对每个模块进行实验评估我们的解决方案
translated by 谷歌翻译