在线现场实验是评估现实世界交互式机器学习系统变化的黄金标准方法。然而,我们探索复杂的多维政策空间的能力 - 例如在建议和排名问题中发现的那些 - 往往受到可以同时运行的有限数量的实验的限制。为了减轻这些限制,我们使用离线模拟器增加在线实验,并应用多任务贝叶斯优化来调整实时机器学习系统。我们描述了在这些类型的应用程序中出现的实际问题,包括使用模拟器产生的偏差和多任务内核的假设。我们测量经验学习曲线,其显示来自包括偏向离线实验的数据的实质性收益,并且显示这些学习曲线如何与多任务高斯过程概括的理论结果一致。我们发现改进的内核推理是多任务泛化的重要驱动因素。最后,我们展示了贝叶斯优化的几个例子,它们通过结合离线实验和在线实验来有效地调整实时机器学习系统。
translated by 谷歌翻译
随机实验是评估变化对现实世界系统影响的黄金标准。这些测试中的数据可能难以收集,结果可能具有高度差异,从而导致潜在的大量测量误差。贝叶斯优化是一种有效优化多个连续参数的有前途的技术,但是当噪声水平高时,现有方法降低了性能,限制了其对多个随机实验的适用性。我们得到了一个表达式,用于预期的改进,具有噪声观察和噪声约束的批量优化,并开发了一种准蒙特卡罗近似,可以有效地进行优化。使用合成函数进行的仿真表明,噪声约束问题的优化性能优于现有方法。我们通过在Facebook上进行的两个真实的实验来进一步证明该方法的有效性:优化排名系统和优化服务器编译器标志。
translated by 谷歌翻译
我们的目标是生成预测模型,这些模型不仅准确,而且还可供人类专家解释。我们的模型是决策列表,其中包括一系列if ... then ...语句(例如,如果是高血压,然后是中风),它将高维,多变量特征空间离散化为一系列简单,易于解释的决策陈述。我们引入了一种称为贝叶斯规则列表的生成模型,它产生后验分布过度决策列表。它采用了一种新颖的先前结构来鼓励稀疏性。我们的实验表明,贝叶斯规则列表的预测精度与当前用于机器学习预测的顶级算法相当。我们的方法受近期个性化医疗发展的推动,可用于生产高度准确和可解释的医疗评分系统。我们通过产生CHADS $ _2 $得分的替代方法来证明这一点,在临床实践中积极地用于估计患有心房颤动的患者的卒中风险。我们的模型可以解释为CHADS $ _2 $,但更准确。
translated by 谷歌翻译
在本文中,我们通过利用同义词,上位词和上下词之类的感官之间的语义关系来解决有限数量的手动注释语料库用于词义消歧任务的问题,以便压缩PrincetonWordNet的感知词汇,从而减少必须被观察到的不同感知标签的数量,以消除词汇数据库的所有单词的歧义。我们提出了两种不同的方法,大大减少了神经WSD模型的大小,有利于在没有额外训练数据的情况下提高其覆盖范围,并且不会影响它们的精度。除了我们的方法,我们提出了一个新的WSD系统,它依赖于预先训练的BERT单词向量,以便在所有WSDevaluation任务中获得明显优于现有技术水平的结果。
translated by 谷歌翻译
在过去的十年中,受到大脑启发的人工智能(AI)模型在执行真实世界的感知任务(如对象分类和语音识别)方面取得了前所未有的进步。最近,自然智能的研究人员已经开始使用这些AI模型来探索大脑如何执行这些任务。这些发展表明,未来的进展将受益于学科之间不断增加的互动。在这里,我们将AlgonautsProject介绍为一个结构化和定量的沟通渠道,用于自然和人工智能研究人员之间的跨学科交互。该项目的核心是一个开放的挑战,其定量基准,其目标是通过计算模型来计算大脑数据。该项目有可能提供更好的自然智能模型,并收集推进人工智能的研究结果。 2019年的Algonauts项目专注于对人类观察物体图像时预测人类大脑活动的计算模型进行基准测试。 2019年版的Algonauts项目可在线获取:http://algonauts.csail.mit.edu/。
translated by 谷歌翻译
我们研究后勤强盗,其中奖励是二元成功概率$ \ exp(\ beta a ^ \ top \ theta)/(1 + \ exp(\ beta a ^ \ top \ theta))$ andactions $ a $和systems $ \ theta $在$ d $ -dimensional单位球内。虽然先前后悔限制了解决斜率参数$ \ beta $的logistic banditexhibit指数依赖的算法,但我们建立了与Thompson采样无关的格式。 beta $。特别是,我们确定,当可行动作的集合与可能的系数向量集合相同时,Thompsonsampling的贝叶斯遗憾是$ \ tilde {O}(d \ sqrt {T})$。我们还建立了一个$ \ tilde {O}(\ sqrt {d \ etaT} / \ lambda)$ bound,它适用范围更广,其中$ \ lambda $是最差情况下的最佳对数,$ \ eta $是“脆弱性维度,“一个新的统计数据,用于捕捉一个模型的最优行动对其他模型的满足程度。我们通过证明,对于任何$ \ epsilon> 0 $,没有算法可以实现$ \ mathrm {poly}(d,1 / \ lambda)\ cdot T ^ {1- \ epsilon} $,我们证明了脆弱性维度起着非常重要的作用。后悔。
translated by 谷歌翻译
尽管在面部表情分析领域已经取得了很大进展,但面部遮挡仍然具有挑战性。这种贡献带来的主要创新在于利用面部运动传播的特殊性来识别存在重要遮挡的表情。由表达引起的运动延伸到运动中心之外。因此,在遮挡区域中发生的运动向邻近的可见区域传播。在存在遮挡,每个表达的情况下,我们计算每个未被遮挡的面部区域的重要性,并且我们构造适应的面部框架,其提高每个表达式二分类器的性能。然后将每个依赖于表达式的二元分类器的输出进行聚合并且将其馈送到融合过程中,该融合过程旨在每个遮挡构建识别所考虑的所有面部表情的唯一模型。评估强调了这种方法在存在显着面部遮挡的情况下的稳健性。
translated by 谷歌翻译
光流技术在场景中的运动变得越来越高效,但是它们的表现尚未在面部表情识别领域得到证实。在这项工作中,跨多个面部表情数据集评估各种光学流程方法,以提供一致的性能评估。此外,多种光流方法的优势结合在一种新颖的数据增强方案中。在该方案下,已经实现了高达6%的平均准确度的增加(取决于光流方法和数据集的选择)。
translated by 谷歌翻译
我们介绍了一组九个挑战任务,测试理解功能词。这些任务是通过结构化突变数据集的句子来创建的,以便能够理解特定类型的功能词(例如,介词,wh-words)。使用这些探测任务,我们探索了各种预训练目标对句子编码器(例如,语言建模,CCG超级标准和自然语言推理(NLI))对学习代表的影响。我们的结果表明,对CCG进行预训练 - 我们最常用的语法 - 在我们的探究任务中平均表现最佳,这表明句法知识有助于词汇理解。语言建模也显示出强大的性能,支持其广泛用于预训练最先进的NLP模型。总的来说,没有预训练目标支配董事会,我们的功能词探测任务突出了预训练目标之间的几个直观差异,例如,NLI有助于理解否定。
translated by 谷歌翻译
Zero-Shot Learning (ZSL) aims at classifying unlabeled objects by leveraging auxiliary knowledge , such as semantic representations. A limitation of previous approaches is that only intrinsic properties of objects, e.g. their visual appearance, are taken into account while their context, e.g. the surrounding objects in the image, is ignored. Following the intuitive principle that objects tend to be found in certain contexts but not others, we propose a new and challenging approach, context-aware ZSL, that leverages semantic representations in a new way to model the conditional likelihood of an object to appear in a given context. Finally, through extensive experiments conducted on Visual Genome, we show that contextual information can substantially improve the standard ZSL approach and is robust to unbalanced classes.
translated by 谷歌翻译