生成长期和语义连贯的报告来描述医学图像,对于弥合视觉和语言模式,整合医学领域知识以及生成逼真和准确的描述提出了巨大的挑战。我们提出了一种新颖的知识驱动的编码,检索,释义(KERP)方法,该方法将基于传统知识和检索的方法与基于现代学习的方法相协调,以实现准确和稳健的医学报告生成。具体而言,KERP将医疗报告生成分解为明确的医学异常图学习和随后的自然语言建模。 KERP首先使用Encode模块,通过结合先前的医学知识,将视觉特征转换为结构化异常图;然后是基于检测到的异常检索文本模板的检索模块;最后,一个复述模块根据具体情况重写模板。 KERP的核心是提出的通用实现单元---图形变换器(GTR),它可以动态地转换多个域的图形结构数据之间的高级语义,例如询问图形,图像和序列。实验表明,所提出的方法生成结构化和健壮的报告,支持准确的异常描述和可解释的注意区域,在两个医学报告基准上实现最先进的结果,具有最佳医学异常和疾病分类准确性以及改善的人文评价表现。
translated by 谷歌翻译
贝叶斯优化(BO)是指用于对昂贵的黑盒函数进行全局优化的一套技术,它使用函数的内省贝叶斯模型来有效地找到最优值。虽然BO已经在许多应用中成功应用,但现代优化任务迎来了传统方法失败的新挑战。在这项工作中,我们展示了Dragonfly,这是一个开源Python库,用于可扩展和强大的BO.Dragonfly包含多个最近开发的方法,允许BO应用于具有挑战性的现实世界环境;这些包括更好的处理更高维域的方法,当昂贵函数的廉价近似可用时处理多保真评估的方法,优化结构化组合空间的方法,例如神经网络架构的空间,以及处理并行评估的方法。此外,我们在BO中开发了新的方法改进,用于选择贝叶斯模型,选择采集函数,以及优化具有不同变量类型和附加约束的过复杂域。我们将Dragonfly与一套用于全局优化的其他软件包和算法进行比较,并证明当上述方法集成时,它们可以显着改善BO的性能。 Dragonfly图书馆可在dragonfly.github.io上找到。
translated by 谷歌翻译
我们确定了鲁棒性和准确性之间的权衡,这是在设计防御对抗性实例时的一个主要原则。虽然这个问题已经在经验上得到广泛研究,但仍有许多未知关注这种权衡的理论基础。在这项工作中,我们根据对抗性示例的风险与非对抗性示例的风险之间的差距来量化交易。挑战是在代理损失方面提供这个数量的紧密限制。我们根据分类校准损失给出该数量的最佳上限,其与最坏情况下的下限匹配。在我们的理论分析的启发下,我们还设计了一种新的防御方法TRADES,以对抗对抗性,而不是准确性。我们提出的算法在实际数据集中实验性地表现良好。该方法论是我们进入神奇的2018年对抗视觉挑战赛的基础,我们在强劲的模型赛道中赢得了1,995份参赛作品中的第一名,以平均$ $ ell_2 $的价格超过亚军奖金$ 11.41 \%$扰动距离。
translated by 谷歌翻译
我们通过新的架构设计研究了缓解GAN训练过程中的不稳定性问题。 minimax和maximin目标值之间的差异可以作为替代梯度下降在GAN优化中遇到的困难的代理。在这项工作中,我们给出了关于GAN的多发电机架构的好处的新结果。我们表明,当生成器的数量随着$ \ widetilde {O}(1 / \ epsilon)$的增加而增加时,minimax间隙缩小到$ \ epsilon $。这改善了$ \ widetilde {O}(1 / \ epsilon ^ 2)$的最佳结果。 ourtechniques的核心是Shapley-Folkman引理对于通用minimax问题的一种新颖应用,其中在文献中只有当目标函数局限于aconstraint优化问题的拉格朗日函数时才知道该技术。我们提出的Stackelberg GAN在合成数据集和现实数据集中都可以进行实验,与先前的基准数据集上的多生成器GAN相比,Fr \'echetInception Distance提高了$ 14.61 \%$。
translated by 谷歌翻译
为了确保可读性,通常会编写文本并通过格式化来呈现。这些文本格式化设备帮助作者有效地传达叙述。同时,这些有助于读者了解话语的结构并理解传达的信息。关于文本话语结构的语言学理论有很多。但是,这些理论只考虑未格式化的文本。多媒体文本包含丰富的格式化功能,可用于各种NLP任务。在本文中,我们研究了多媒体文本中的一些话语特征以及它们在上下文中实现的交际功能。我们研究了这些多媒体话语特征如何用于改进信息提取系统。我们证明了话语和文本布局特征提供的信息是对通常用于信息提取的词汇语义信息的补充。作为案例研究,我们使用这些功能从教科书中收集几何结构的主题知识。我们表明,收获的结构化知识可用于改进现有的求解器问题,使其更准确,更易于解释。
translated by 谷歌翻译
机器学习(ML)训练算法由于其迭代收敛性质而经常具有固有的自校正行为。通过放宽执行的一致性并减少计算错误,在通过训练期间自我纠正,最近通过利用此属性来实现不可靠计算环境的适应性和效率。然而,对于特定类型的计算误差,例如由陈旧性,降低的精度,超同步性以及特定类型的训练算法(例如随机梯度下降)引起的那些,这种系统的行为仅被很好地理解。在本文中,我们开发了一个通用框架来量化计算错误对迭代收敛算法的影响,并使用该框架设计基于检查点的容错的新策略。我们的框架在训练期间对模型参数的任意扰动的迭代成本产生最坏情况上限。我们的系统SCAR采用的策略可以降低迭代成本上限,因为从检查点恢复时会产生扰动。我们表明,与基于各种ML模型和训练算法的传统检查点容错相比,SCAR可以将部分故障的迭代成本降低78% - 95%。
translated by 谷歌翻译
许多分布式机器学习(ML)系统采用非同步执行以缓解网络通信瓶颈,导致过时的参数不能反映最新的更新。尽管在大规模ML中有很多发展,但是陈旧对学习的影响是不确定的,因为直接监视或控制不稳定的分布式环境的陈旧性是具有挑战性的。在这项工作中,我们研究了在延迟更新下广泛的ML模型和算法的收敛行为。我们的大量实验揭示了僵局对ML算法收敛的影响的丰富多样性,并提供了对文献中看似相互矛盾的报告的见解。实证研究结果也激发了在陈旧性下非凸优化的随机梯度下降的新收敛性分析,匹配最着名的收敛率O(1 / \ sqrt {T})。
translated by 谷歌翻译
我们研究半监督学习(SSL)的样本复杂性,并基于从未标记数据学习的混合模型与由(未知)类条件分布诱导的真实混合模型之间的不匹配引入新假设。在这些假设下,我们建立一个$ \ Omega(K \ log K)$标记的样本复杂度约束而不强加参数化假设,其中$ K $是类的数量。我们的结果表明,即使在非参数设置中,也可以仅使用少量标记样本来学习近似最佳分类器。与之前关于二元分类的理论工作不同,我们考虑一般多类分类($ K> 2 $),这需要解决一个困难的排列学习问题。这种分类定义了一个分类器,其分类误差由混合测量之间的Wasserstein距离控制,我们提供了表征该分类器超额风险行为的有限样本结果。最后,我们描述了三种基于连接到二分图匹配计算这些估计的算法。并进行实验以说明MLE优于大多数投票估算器的优势。
translated by 谷歌翻译
自然语言推理(NLI)任务是确定一对自然语言句子的推理关系的预测任务。随着NLI的日益普及,许多最先进的预测模型已被提出具有令人印象深刻的性能。然而,一些工作已经注意到收集的NLI数据集中的统计不规则性可能导致这些模型的过度估计性能和建议的补救措施。在本文中,我们进一步研究了NLI数据集的统计不规则性,我们称之为混淆因素。由于认为某些NLI标签应该在交换操作下保留,我们提出了一种简单但有效的方法(交换两个文本片段)来评估NLI预测模型,这自然可以减轻观察到的问题。此外,我们继续以交换方式对预测模型进行处理,并建议在不同百分比的训练文本片段中使用模型评估性能的偏差进行交换,以描述预测模型的稳健性。我们的评估指标导致对近期发表的一些有趣的理解NLI方法。最后,我们还对NLI模型应用交换操作,以查看这种简单方法在减少其他NLP传输任务的通用句子嵌入训练中的混杂因素问题方面的有效性。
translated by 谷歌翻译
我们介绍Texar,一个开源工具包,旨在支持广泛的文本生成任务,将任何输入转换为自然语言,如机器翻译,摘要,对话,内容操作等。具有模块化,多功能性的设计目标,考虑到可扩展性,Texar提取了各种任务和方法的基本模式,创建了一个高度可重用的模块和功能库,并允许任意模型架构和算法范例。在Texar中,模式体系结构,损失和学习过程被完全分解。模块概念级别可以自由组装或插入/换出。这些特征使Texar特别适合研究人员和从业人员进行快速原型设计和实验,以及在不同的文本生成任务中促进技术共享。我们提供案例研究来证明该工具包的使用和优势。 Texar在Apache license2.0下发布,网址为https://github.com/asyml/texar。
translated by 谷歌翻译