我们提出了一种基于注意力的方法,该方法将局部图像特征聚合到主题级表示以预测疾病严重性。与需要固定维度输入的经典深度学习相比,我们的方法在一组图像补丁上运行;因此它可以容纳可变长度输入图像而无需调整图像大小。该模型学习临床解释的主题水平表示,反映疾病的严重程度。我们的模型由三个相互依赖的模块组成,这些模块相互调节:(1)一个辨别网络,它从局部特征中学习固定长度的表示,并将它们映射到疾病严重程度; (2)通过关注对预测任务贡献最大的解剖学区域来提供可解释性的注意机制; (3)生成网络可以促进当地潜在特征的多样性。生成的关键是注意力量是非退化的,同时保持局部区域与疾病严重程度的相关性。我们在慢性阻塞性肺病(COPD)的大规模肺CT研究中训练我们的模式到终点。我们的模型为预测COPD严重程度的临床指标提供了最先进的性能。注意力的分布提供了肺组织与临床测量的区域相关性。
translated by 谷歌翻译
最近的研究表明,视觉语境改善了名词的跨语言感知。我们将这一系列工作扩展到更具挑战性的跨语言动词消歧歧义,介绍了用英语,德语和西班牙语动词注释的9,504张图像的MultiSensedataset。 MultiSense中的每个图像都标有英文动词及其在德语或西班牙语中的翻译。我们表明,与单峰基线相比,跨语言动词感消歧模型可以从视觉上下文中获益。我们还表明,当用于多模式翻译任务时,我们最好的消歧模型预测的动词感可以改善纯文本机器翻译系统的结果。
translated by 谷歌翻译
基于端到端,自回归模型的TTS已经显示出优于传统的TTS的显着性能改进。然而,自回归模块训练受到暴露偏差或实际数据和预测数据的不同分布之间的不匹配的影响。虽然实际数据在培训中可用,但在测试中,只有预测数据可用于提供自回归模块。通过在训练中引入实际和生成的数据序列,我们可以减轻暴露偏差的影响。我们建议使用Generative Adversarial Network(GAN)以及教授强制训练的关键思想。 GAN中的鉴别器被联合训练以使真实数据和预测数据之间的差异均衡。在AB主观测试中,结果表明新方法优于标准转移学习,CMOS改进为0.1。句子水平可懂度测试显示病理学测试集显着改善.GAN训练的新模型也比基线更稳定,以产生更好的Tacotron输出比对。
translated by 谷歌翻译
可以直接从给定的字素或音素序列预测语音的端到端TTS已经表现出比传统TTS更好的性能。然而,其预测能力仍然受到训练数据的声学/语音覆盖的限制,通常受到训练集大小的约束。为了进一步提高发音,韵律和感知自然度的TTS质量,我们建议利用嵌入在句法解析树中的信息,其中句子的词组间/词语信息在多级树结构中组织。具体来说,研究了两个关键特征:短语结构和相邻词之间的关系。在三个测试集上测量的主观听力的实验结果表明,所提出的方法有效地提高了基线合成语音的发音清晰度,韵律和自然度。系统。
translated by 谷歌翻译
Jensen-Shannon散度是无界Kullback-Leibler散度的有限对称化,它测量总Kullback-Leiblerdivergence到平均混合分布。然而,高斯分布之间的Jensen-Shannondivergence不是封闭形式。绕过这个问题,我们使用抽象方法提出了Jensen-Shannon(JS)偏差的推广,当根据参数分布族选择了themean时,它产生闭式表达式。更一般地,我们使用从抽象方法派生的混合来定义任何统计距离的JS对称。特别是,我们首先证明了几何平均值非常适合指数族,并报告了几何Jensen-Shannon散度的闭态形式和反向Kullback-Leibler散度的几何JS对称性。作为第二个说明示例,我们证明了调和平均值非常适合于尺度Cauchydistributions,并报告了尺度Cauchy分布之间的谐波Jensen-Shannondivergence的闭合公式。关于这些新的Jensen-Shannon分歧的聚类应用被触及。
translated by 谷歌翻译
机器学习的许多实际应用需要数据有效的黑盒功能优化,例如,识别超参数或过程设置。然而,容易获得的算法通常被设计为通用优化器,因此对于特定任务而言通常是次优的。因此,提出了一种学习优化器的方法,该优化器自动适应于给定类别的目标函数,例如,在sim-to-realapplications的上下文中。所提出的方法不是从头开始学习优化,而是基于着名的贝叶斯优化框架。只有采集函数(AF)被学习的神经网络所取代,因此得到的算法仍然能够利用高斯过程的经过验证的广义化能力。我们在几个模拟以及模拟到真实传输任务上进行实验。结果表明,学习的优化器(1)在一般函数类上始终表现优于或与已知AF相媲美,并且(2)可以使用廉价模拟自动识别函数类的结构属性并转换该知识以快速适应实际硬件任务,从而显着优于现有的与问题无关的AF。
translated by 谷歌翻译
为了使机器更好地理解情绪,研究需要将同步识别转移到理解情绪表达基础的原因。对人类的目标或需求进行分类是解释文本中情感表达的一种方式。人类善于理解用自然语言描述的情境,并且可以使用常识知识轻松地将它们与角色的心理需求联系起来。我们提出了一种新方法,用于从常识知识资源中提取,排序,过滤和选择多跳关系路径,以根据其潜在的人类需求来解释情感表达。我们有效地将获得的知识路径整合到神经模型中,该模型使用门控注意机制将上下文表示与知识联系起来。我们在最近发布的数据集上评估了模型的性能,以便对人体进行分类。选择性地整合知识路径可以提高性能,从而创造出一种新的先进技术。我们的模型通过常识知识路径上的学习注意力图提供可解释性。人类评估突出了编码知识的相关性。
translated by 谷歌翻译
从数据中学习机器人的动态可以帮助实现更精确的跟踪控制器,或者帮助他们的导航算法。然而,当机器人的实际动态因外部条件而发生变化时,需要对其模型进行在线适应以保持高保真性能。在这项工作中,开发了一种机器人动力学在线学习框架,以适应这种变化。建议的框架采用增量支持向量回归方法从数据流中顺序学习模型。结合增量学习,开发了包含和遗忘数据的策略,以便在整个状态空间中获得更好的概括。该框架在模拟和真实实验场景中进行了测试,展示了其对机器人动力学变化的适应能力。
translated by 谷歌翻译
当前的算法基于线性模型,例如,精确时间协议(PTP),其需要频繁同步以便处理时钟频率漂移的影响。本文介绍了一种非线性方法toclock时间同步。这种方法可以准确地模拟频移。因此,同步时钟所需的时间间隔可以更长。同时,它还提供更好的性能并放松同步过程。本文将详细介绍非线性算法的思想和一些数值例子。
translated by 谷歌翻译
神经架构搜索(NAS)的最新进展需要巨大的计算资源。这使得重复实验变得困难,并且在没有大规模计算的情况下阻碍了研究人员进入障碍。我们的目标是通过引入NAS-Bench-101来改善这些问题,NAS-Bench-101是NAS研究的第一个公共架构数据集。为了构建NAS-Bench-101,我们精心构建了一个紧凑但富有表现力的搜索空间,利用图形同构来识别423k独特的卷积体系结构。在CIFAR-10上多次对所有这些体系结构进行了评估和评估,并将结果编译为大型数据集。总之,NAS-Bench-101包含超过500万个模型的指标,这是迄今为止最大的数据集。这使得研究人员可以通过查询预先计算的数据集,在几毫秒内评估各种模型的质量。我们通过分析整个数据集并通过对一系列架构优化算法进行基准测试来证明其实用性。
translated by 谷歌翻译