内窥镜伪影是促进中空器官疾病的诊断和治疗的核心挑战。精确检测特定伪像,如像素饱和度,运动模糊,镜面反射,气泡和碎片,对于高质量的帧恢复至关重要,对于实现可靠的计算机辅助工具以改善患者护理至关重要。目前,由于视频帧中存在大量的多类伪像,目前大多数内窥镜检查视频尚未进行分析。通过内窥镜伪影检测(EAD 2019)的挑战,我们通过解决内窥镜框架伪影的准确识别和定位来解决这一关键瓶颈问题,从而能够对不可用的视频帧进行进一步的关键定量分析,例如镶嵌和3D重建,这对于提供改善的患者护理至关重要。本文总结了挑战任务,并描述了在EAD 2019挑战中建立的数据集和评估标准。
translated by 谷歌翻译
内窥镜检查是一种常规成像技术,用于诊断和微创手术治疗。诸如运动模糊,气泡,镜面反射,浮动物体和像素饱和等伪像妨碍了内窥镜视频的视觉解释和自动分析。鉴于内窥镜在不同临床应用中的广泛应用,我们认为这种伪影的稳健可靠识别和损坏的视频帧的自动恢复是一个基本的医学成像问题。现有的最先进的方法只涉及检测和恢复选定的文物。然而,通常内窥镜视频包含许多工件,这些工件促使建立全面的解决方案。我们提出了一个全自动框架,它可以:1)检测和分类六个不同的主要工件,2)为每个帧提供质量分数,3)恢复轻度损坏的帧。为了检测不同的伪像,我们的框架开发了快速多尺度,单级卷积神经网络检测器。我们引入质量度量来评估帧质量并预测图像恢复成功。具有精心选择的规则化的生成对抗网络最终用于恢复损坏的帧。我们的探测器产生的最高平均精度(mAP在5%阈值)为49.0,最低计算时间为88 ms,可实现精确的实时处理。我们用于盲目去模糊,饱和度校正和修复的修复模型比以前的方法显示出显着的改进。在一组10个测试视频中,我们显示我们的方法保留了68.7%的平均值,这比原始视频保留的帧多25%。
translated by 谷歌翻译
许多任务(包括语言生成)都受益于学习输出空间的结构,特别是当输出标签的空间很大且数据稀疏时。最先进的神经语言模型直接捕获分类器权重中的输出空间结构,因为它们缺少输出标签之间的参数共享。学习共享输出标签映射有所帮助,但现有方法的表达能力有限,容易过度拟合。在本文中,我们研究了更强大的共享映射对输出标签的有用性,并提出了一种深层残差输出映射,层间丢失以更好地捕获输出空间的结构并避免过度拟合。对三种语言生成任务的评估表明,输出标签映射可以匹配或改进最先进的循环和自我关注架构,并建议分类器不一定需要高级别才能更好地模拟自然语言,如果它更好捕获输出空间的结构。
translated by 谷歌翻译
深度高斯过程(DGP)可以模拟复杂的边缘密度以及复杂的映射。非高斯边缘对于模拟真实世界数据是必不可少的,并且可以通过将相关变量结合到模型来从DGP生成。先前关于DGP模型的工作已经引入了加性和使用变分推理,其中使用稀疏高斯过程和平均场高斯的组合用于近似后验。加性噪声衰减信号,并且高斯形式的变分布可能导致后验不准确。我们将噪声变量作为潜在协变量,并提出一种新颖的重要性加权目标,它利用分析结果并提供一种权衡计算的机制以提高准确性。我们的研究结果表明,重要加权目标在实践中运作良好,并且始终优于经典变分推理,尤其是对于更深层次的模型。
translated by 谷歌翻译
我们考虑用于表示车辆动力学的神经网络的在线适应问题。神经网络模型旨在由MPC控制法使用以自主地控制车辆。这个问题具有挑战性,因为输入和目标分布都是非平稳的,而在线适应的天真方法会导致灾难性的遗忘,从而导致控制器故障。我们提出了一种新颖的在线学习方法,它将伪排练方法与局部加权投影回归相结合。我们证明了在模拟中使用局部加权投影回归伪排练(LW-PR $ ^ 2 $)方法的有效性以及使用1/5比例自动驾驶车辆收集的大型真实世界数据集。
translated by 谷歌翻译
深度学习建立在梯度下降与目标函数收敛于局部最小值的基础上。不幸的是,这种保证在诸如生成对抗网之类的设置中失败,这些设置表现出多种相互作用的损失。基于梯度的方法在游戏中的行为并未被理解 - 并且随着对抗性和多目标体系结构的激增而变得越来越重要。在本文中,我们开发了新的工具来理解和控制n玩家可区分游戏的动态。关键的结果是将雅可比游戏分解为两个组成部分。第一个对称分量与潜在的游戏有关,这些游戏在隐式函数上减少了梯度下降。第二个反对称组件涉及哈密尔顿游戏,这是一类新的游戏,遵循经典机械系统中的守恒定律。分解激发了辛差梯度调整(SGA),这是一种在可微分游戏中寻找稳定不动点的新算法。基本实验表明,SGA与最近提出的用于在GAN中找到稳定的固定点的算法具有竞争性 - 同时适用于并且具有更多一般情况的保证。
translated by 谷歌翻译
有许多关于从深度神经网络(DNN)中提取瓶颈(BN)特征的研究,这些特征训练用于区分说话者,密码短语和三音素状态以改善文本相关说话者验证(TD-SV)的性能。但是,取得了一定的成功。最近的一项研究[1]提出了一种时间对比学习(TCL)概念,用于探索脑信号分类的大脑状态的平稳性。语音信号具有类似的非平稳性,并且TCL还具有不需要标记数据的优点。因此,我们提出了一种基于TCL的特征提取方法。该方法将训练数据集中的每个语音容差均匀地划分为预定义数量的多帧分段。话语中的每个片段对应于一个类,并且跨语言共享类标签。然后训练DNN以区分各类中的所有语音帧以利用语音的时间结构。此外,我们提出了一种基于分段的无监督聚类算法,以便为这些分段分配类别标签。在RedDots挑战数据库上进行TD-SV实验。使用从TD-SV评估集中排除的语音数据离线密码短语来训练TCL-DNN,因此可以将所述特征视为与短语无关的。我们比较了所提出的TCL瓶颈(BN)特征与短时间倒谱特征和从DNN识别扬声器,密码短语,说话者+密码短语以及标签和边界由三种不同自动生成的单声道提取的BN特征的性能。语音识别(ASR)系统。实验结果表明,所提出的TCL-BN优于自适应特征和说话人+通行短语判别BN特征,其性能与ASR导出的BN特征相当。此外,....
translated by 谷歌翻译
我们展示的第一次,就我们所知,这是可能的toreconcile在网上学习的零和游戏两个看似contradictoryobjectives:消失时间平均的遗憾和不消失的步长。 Thisphenomenon,我们硬币``速度与激情”的学习游戏,设置一个关于什么是可能无论是在最大最小优化以及inmulti代理系统newbenchmark。我们的分析不依赖于引入carefullytailored动态。相反,我们关注在最充分研究的在线动态梯度下降。同样,我们专注于最简单的教科书类的游戏,2剂的双策略零和游戏,如匹配便士。即使thissimplest基准的总最著名的束缚悔,为ourwork之前,当时的$琐碎一个O(T)$,这是立即适用甚至anon在学习剂。基于扩散核武器-平衡轨迹的双重空间,我们证明了一个遗憾的几何形状的紧密理解结合$ \西塔(\ SQRT横置)$匹配在网上设置开往自适应stepsizes众所周知的最佳的,这保证适用于具有预先知道的时间范围,并调整fixedstep尺寸所有固定步sizeswithout因此。作为一个推论,我们建立,即使fixedlearning率的时间平均的混合策略,公用事业收敛其得到精确的纳什均衡值。
translated by 谷歌翻译
声学数据提供从生物学和通信到海洋和地球科学等领域的科学和工程见解。我们调查了机器学习(ML)的进步和变革潜力,包括声学领域的深度学习。 ML是用于自动检测和利用模式印度的广泛的统计技术家族。相对于传统的声学和信号处理,ML是数据驱动的。给定足够的训练数据,ML可以发现特征之间的复杂关系。通过大量的训练数据,ML candiscover模型描述复杂的声学现象,如人类语音和混响。声学中的ML正在迅速发展,具有令人瞩目的成果和未来的重大前景。我们首先介绍ML,然后在五个声学研究领域强调MLdevelopments:语音处理中的源定位,海洋声学中的源定位,生物声学,地震探测和日常场景中的环境声音。
translated by 谷歌翻译
信息融合是众多工程系统和生物功能的重要组成部分,例如人类认知。融合发生在许多层面,从信号的低级组合到异构决策过程的高级聚合。虽然过去十年见证了深度学习研究的爆发,但神经网络融合并没有观察到同样的革命。具体而言,大多数神经融合方法是特定的,不被理解,分布与局部,和/解释性低(如果存在的话)。在此,我们证明了模糊Choquet积分(ChI),一种强大的非线性聚合函数,可以表示为多层网络,以下称为ChIMP。我们还提出了一种改进的ChIMP(iChIMP),它根据ChI不等式约束的指数数量导致基于随机梯度下降的优化。 ChIMP / iChIMP的另一个好处是它可以实现可解释的AI(XAI)。提供了综合验证实验,并将iChIMP应用于远程感知中的一组异构架构深度模型的融合。我们展示了模型精度的提高,我们之前建立的XAI指数揭示了我们的数据,模型及其决策的质量。
translated by 谷歌翻译