声学数据提供从生物学和通信到海洋和地球科学等领域的科学和工程见解。我们调查了机器学习(ML)的进步和变革潜力,包括声学领域的深度学习。 ML是用于自动检测和利用模式印度的广泛的统计技术家族。相对于传统的声学和信号处理,ML是数据驱动的。给定足够的训练数据,ML可以发现特征之间的复杂关系。通过大量的训练数据,ML candiscover模型描述复杂的声学现象,如人类语音和混响。声学中的ML正在迅速发展,具有令人瞩目的成果和未来的重大前景。我们首先介绍ML,然后在五个声学研究领域强调MLdevelopments:语音处理中的源定位,海洋声学中的源定位,生物声学,地震探测和日常场景中的环境声音。
translated by 谷歌翻译
音频驱动的3D面部动画已被广泛探索,但实现逼真的,类似人类的表现仍未得到解决。这是由于缺乏可用的3D数据集,模型和标准评估指标。为了补充这一点,我们推出了一个独特的4D人脸数据集,其中大约29分钟的4D扫描以60 fps捕获,同步音频来自12个扬声器。然后,我们在我们的数据集上训练神经网络,从而影响面部运动的身份。经过学习的模型,VOCA(语音操作角色动画)将任何语音信号作为输入 - 甚至是除英语以外的语言的语音 - 并且可以实际地动画化各种各样的成人面孔。在训练期间对主题标签进行调节允许模型学习各种现实主义风格。 VOCA还提供动画控制,以在动画期间改变说话风格,依赖身份的面部形状和姿势(即头部,下颌和眼球旋转)。据我们所知,VOCA是唯一真实的3D面部动画模型,可以很容易地应用于没有重定位的看不见的主题。这使得VOCA适用于诸如游戏内视频,虚拟现实化身或任何预先不知道说话者,语音或语言的情况的任务。我们在http://voca.is.tue.mpg.de上为研究目的提供了数据集和模型。
translated by 谷歌翻译
快速高效的路径生成对于操作非复杂环境的机器人至关重要。这种运动规划问题通常在机器人的驱动或配置空间中执行,其中流行的寻路方法(例如A *,RRT *)在执行时指数地计算成本更高,维度增加或空间变得更加混乱和复杂。另一方面,如果要保存连接配置空间中所有位置对的整个路径集,则可能非常快速地运行内存。在这项工作中,我们通过使用称为OracleNet的astepping神经网络方法,介绍了一种为静态环境生成快速和最佳运动计划的新方法。 OracleNet使用RecurrentNeural Networks以迭代方式确定端到端轨迹,隐式生成最佳运动计划,以紧凑的形式将性能损失降至最低。该算法在实现过程中非常简单,同时在单个迭代的端到端滚出中始终生​​成接近最优的路径。在实践中,OracleNet通常具有固定时间执行,无论配置空间复杂性如何,同时在复杂环境和更高维度上优于流行的路径寻找算法
translated by 谷歌翻译
当前最先进的对象检测算法仍然存在训练数据在对象类和背景上的不均衡分布的问题。最近的工作引入了称为焦点丢失的新的损失函数以缓解该问题,但是以额外的超参数为代价。为每个培训任务手动调整这个超参数是非常耗时的。通过自动焦点丢失,我们引入了一种新的损失函数,该函数通过在训练过程中自动调整的参数来代替该超参数,并控制硬训练样本的聚焦量。我们在COCO基准测试中表明,这导致高达30%的紧固收敛。我们进一步引入了焦点回归损失,其在更具挑战性的3D车辆检测任务中优于其他损失函数高达1.8 AOS,并且可以用作回归的值范围独立度量。
translated by 谷歌翻译
为了便于分析人类行为,交互和情感,我们从单个单眼图像计算人体姿势,手姿势和面部表情的3D模型。为了达到这个目的,我们使用了数以千计的3D扫描来追踪新的,统一的人体3D模型,SMPL-X,它扩展了SMPL非常清晰的双手和富有表现力的脸。如果没有配对图像和3D基础事实,学习直接从图像中回归SMPL-X的参数是一项挑战。因此,我们遵循SMPLify的方法,估计2D特征,然后优化模型参数以适应特征。我们以几个显着的方式改进SMPLify:(1)我们检测对应于面部,手部和脚部的2D特征并且完全适合SMPL-X型号; (2)我们在使用大型MoCapdataset之前训练一个新的神经网络姿势; (3)我们定义了一个既快速又准确的新的互穿惩罚; (4)我们自动检测性别和适当的身体模型(男性,女性或中性); (5)我们的PyTorch实现比Chumpy实现了超过8倍的加速。我们使用新方法SMPLify-X来适应野外的SMPL-X烟草控制图像和图像。我们评估了一个新的数据集上的3D精度,该数据集包含100个具有伪地面真实性的图像。这是一种来自单眼RGB数据的steptowards自动表达人类捕获。模型,代码和数据可用于研究目的://smpl-x.is.tue.mpg.de。
translated by 谷歌翻译
估计手对象操作对于解释和模仿人类行为至关重要。以前的工作在孤立地重建手部姿势和物体形状方面取得了重大进展。然而,在操作期间重建手和物体是一个更具挑战性的任务,因为手和物体的显着闭塞。在呈现挑战时,操作也可以简化问题,因为接触物理限制了有效手对象配置的空间。例如,在操作过程中,手和物体应该接触但不能穿透。在这项工作中,我们通过操纵约束来规范手和物体的联合重建。我们提出了一种端到端的可学习模型,它利用了一种有利于物理上可信的对象星座的新型接触损失。我们的方法使用RGB图像作为输入,提高了基线的抓取质量指标。为了训练和评估模型,我们还提出了一个新的大型合成数据集ObMan,它具有手工操作。我们证明了ObMan训练模型对实际数据的可转移性。
translated by 谷歌翻译
我们提供Column2Vec,它是基于列元数据的数据库列的分布式表示。我们的分布式表示有几个应用程序。使用列组的已知名称(即表名),我们训练模型为未命名表中的列生成适当的名称。我们使用从GitHub上的开源应用程序收集的模式信息来演示我们的方法的可行性。
translated by 谷歌翻译
精准医学领域旨在以可重复的方式基于患者特定因素定制治疗。为此,估计基于患者特征推荐治疗决策以最大化预定结果的平均值的最优个体化治疗方案(ITR)是特别令人感兴趣的。已经提出了几种方法用于从并行组设置中的临床试验数据估计最佳ITR,其中每个受试者被随机化为单一干预。然而,在从交叉研究设计估计最佳ITR的领域中已经做了很少的工作。这样的设计自然而然地为自己提供了精密医学,因为它们允许观察每个患者对多种治疗的反应。在本文中,我们介绍了一种使用来自2x2交叉研究的数据来预测最佳ITR的方法,该研究具有或没有遗留效应。提出的方法类似于政策检索方法,如结果加权学习;然而,我们利用交叉设计,利用每次治疗下的反应差异作为观察到的奖励。我们建立Fisher和全球一致性,进行数值实验,并分析来自饲养试验的数据,以证明与平行研究设计的标准方法相比,所提出的方法的改进性能。
translated by 谷歌翻译
本报告概述了利用大数据革命和大规模计算解决多信使天体物理学中的重大计算挑战的最新工作,特别强调实时发现活动。该文件承认了多信使天体物理学的跨学科性质,由物理学家,天文学,计算机科学,数据科学,软件和网络基础设施社区的成员编写,他们参加了NSF-,DOE-和NVIDIA资助的“多信使天体物理学的深度学习”。 :实时发现规模“研讨会,于2018年10月17日至19日在国家超级计算应用中心举办。本报告的重点包括一致同意这对于加速新型信号处理算法的开发和部署至关重要。利用人工智能(AI)和高性能计算之间的协同作用,最大限度地发挥Multi-Messenger天体物理学的潜在科学发现。我们讨论了实现这一努力的关键方面,即(i)为多信使天体物理学设计和利用可扩展和计算效率高的AI算法;(ii)数字模拟天体物理资源的网络基础设施要求,以及处理和解释多信使天体物理学数据; (iii)管理引力波探测和触发以实现电磁和天体粒子跟踪; (iv)利用未来发展的机器和深度学习以及网络基础设施资源的愿景与大数据时代的发现规模相结合; (v)需要建立一个社区,将领域专家与数据科学家一起进行平等,以最大限度地加速发现多信天体物理学的新兴领域。
translated by 谷歌翻译
典型的音频信号处理流水线包括多个不相交分析阶段,包括计算基于频谱图的特征分析所遵循的时频表示。我们展示了如何将时频分析和非负矩阵因子分解联合表示为具有超平方差参数的非平稳先验的方位混合高斯过程模型。此外,我们制定了这种非线性模型的状态空间表示,使其适用于通过期望传播进行近似推断的无限时空高斯过程回归,其在时间步长数中线性地缩放,在状态维数中以二次方式进行。通过这样做,我们能够处理具有数十万个数据点的音频信号。我们在经验数据的各种任务中证明了这种推理方案如何优于依赖于扩展卡尔曼滤波的更多标准技术。
translated by 谷歌翻译