最近的深度学习方法在语音增强和分离任务方面取得了令人瞩目的成绩然而,这些方法尚未被研究用于分离不同类型的任意声音的混合物,我们称之为通用声音分离的任务,并且未知语音任务的性能是否延续到非语音任务。为了研究这个问题,我们开发了包含任意形式的混合物的通用数据集,并用它来研究基于掩模的分离结构的空间,改变整体网络结构和信号转换的框架分析 - 合成基础。这些网络体系结构包括卷积长期短期记忆网络和时间膨胀卷积栈,其灵感来自最近成功的时间性能增强网络,如ConvTasNet。对于后一种体系结构,我们还提出了新的修改,以进一步提高分离性能。在框架分析 - 合成的基础上,我们使用在TEVasNet中使用的ashort-time傅立叶变换(STFT)或可学习的基础进行探索,并且对于这两个基础,我们检查窗口大小的影响。特别是对于STFT ,我们发现较长的窗口(25-50毫秒)最好的forspeech /非语音分离,而较短的窗口(2.5毫秒)工作最好的任意声音。对于可学习的基础,较短的窗口(2.5毫秒)最适合所有任务。令人惊讶的是,对于通用声音分离,STFT的性能优于基础。我们最好的方法可以改善语音/非语音分离的音阶 - 不变信号与失真比超过13 dB,并且通用声音分离接近10 dB。
translated by 谷歌翻译
Machine learning (ML) techniques are enjoying rapidly increasing adoption. However, designing and implementing the systems that support ML models in real-world deployments remains a significant obstacle, in large part due to the radically different development and deployment profile of modern ML methods, and the range of practical concerns that come with broader adoption. We propose to foster a new systems machine learning research community at the intersection of the traditional systems and ML communities, focused on topics such as hardware systems for ML, software systems for ML, and ML optimized for metrics beyond predictive accuracy. To do this, we describe a new conference, SysML, that explicitly targets research at the intersection of systems and machine learning with a program committee split evenly between experts in systems and ML, and an explicit focus on topics at the intersection of the two.
translated by 谷歌翻译
我们提出了一种联合视听模型,用于隔离来自诸如其他扬声器和背景噪声的混合声音的单个语音信号。仅使用音频作为输入来解决该任务是极具挑战性的,并且不提供分离的语音信号与视频中的扬声器的关联。在本文中,我们提出了一个基于网络的深层模型,它结合了视觉和听觉信号来解决这一任务。视觉特征用于将音频“聚焦”在场景中的所需扬声器上并提高音频分离质量。为了训练我们的联合视听模型,我们介绍了AVSpeech,这是一个由来自网络的数千小时视频片段组成的新数据集。我们展示了我们的方法对经典语音分离任务的适用性,以及涉及激烈访谈,嘈杂的酒吧和尖叫儿童的真实场景,只要求用户在视频中指定他们想要隔离的人的面孔。在混合语音的情况下,我们的方法显示出优于现有技术的仅音频语音分离的优势。此外,我们的模型与扬声器无关(训练有效,适用于任何扬声器),比最近的扬声器视觉分离方法产生更好的结果,这些方法取决于扬声器(需要为每个感兴趣的扬声器训练单独的模型)。
translated by 谷歌翻译
随着深度学习的出现,大规模数据集的重要性越来越强,标签噪声的稳健性成为分类器的关键属性。标签噪声的来源包括大数据集的自动标记,非专家标签以及数据中毒对手的标签损坏。在这种情况下,腐败可能是任意不好的,即使是如此糟糕,以至于分类者高度自信地预测错误的标签。为了防止这些噪音源,我们利用了一小部分清洁标签通常很容易获得的事实。我们证明,通过使用一组带有干净标签的可信数据,可以实现标记噪声到最终强度的稳健性,并提出一种损失校正,利用数据有效的方法中的可信示例来减轻标签噪声对深度神经网络分类器的影响。在视觉和自然语言处理任务中,我们尝试了多种强度的各种标签噪声,并表明我们的方法明显优于现有方法。
translated by 谷歌翻译
视觉运动估计是自主导航中不可或缺的一个充分研究的挑战。最近的工作集中在解决多动态估计,这在高度动态的环境中尤其具有挑战性。这样的环境不仅包括多个复杂的运动,而且还倾向于表现出明显的遮挡。多目标跟踪的先前工作侧重于保持对象轨道的完整性,但通常依赖于特定的基于外观的描述符或受约束的运动模型。这些方法在特定应用中非常有效,但不能推广到完全的多运动估计问题。本文通过采用物理创建的运动先验,将多运动视觉测距(MVO)管道扩展到通过遮挡(包括摄像机运动)进行多个运动估计。这允许管道连续地估计场景中每个运动的完整轨迹并且识别何时暂时遮挡的运动变得不被遮挡。根据OxfordMultimotion数据集的实际数据评估管道的估算性能。
translated by 谷歌翻译
今天的高风险对抗性互动让攻击者不断突破不断改进的安全措施。欺骗通过误导攻击者做出次优决策来减轻防御者的损失。为了正当理由欺骗,我们引入了特征欺骗游戏(FDG),这是一个独立于领域的游戏理论模型,并提出了学习和规划框架。我们做出以下贡献。 (1)我们表明,我们可以使用来自适度数量的欺骗策略的数据统一学习对手的偏好。 (2)我们提出了一种近似算法,用于找出最优欺骗策略,并证明该问题是NP难的。 (3)我们进行了全面的实验,以实证验证我们的方法和结果。
translated by 谷歌翻译
研究人员目前依靠临时数据集来训练自动化可视化工具并评估可视化设计的有效性。这些样本通常缺乏真实数据集的特征,而且它们的一次性特性使得难以比较不同的技术。在本文中,我们介绍了VizNet:一个包含来自开放数据存储库和在线可视化库的超过3100万个数据集的大规模语料库。 Onaverage,这些数据集包含3个维度的17个记录,并且在整个公司中,我们发现51%的维度记录分类数据,44%定量,仅有5%的时间。 VizNet提供了必要的公共基线,用于比较可视化设计技术,以及用于自动化可视化分析的开发基准模型和算法。为了展示VizNet的实用程序作为进行在线众包实验的平台,我们复制了一项先前的研究,评估用户任务和数据分布对视觉编码有效性的影响,并通过考虑额外的任务来扩展它:异常值检测。为了应对大规模运行此类研究,我们展示了如何从实验结果中学习感知有效性的度量,并展示其在测试数据集中的预测能力。
translated by 谷歌翻译
研究人员经常通过他们的应用程序编程接口(API)查询在线社交平台,以找到目标人群,例如人类患有疾病的人[\ cite {De-Choudhury2017}和jazzmusicians~ \ cite {heckathorn2001finding}。这些目标群体的实体满足通常使用oracle(人类或预先训练的分类器)识别的属性。当目标实体的属性不能通过API直接查询时,我们将属性称为“隐藏”,将人口称为隐藏群体。在社交网络上查找属于这些人群的人很难,因为他们是不可查询的,并且采样器必须从有限预算限制内的组合查询空间进行探索。通过利用可查询属性和感兴趣的人口之间的相关性以及通过对查询空间进行分层排序,我们提出了一个基于决策树的Thompson采样器(\ texttt {DT-TMP}),可以有效地发现要查询的正确属性组合。我们提出的采样器在在线实验中的表现优于最先进的采样器,例如推特上的54%。当离线实验中已知查询的匹配程度数时,\ texttt {DT-TMP}在基线采样器上的执行速度比0.9-1.5 $ \ times $好。在未来,我们希望通过制定更复杂的查询来探索寻找隐藏人口的选择。
translated by 谷歌翻译
神经机器翻译 - 使用神经网络翻译人类语言 - 是一个积极研究探索新神经元类型和网络拓扑的领域,其目标是显着提高机器翻译性能。当前最先进的方法,例如基于多头注意的变换器,需要非常大的翻译语料库和许多标准来产生合理质量的模型。最近尝试将多个节点上的官方TensorFlow“Transformer”模型并行化由于过多的内存使用而导致出现问题,并且在执行MPI集合时导致内存错误。本文描述了对基于霍罗德MPI的分布式训练框架的修改,通过将假设稀疏张量转换为密集张量来减少变换器模型的内存使用,并随后用密集梯度减少代替稀疏梯度聚集。结果是横向扩展能力显着增加。 ,使用Stampede2超级计算机,仅使用CPU的扩展测试可实现高达1200 MPI进程(300个节点)的91%弱缩放效率,以及高达65%的高扩展效率,高达400 MPI进程(200个节点)。
translated by 谷歌翻译
本文建立了乐观算法对情节MDP的间隙依赖和非渐近对数后悔。与以前的工作相比,我们的界限不依赖于类似直径的数量的遍历性,并且在间隙相关的对数 - 遗憾和$ \ widetilde {\ mathcal {O}}(\ sqrt {HSAT})$之间平滑插值。 -minimaxrate。我们分析中的关键技术是一种新颖的“限幅”后悔组合,它适用于近期乐观算法的一系列广泛的MDP。
translated by 谷歌翻译