我们提出了一种联合视听模型,用于隔离来自诸如其他扬声器和背景噪声的混合声音的单个语音信号。仅使用音频作为输入来解决该任务是极具挑战性的,并且不提供分离的语音信号与视频中的扬声器的关联。在本文中,我们提出了一个基于网络的深层模型,它结合了视觉和听觉信号来解决这一任务。视觉特征用于将音频“聚焦”在场景中的所需扬声器上并提高音频分离质量。为了训练我们的联合视听模型,我们介绍了AVSpeech,这是一个由来自网络的数千小时视频片段组成的新数据集。我们展示了我们的方法对经典语音分离任务的适用性,以及涉及激烈访谈,嘈杂的酒吧和尖叫儿童的真实场景,只要求用户在视频中指定他们想要隔离的人的面孔。在混合语音的情况下,我们的方法显示出优于现有技术的仅音频语音分离的优势。此外,我们的模型与扬声器无关(训练有效,适用于任何扬声器),比最近的扬声器视觉分离方法产生更好的结果,这些方法取决于扬声器(需要为每个感兴趣的扬声器训练单独的模型)。
translated by 谷歌翻译
随着深度学习的出现,大规模数据集的重要性越来越强,标签噪声的稳健性成为分类器的关键属性。标签噪声的来源包括大数据集的自动标记,非专家标签以及数据中毒对手的标签损坏。在这种情况下,腐败可能是任意不好的,即使是如此糟糕,以至于分类者高度自信地预测错误的标签。为了防止这些噪音源,我们利用了一小部分清洁标签通常很容易获得的事实。我们证明,通过使用一组带有干净标签的可信数据,可以实现标记噪声到最终强度的稳健性,并提出一种损失校正,利用数据有效的方法中的可信示例来减轻标签噪声对深度神经网络分类器的影响。在视觉和自然语言处理任务中,我们尝试了多种强度的各种标签噪声,并表明我们的方法明显优于现有方法。
translated by 谷歌翻译
数据隐私是“机器学习即服务”提供商的重要问题。我们关注会员推理攻击的问题:给定adata样本和黑匣子访问模型的API,确定样本是否存在于模型的训练数据中。我们的贡献是在序列到序列模型的背景下研究这个问题,这些模型在机器翻译和视频字幕等应用中很重要。我们定义序列生成的主题推理问题,提供基于最先进的机器翻译模型的开放数据集,并报告这些模型是否泄露私人信息以抵抗多种会员推理攻击的初步结果。
translated by 谷歌翻译
目前用于深度学习的算法可能不能在大脑中运行,因为它们依赖于权重传输,其中前向路径神经元以可能在生理学上不可能的方式将突触权重传递到反馈路径。一种称为反馈对齐的算法通过使用随机反馈权重实现了无需权重传输的深度学习,但它可以在硬视觉识别任务上执行。在这里,我们描述了一个神经环绕的重量镜,它使反馈路径即使在大型网络中也可以快速准确地学习适当的突触重量,无需重量传输或复杂布线,并具有Hebbian学习规则。在ImageNetvisual识别任务上进行测试,具有权重镜像的网络优于普通反馈对齐和较新的符号对称方法,并且几乎匹配使用权重传输的误差反向传播算法。
translated by 谷歌翻译
这项工作为多源多目标域适应和医学成像的推广问题提供了强有力的基线。通过使用10个胸部X射线数据集的收集,我们凭经验证明了在不同的患者人群中训练医学成像深度学习模型的益处,以推广到样本外域。
translated by 谷歌翻译
来自社交媒体的图像可以反映不同的观点,激烈的争论和创造力的表达 - 为搜索任务增加了新的复杂性。从事基于内容的图像检索(CBIR)的研究人员传统上调整了他们的搜索算法,以便将过滤结果与用户搜索特征进行匹配。然而,我们现在被未知来源,真实性甚至意义的合成图像轰炸。由于存在这种不确定性,用户可能无法初步了解搜索查询的结果应该是什么样的。例如,隐藏的人,拼接的对象和微妙改变的场景可能使用户难以最初在模因图像中检测到,但可能对其组成有显着贡献。我们提出了一个新的图像检索框架,它使用从图像索引中检索到的图像关键点对对象级区域进行建模,然后用于精确加权结果中的小贡献对象,而无需昂贵的对象检测步骤。我们将此方法称为Needle-Haystack (NH)评分,它针对CPU上的fastmatrix操作进行了优化。我们证明了这种方法不仅可以在经典CBIR问题中与最先进的方法相媲美,而且在优质的对象和实例级检索上也能够在欧福德5K,巴黎6K,谷歌地标和NIST MFC2018上表现出色。数据集,以及Reddit的风格图像。
translated by 谷歌翻译
预测气味的愉悦性简化了气味的评估,并且具有应用于香水和环境监测行业的潜力。用于预测气味愉悦性的经典算法通常使用手动特征提取器和独立分类器。手动设计良好的特征提取器取决于专家知识和经验是算法准确性的关键。为了克服这个困难,我们提出了一种通过卷积神经网络预测气味愉悦的模型。在我们的模型中,卷积神经层取代了手动特征提取器并显示出更好的性能。实验表明,我们的模型与人类之间的相关性在愉悦程度上超过90%。 Andour模型在区分绝对令人愉快或令人不快的气味方面具有99.9%的准确度。
translated by 谷歌翻译
贝叶斯优化在优化耗时的黑盒目标方面很受欢迎。尽管如此,对于深度神经网络中的超参数调整,即使是一些超参数设置评估验证错误所需的时间仍然是瓶颈。多保真优化有望减少对这些目标使用更便宜的代理 - 例如,使用训练点的子集训练网络的验证错误或者收敛所需的迭代次数更少。我们提出了一种高度灵活和实用的多保真贝叶斯优化方法,重点是有效地优化迭代训练的监督学习模型的超参数。我们引入了一种新的采集功能,即跟踪感知知识梯度,它有效地利用了多个连续保真度控制和跟踪观察---保真序列中物镜的值,当使用训练迭代改变保真度时可用。我们提供了可用于优化我们的采集功能的可变方法,并展示了它为超神经网络和大规模内核学习的超参数调整提供了最先进的替代方案。
translated by 谷歌翻译
神经架构搜索(NAS)的最新进展需要巨大的计算资源。这使得重复实验变得困难,并且在没有大规模计算的情况下阻碍了研究人员进入障碍。我们的目标是通过引入NAS-Bench-101来改善这些问题,NAS-Bench-101是NAS研究的第一个公共架构数据集。为了构建NAS-Bench-101,我们精心构建了一个紧凑但富有表现力的搜索空间,利用图形同构来识别423k独特的卷积体系结构。在CIFAR-10上多次对所有这些体系结构进行了评估和评估,并将结果编译为大型数据集。总之,NAS-Bench-101包含超过500万个模型的指标,这是迄今为止最大的数据集。这使得研究人员可以通过查询预先计算的数据集,在几毫秒内评估各种模型的质量。我们通过分析整个数据集并通过对一系列架构优化算法进行基准测试来证明其实用性。
translated by 谷歌翻译
我们通过实证研究探索和竞争之间的相互作用。从与用户交互中学习的系统经常参与探索:做出潜在的次优决策,以获取未来决策的新信息。然而,当多个系统竞争同一个用户市场时,探索可能会在短期内损害系统的声誉,从而产生不利的竞争效应。特别是,当短期声誉成本减少系统要学习的用户数量时,系统可能输入“死亡螺旋”,这会降低其相对于竞争的性能并进一步降低其市场份额。我们询问是否有更好的探索算法在竞争中受到激励。我们在一个程式化的双寡头模型中进行了广泛的数值实验,其中两家公司部署多臂强盗算法并竞争近视用户。我们发现,垄断和垄断倾向于支持一种原始的“贪婪算法”,这种“贪婪算法”不会探索并导致低消费者福利,而当代垄断(具有早期参与者的双寡头)可能会激励更好的带宽算法并导致更高的消费者福利。我们的研究结果通过探索数据可以作为进入在线市场的障碍的角色,揭示了数字经济中的先发优势。
translated by 谷歌翻译