无监督学习是关于捕捉变量之间的依赖关系,并且由这些变量的可能与不可能的配置之间的对比驱动,通常是通过仅对可能性进行采样的生成模型或对于可能的低的能量函数(非标准化的对数密度)和不可思议的高。在这里,我们考虑学习能量函数和有效的近似抽样机制。尽管生成对抗网络(GAN)中的识别者学会分离数据和生成器样本,但在生成器上引入熵最大化正则化可以将批评者的解释转化为能量函数,将训练分布与其他所有内容分开,从而可以用于任务像异常或新奇的检测。然后,我们展示了如何在发生器潜在空间中完成MarkovChain Monte Carlo,其样本可以映射到数据空间,从而产生更好的样本。这些样本用于估计数据空间能量函数的对数似然梯度所需的负相位梯度。为了最大化发电机输出端的熵,我们利用最近引入的相互信息的神经估计器。我们发现除了为异常检测产生有用的评分函数之外,所得到的方法产生清晰的样本,同时很好地覆盖模式,导致高的Inception和Frechet分数。
translated by 谷歌翻译
基于van den Oord等人(2017)提出的方法,我们展示了一种有效音乐分解的条件自回归流水线。分解(Casal&Casey,2010)着重于重新制作现有的音乐作品,坚持高水平的结构,同时也重新想象工作的其他方面。这可能涉及重用预先存在的主题或原始部分的部分,同时还需要灵活地在不同的粒度级别生成新内容。将上述建模管道应用于重构,我们在和弦序列注释上展示了多样化和结构化的生成条件。
translated by 谷歌翻译
差异隐私关注预测质量,同时测量对信息包含在数据中的个人的隐私影响。我们考虑与引起结构化稀疏性的规则制定者的差异私人风险最小化问题。已知这些正则化器是凸的,但它们通常是不可微分的。我们分析了标准的不同私有算法,例如输出扰动,Frank-Wolfe和目标扰动。输出扰动是一种差异私有算法,众所周知,它可以很好地降低强凸的风险。以前的工作已经导出了与维度无关的超额风险界限。在本文中,我们假设一类特定的凸但非光滑正则化器,它们导致广义线性模型的结构化稀疏性和损失函数。我们还考虑差异私有Frank-Wolfeal算法来优化风险最小化问题的双重性。我们得出这两种算法的过度风险界限。两个边界都取决于双范数的单位球的高斯宽度。我们还表明,风险最小化问题的客观扰动等同于双优化问题的输出扰动。这是在差异隐私的背景下分析风险最小化问题的双重优化问题的第一部作品。
translated by 谷歌翻译
从表面心电图(ECG)无创重建心脏跨膜电位(TMP)涉及一个不适定的逆问题。模型约束正则化对于结合关于时空TMP动力学的丰富的生理学知识是有力的。这些模型由高维物理参数控制,如果固定,则可以引入模型误差并降低TMP重建的准确性。然而,由于它们的高维度,在TMP重建期间同时适应这些参数是困难的。我们引入了一种新的模型约束推理框架,该框架用经过训练的深度生成模型取代传统的生理模型,以从低维生成因子生成TMP序列。使用具有长期短期记忆(LSTM)网络的变分自动编码器(VAE),我们训练VAE解码器以学习TMP的条件可能性,同时编码器学习生成因子的先前分布。这两个组件使我们能够开发出一种有效的算法来同时推断来自ECG数据的生成因子和TMP信号。综合和实际数据实验表明,与传统生理模型约束或没有生理学约束的方法相比,所提出的方法显着提高了TMP重建的准确性。
translated by 谷歌翻译
生成模型已经为零镜头学习问题实现了最先进的性能,但是每次遇到新的对象类别时它们都需要重新训练分类器。传统的语义嵌入方法虽然非常优雅,但通常与其生成对应方不相同。在这项工作中,我们提出了一个统一的框架,称为GenClass,它将生成器与分类器集成在一起,实现高效的零镜头学习,从而结合了生成方法的代表性力量和嵌入方法的优雅。统一框架的端到端培训不仅像生成方法那样消除了对新对象类别的额外分类器的要求,而且还有助于产生更具辨别力和有用的特征。对三个标准零射击对象分类数据集(即AWA)进行了广泛的评估,CUB和SUN显示了所提出的方法的有效性。该方法没有任何修改,也为零射击动作分类提供了最先进的性能,从而显示了其对其他领域的可归属性。
translated by 谷歌翻译
研究人员经常通过他们的应用程序编程接口(API)查询在线社交平台,以找到目标人群,例如人类患有疾病的人[\ cite {De-Choudhury2017}和jazzmusicians~ \ cite {heckathorn2001finding}。这些目标群体的实体满足通常使用oracle(人类或预先训练的分类器)识别的属性。当目标实体的属性不能通过API直接查询时,我们将属性称为“隐藏”,将人口称为隐藏群体。在社交网络上查找属于这些人群的人很难,因为他们是不可查询的,并且采样器必须从有限预算限制内的组合查询空间进行探索。通过利用可查询属性和感兴趣的人口之间的相关性以及通过对查询空间进行分层排序,我们提出了一个基于决策树的Thompson采样器(\ texttt {DT-TMP}),可以有效地发现要查询的正确属性组合。我们提出的采样器在在线实验中的表现优于最先进的采样器,例如推特上的54%。当离线实验中已知查询的匹配程度数时,\ texttt {DT-TMP}在基线采样器上的执行速度比0.9-1.5 $ \ times $好。在未来,我们希望通过制定更复杂的查询来探索寻找隐藏人口的选择。
translated by 谷歌翻译
虽然卷积神经网络(CNN)在各种分类/识别任务上取得了令人瞩目的成绩,但它们通常包含大量参数。这导致显着的存储器需求以及计算开销。因此,需要用于压缩基于CNN的模型的过滤器级修剪方法,这不仅减少了参数的总数,而且还减少了整体计算。我们提出了一个新的min-max框架,用于CNN的过滤级修剪。我们的框架,称为Play和Prune(PP),通过自适应修剪,共同修剪和微调CNN模型参数,同时保持模型的预测性能。我们的框架由两个模块组成:(1)自适应滤波器修剪(AFP)模块,它最大限度地减少了模型中滤波器的数量; (2)修剪率控制器(PRC)模块,其在修剪期间最大化精确度。此外,与以前的方法不同,我们的方法允许直接指定欲望差异而不是修剪级别。我们的压缩模​​型可以在运行时进行部署,无需任何特殊的库或硬件。我们的方法减少了VGG-16的参数数量,令人印象深刻的因子为17.5倍,FLOPS的数量减少了6.43倍,没有精度损失,显着优于其他最先进的滤波器修剪方法。
translated by 谷歌翻译
视觉语音识别(VSR)是仅从视频输入识别口语的任务,没有任何音频。 VSR具有许多应用作为辅助技术,特别是如果它可以部署在移动设备和嵌入式系统中。对资源受限环境中VSR开发神经网络模型的两个主要障碍是需要密集的计算资源和大量内存占用。我们提出了一种用于字级VSR的novelend-end深度神经网络架构,称为MobiVSR,其设计参数有助于平衡模型的精度和参数计数。我们首次在VSR领域使用深度可分的3D卷积,并展示它如何使我们的模型高效。 MobiVS在野外数据集中具有挑战性的Lip Reading读取精度为73%,参数减少6倍,内存占用量比现有技术水平低20倍。通过应用后期训练量化,MobiVSR也可以压缩到6 MB。
translated by 谷歌翻译
近年来,注意模型已被广泛用于人和车辆的重新识别。大多数重新识别方法旨在将注意力集中在关键点位置。但是,根据方向,每个关键点的贡献会有所不同。在本文中,我们提出了一种新的双路径自适应注意模型,用于车辆重新识别(AAVER)。全球外观路径捕获宏观车辆特征,而定向条件部分外观路径通过关注最信息的关键点来学习捕捉局部判别特征。通过深入的实验,我们证明了所提出的AAVER方法能够在不受约束的情景中准确地重新识别车辆,从而在具有挑战性的数据集VeRi-776上产生最先进的结果。作为副产品,所提出的系统还能够准确地预测车辆关键点并且显示出超过现有技术的7%以上的改进。
translated by 谷歌翻译
在本文中,我们提出了“IVO:逆速度障碍”,这是一种以自我为中心的框架,可以改善实时实施。该方法源于速度障碍的概念,可以应用于单一代理和多代理系统。它专注于计算无碰撞机动而无需对机器人的姿势和速度有任何知识或假设。这主要是通过重新构造速度障碍以适应以自我为中心的框架来实现的。这是朝着改进动态环境中的碰撞避免的实时实现迈出的重要一步,因为不依赖于状态估计技术来推断机器人姿态和速度。我们在不同情景中评估单剂和多剂的IVO,并显示其相对于现有配方的功效。我们还展示了所提方法的实时可扩展性。
translated by 谷歌翻译