投注机制是引发代理人对事件预测的一次性投注机制。对于确定性投注机制,现有的不可能性结果表明一些理想的理论性质不相容。特别是,帕累托最优性(在分配之前没有盈利的边注)不能与弱激励兼容性,弱预算平衡和个人理性一起实现。在本文中,我们扩展了投注机制的设计空间,以允许随机化,并询问其中是否有随机化的投注机制,可以实现所有先前考虑​​的所需属性,包括帕累托最优性。我们用两类随机化的投注机制积极地回答这个问题:i)现有确定性投资机制的简单随机抽签式实施,以及ii)我们称之为代理投注机制的另一族简单和随机化投注机制,这些机制是强大的tonoisy基本事实。这一系列机制建立在嘈杂标签学习的基础上(Natarajan等人,2013),以及最近将该信息扩展到信息引出而没有验证设置(Liu和Chen2018)。我们表明,广泛的随机化投注机制家族满足了所有理想的理论属性。
translated by 谷歌翻译
人脸识别近年来取得了长足的进步,主要归功于设计的大容量模型和丰富的标签数据。然而,扩大当前的百万级身份注释变得越来越禁止。在这项工作中,我们表明,未标记的面部数据可以与标记的面部数据一样有效。在这里,我们考虑设置密切模仿现实世界的场景,其中未标记的数据从不受约束的环境收集,并且它们的身份与标记的数据是唯一的。我们的主要观点是,尽管类信息不可用,但我们仍然可以通过以自下而上的方式构建关系图来忠实地近似这些语义关系。我们提出共识驱动传播(CDP)来解决这个具有挑战性的问题,有两个模块,即“委员会”和“调解员”,它们通过仔细聚合多视图信息来强有力地选择正面对。大量实验验证了两个模块的有效性,以丢弃异常值和挖掘硬性积极因素。使用CDP,我们通过仅使用9%的标签实现了对MegaFace识别挑战的78.18%的令人信服的准确度,相比之下,当使用未标记数据时为61.78%,而当使用所有标签时为78.52%。
translated by 谷歌翻译
随机梯度下降(SGD)可追溯到20世纪50年代,是进行随机优化的最流行和最有效的方法之一。关于SGD的研究最近在机器学习中重新出现,用于优化凸损失函数以及训练非凸深度神经网络。该理论假设人们可以很容易地计算出无偏的梯度拟合,这通常是由于经验风险最小化的样本平均性质。然而,存在许多场景(例如,图形学习),其中无偏估计器可能与完整梯度一样昂贵,因为训练示例是互连的。在最近的一项工作中,陈等人。 (2018)提出使用一致的梯度估计器作为经济替代方案。受经验成功的鼓舞,我们在一般情况下表明,一致的估计量会导致与无偏差的收敛行为相同的收敛行为。我们的分析涵盖了强凸,凸和非凸目标。这项工作开辟了几个新的研究方向,包括利用一致的估算器开发更高效的SGD更新,以及为大规模图形设计高效的训练算法。
translated by 谷歌翻译
Extreme多标签分类(XML)是一项重要且具有挑战性的机器学习任务,它为每个实例分配一个极其庞大的标签集合中最相关的候选标签,其中标签,功能和实例的数量可能是数千或数百万。随着业务规模/范围和数据积累的增加,XML在互联网行业越来越受欢迎。极大的标签收集产生诸如计算复杂性,标签间依赖性和噪声标记之类的挑战。基于不同的数学公式,已经提出了许多方法来解决这些挑战。在本文中,我们提出了一种深度学习XML方法,其中包含基于字向量的自我关注,然后是基于排名的AutoEncoder架构。所提出的方法具有以下主要优点:1)自动编码器通过将标签和特征投影到公共嵌入空间上,同时考虑标签间依赖性和特征标签依赖性; 2)排名损失不仅可以提高训练效率和准确性,还可以扩展到处理噪声标记数据; 3)有效的注意机制通过突出特征重要性来改进特征表示。基准数据集的实验结果表明,所提出的方法是具有竞争力的先进方法。
translated by 谷歌翻译
Human3.6M数据集中大规模标记3D姿势的可用性在推动静止图像的3D人体姿态估计算法中发挥了重要作用。我们观察到,该领域的最新创新主要集中在使用该数据集时明确解决泛化问题的新技术,因为该数据库是在人为主题和背景变化有限的高度控制的环境中构建的。尽管有这样的努力,我们可以证明目前的方法仍然容易出错,特别是在针对拍摄的图像进行测试时。在本文中,我们的目标是从不同的角度解决这个问题。我们提出了一种原则性的方法来生成高质量的3D姿势地面真实性,并与内部人员一起生成任何野外图像。我们通过首先设计一种新颖的立体灵感神经网络来直接将任何2D姿势映射到高质量3D对应物来实现这一点。然后,我们执行精心设计的几何搜索方案,以进一步细化关节。基于这个方案,我们建立了具有400,000个野外图像及其相应的3Dpose基础事实的大规模数据集。这使得能够训练高质量的神经网络模型,而无需专门的训练方案和辅助损失功能,其有利地抵抗最先进的3D姿势估计方法。我们还定量和定性地评估了我们模型的泛化能力。结果表明,我们的方法令人信服地优于以前的方法。我们公开提供数据集和代码。
translated by 谷歌翻译
深度神经网络(DNN)以其对adversarialexamples的易受攻击性而闻名。这些都是经过精心设计的小型手册,可以轻易地将DNN误认为是错误分类。到目前为止,对抗性研究的领域主要集中在图像模型上,在白盒设置下,对手可以完全获得模型参数,或者黑盒设置,其中对手只能查询目标模型的概率或标签。虽然已经为视频模型提出了几个白盒攻击,但黑盒视频攻击仍然是不可探索的。为了弥补这一差距,我们提出了第一个黑盒视频攻击框架,称为V-BAD。 V-BAD是基于自然进化策略(NES)的对抗性梯度估计和校正的一般框架。特别地,V-BAD利用从图像模型传递的\ textit {暂定扰动}和由NES oncursition(补丁)发现的临时扰动发现的\ textit {基于分区的校正},以获得对目标模型的较少查询的良好的对抗梯度估计。 V-BAD相当于估计对抗梯度在所选子空间上的投影。使用三个基准视频数据集,我们证明V-BAD可以制作有针对性和有针对性的攻击来欺骗两个最先进的深度视频识别模型。对于目标攻击,它仅使用平均$ 3.4 \ sim 8.4 \次10 ^ 4 $查询达到$> $ 93 \%的成功率,对最先进的黑盒图像攻击的查询次数相似。尽管视频通常比静态图像具有高两个数量级的维度。我们相信V-BAD是一种很有前途的新工具,用于评估和改进视频识别模型对黑盒逆向攻击的鲁棒性。
translated by 谷歌翻译
为全世界95%以上的资源提供大量用于训练ASR系统的注释语音数据仍然很困难。然而,我们注意到人类婴儿开始通过少量示例词的声音(或语音结构)来学习语言,并且在没有听到大量数据的情况下将这些知识“概括”为其他词语。我们在这方面开展了一些初步工作。音频Word2Vec用于从口语(信号段)学习语音结构,而另一个自动编码器用于从文本词中学习语音结构。上述两者之间的关系可以在上述两个训练有素之后共同学习。这种关系可用于具有非常低资源的语音识别。在对TIMMIT数据集的初步实验中,只有2.1小时的语音数据(其中2500个口语单词被注释,其余未标记)的单词错误率为44.6%,如果4.1小时的语音数据,这个数字可以减少到34.2%(其中有20000个口语被注释)。这些结果并不令人满意,但是起点很好。
translated by 谷歌翻译
对象检测框架中的常见范例是平均地处理所有样本并且目标是最大化平均性能。在这项工作中,通过仔细研究不同样本如何有助于在mAP方面衡量的整体绩效来访问这个范例。我们的研究表明,每个小批次中的样品既不是独立的非重要的,因此平均而言更好的分类器并不一定意味着更高的mAP。在这项研究的推动下,我们提出了在推动检测性能方面发挥关键作用的优先样本的概念。我们进一步开发了一种简单而有效的采样和学习策略,称为原始样本注意(PISA),指导培训过程的重点。样本。我们的实验表明,在训练探测器时,关注主要样本而不是硬样本通常更有效。特别是,在MSCOCO数据集上,PISA优于随机抽样基线和硬挖掘方案,例如: OHEM和Focal Loss,在单级和两级探测器上一直保持1%以上,具有强大的骨干ResNeXt-101。
translated by 谷歌翻译
核磁共振(NMR)光谱学是化学和生物学中不可或缺的工具,但经常会遇到很长的实验时间。我们提出了利用深度学习和神经网络的概念验证,以便从有限的实验数据中重建高质量,可靠且非常快速的核磁共振谱。我们表明,神经网络训练可以仅使用合成的核磁共振信号来实现,这提升了对深度学习方法中通常需要的大量实际训练数据的禁止需求。
translated by 谷歌翻译
体验式问答(EQA)是一项相对较新的任务,代理人需要从自我中心的感知中回答有关其环境的问题。 EQA制定了一个基本假设,即每个问题,例如“什么颜色是汽车?”,只有一个目标(“汽车”)被询问。该假设直接限制了代理人的能力。我们提出EQA的时间化 - 多目标EQA(MT-EQA)。具体来说,我们研究了其中有多个目标的问题,例如“卧室中的梳妆台是否比厨房的烤箱大?”,代理人必须导航到多个位置(“卧室梳妆台”,“厨房烤箱”)并且在它能回答问题之前执行比较推理(“梳妆台”比“烤箱”更大)。这些问题需要在代理中开发全新的模块或组件。为了解决这个问题,我们提出了一个由程序生成器,控制器,导航器和VQA模块组成的模块化架构。程序生成器将给定的问题转换为顺序的可执行子程序;导航器将代理引导到与导航相关的子程序相关的多个位置;并且控制器学会沿其路径选择相关的观察。然后将这些观察结果馈送到VQA模块以预测答案。我们对每个模型组件进行详细分析,并表明我们的联合模型可以在很大程度上优于以前的方法和强大的基线。
translated by 谷歌翻译