在日常生活中,由于其超越语言边界的直观表达,图形符号(例如交通标志和品牌标识)在我们周围被广泛使用。我们通过一次性分类处理开放式图形符号识别问题,将原型图像作为每个级别的单个训练示例。我们采用一种方法来学习用于小规模任务的可推广嵌入空间。我们提出了一种称为变分原型编码器(VPE)的新方法,该方法从真实世界输入图像中学习图像转换任务,作为元任务对应的原型图像。因此,VPE学习图像相似性以及与广泛使用的基于度量学习的方法不同的原型概念。我们对不同数据集的实验证明,所提出的VPE对基于竞争的基于metriclearning的一次性方法表现出色。此外,我们的定性分析表明,mymeta-task会产生一个适合于看不见的数据表示的有效嵌入空间。
translated by 谷歌翻译
我们在这项工作中的目标是训练一个图像字幕模型,该模型可以生成更密集和信息丰富的字幕。我们引入了“关系字幕”,这是一种新的图像字幕任务,旨在根据图像中对象之间的关系信息生成多个字幕。关系字幕是一种在多样性和信息量方面都有利的框架,可以根据关系导致图像理解。可以将部分语音(POS,即主题 - 对象 - 谓词类别)标签分配给每个英语单词。我们利用POS作为先行来指导字幕中单词的正确序列。为此,我们提出了一个多任务三线网络(MTTSNet),它由三个用于相应POS的重复单元组成,并共同执行POS预测和字幕。我们针对几个基线和竞争方法展示了由拟议模型生成的更多样化和更丰富的表示。
translated by 谷歌翻译
在本文中,我们提出了一个使用语音和视觉信号的多模态在线人员验证系统。受到关于语音和面部关联的神经科学研究结果的启发,我们提出了一种基于注意力的端到端神经网络,该网络可以为人员验证任务学习多感官关联。我们提出的网络中的注意机制学习在语音和面部表示之间选择一种显着的模态,在互补输入之间提供平衡。凭借这种能力,网络对于模态中的数据丢失或损坏是健壮的。在VoxCeleb2数据集中,我们展示了我们的方法对竞争的多模态方法的有效性。即使对于大型腐败或完全缺失模态的极端情况,我们的方法也证明了其他单峰方法的稳健性。
translated by 谷歌翻译
在本文中,我们研究人脸与声音之间的关联。视听整合,特别是面部和声音信息的整合是神经科学中一个研究得很好的领域。结果表明,两种模态之间的重叠信息在说话人识别等感知任务中起着重要作用。通过对我们创建的新数据集的在线研究,我们确认了以前的发现,即人们可以将相关的声音与相应的声音相关联,反之亦然,而不是偶然准确性。我们计算模拟人脸和声音之间的重叠信息,并表明学习的跨模态表示包含足够的信息来识别匹配的面部和声音,其性能与人类相似。我们的表示与某些人口统计特征和从视觉或听觉模态单独获得的特征相关。我们发布我们的视听录音数据集和人们阅读我们研究中使用的短文本的人口统计注释。
translated by 谷歌翻译
视频运动放大技术使我们能够看到肉眼看不见的小动作,例如振动的飞机,或者在风的影响下摇摆的建筑物。因为运动很小,所以放大结果容易产生噪声或过度模糊。现有技术依赖于手工设计的滤波器来提取可能不是最佳的表示。在本文中,我们试图使用深度卷积神经网络直接从示例中学习滤波器。为了使训练具有可操作性,我们精心设计了一个捕捉小动作的合成数据集,并使用两帧输入进行训练。我们表明,学习过滤器可以在真实视频中获得高质量的结果,与以前的方法相比,具有更少的振铃伪像和更好的噪声特性。虽然我们的模型没有使用时间滤波器进行训练,但我们发现时间滤波器可以与我们提取的表示一起使用,直到中等放大率,从而实现基于频率的运动选择。最后,我们分析了学习过滤器,并显示它们的行为与先前工作中使用的派生过滤器类似。我们的代码,经过培训的模型和数据集将在线提供。
translated by 谷歌翻译
已经提出了区域辍学策略来增强卷积神经网络分类器的性能。事实证明,它们可以有效地指导模型参与对象的较少辨别部分(例如,与人的头部相对应的腿),从而使网络更好地概括并具有更好的对象定位能力。另一方面,当前用于区域性丢失的方法通过覆盖黑色像素或随机噪声的斑块来移除训练图像上的信息像素。 {这种移除是不可取的,因为它会导致信息丢失和训练期间的低效率。}因此,我们提出了CutMix增强策略:在训练图像之间切割和粘贴补丁,其中地面实况标签与补丁区域成比例地混合。通过有效利用训练像素和\ mbox {保持}区域放弃的正规化效果,CutMix始终优于CIFAR和ImageNet分类任务以及ImageNet弱监督本地化任务的最新增强策略。此外,与先前的增强方法不同,我们的CutMix训练的ImageNet分类器在用作预训练模型时,可以在Pascal检测和MS-COCO图像字幕基准测试中获得一致的性能提升。我们还展示了CutMix改进了针对输入损坏及其分布式检测性能的模型稳健性。
translated by 谷歌翻译
作为一种高效且可扩展的图形神经网络,GraphSAGE通过聚合下采样的本地邻域并通过以小批量梯度下降方式学习,实现了用于推断看不见的节点或图形的诱导能力。 GraphSAGE中使用的邻域采样是有效的,以便在并行地推断出具有不同程度的一批目标节点时提高计算和存储效率。尽管具有这一优势,但默认的统一采样会受到训练和推理的高度差异的影响,从而导致最佳的准确性。我们提出了一种新的数据驱动的采样方法,通过非线性回归量来推断邻域的实值重要性,并将该值用作对邻域进行二次抽样的标准。使用基于价值的强化学习来学习使用者。从GraphSAGE的负分类损失输出中归一化地提取顶点和邻域的每个组合的隐含重要性。因此,在使用三个数据集的归纳节点分类基准中,我们的方法使用均匀采样增强了基线,在准确性方面优于图神经网络的近似变量。
translated by 谷歌翻译
在随机和对偶设置中已经广泛研究了强盗式算法。已经表明这种算法在多玩家设置中是有用的,例如,解决无线网络选择问题,可以将其表述为对抗强盗问题。对抗设置的领先bandife算法是EXP3。但是,网络行为是重复的,其中用户密度和网络行为遵循常规模式。像EXP3这样的强盗算法无法为周期性行为提供良好的保证。一个主要原因是这些算法与固定动作策略竞争,这在定期设置中是无效的。在本文中,我们定义了周期性强盗设置,并定期后悔作为此类设置的更好的性能度量。我们的目标是在一些可能的周期性模式$ F $(例如,所有可能的周期函数,周期为1,2,\ cdots,P $)下运用武器,而不是将分析算法的性能与固定动作策略进行比较。我们提出了周期性EXP4,这是用于周期性设置的EXP4算法的计算有效变体。使用$ K $武器,$ T $时间步长,以及$ F $中的每个周期模式的长度最多为$ P $,我们显示由Periodic EXP4获得的periodicregret最多为$ O \ big(\ sqrt {PKT \ log K + KT \ log | F |} \ big)$。我们还证明了周期性设置的$ \ Omega \ big(\ sqrt {PKT + KT \ frac {\ log | F |} {\ log K}} \ big)$的下限,表明这在log-中是最优的因素。例如,我们关注无线网络选择问题。通过仿真,我们证明了周期EXP4随时间学习周期模式,适应动态环境的变化,远远超过EXP3。
translated by 谷歌翻译
最近的现代显示器现在能够渲染高达8K UHD(超高清)的高动态范围(HDR),高分辨率(HR)视频。因此,UHD HDR广播和流媒体已成为高质量的优质服务。然而,由于缺乏原始的UHD HDR视频内容,迫切需要适当的转换技术来将传统低分辨率(LR)标准动态范围(SDR)视频转换为UHD HDR版本。在本文中,我们提出了联合超分辨率(SR)和inversetone-mapping(ITM)框架,称为Deep SR-ITM,它学习从LR SDR视频到HR HDR版本的直接映射。联合SR和ITM是一项复杂的任务,必须为SRM恢复高频细节,与ITM的局部对比相结合。我们的网络能够通过分解输入图像并关注单独的基础(低频)和细节(高频)层来恢复精细的细节。此外,所提出的调制块应用位置变量操作来增强局部对比度。深度SR-ITM显示出良好的主观质量,增加了对比度和细节,优于先前的联合SR-ITM方法。
translated by 谷歌翻译
机器学习的广泛使用从根本上改变了软件开发范式(a.k.a. Software 2.0),其中数据成为一流的公民,与代码同等。由于机器学习用于敏感应用,因此训练有素的模型必须准确,公平且对攻击具有鲁棒性。虽然已经提出了许多技术来改进模型训练过程(处理中的方法)或训练模型本身(后处理),但我们认为最有效的方法是清除错误的根源:模型训练的数据(预处理)。历史上,至少有三个研究团体一直在研究这个问题:数据管理,机器学习(模式和安全)。尽管每个社区都进行了大量的研究,但最终必须对相同的数据集进行预处理,并且很难理解这些技术如何相互关联并且可以被集成。我们认为,现在是时候将数据的概念扩展到现代机器学习需求。我们确定了数据预处理技术之间的依赖关系,并提出了MLClean,这是一种统一的数据清理框架,集成了这些技术并有助于培训准确和公平的模型。这项工作是大数据更广泛趋势的一部分 - 人工智能(AI)集成。
translated by 谷歌翻译