测量来自观察样本的高维,连续,随机变量之间的互信息(MI)具有广泛的理论和实践应用。虽然传统的MI方法,如(Kraskov et al.2004),能够在低维信号之间捕获MI,但它们的维度不断增加,并且不具有可扩展性。现有的神经方法,如MINE(Belghazi等人,2018),搜索最大化互信息估计的变分下界的d维神经网络;然而,这需要O(d log d)观察样本以防止神经网络过度拟合。对于实际应用中的实际互信息估计,数据并不总是有剩余的,特别是在数据采集过于昂贵的情况下,例如infMRI分析。我们引入了可扩展的,数据有效的互信息估计器。通过将基于学习的MI下界视图与元学习相结合,DEMINE实现了高置信度估计,而与网络规模无关,并且在实际数据集大小上具有提高的准确性。我们证明了DEMINE在合成基准测试中的有效性以及fMRIinter-主题相关性分析的实际应用。
translated by 谷歌翻译
从诸如Instagram帖子之类的多模态数据计算作者意图需要建模文本和图像之间的复杂关系。例如,一个标题可以讽刺地反映在图像上,因此标题和图像都不是另一个的转录本。相反,他们结合 - 通过所谓的乘法 - 来创造一种新的意义,与文本和图像的字面意义有更复杂的关系。在这里,我们介绍1299 Instagram帖子的多模态数据集,标记为三个正交分析:图​​像标题对背后的作者意图,图像和标题的字面意义之间的语境关系,以及图像和标题的表示意义之间的这些关系。构建一个基线深度多模式分类器来验证分类法,表明与仅使用图像模态相比,同时使用文本和图像可以将意图检测提高8%,从而证明了非交叉意义乘法的共性。我们的数据集为研究文本和图像配对带来的丰富意义提供了重要资源。
translated by 谷歌翻译
我们通过使用来自图像标题对的弱监视来解决将自由格式文本短语接地的问题。我们提出了一种新颖的端到端模型,它将字幕到图像检索作为“下游”任务来指导词语本地化过程。作为第一步,我们的方法推断标题中的感兴趣区域(RoI)和短语之间的潜在对应,并使用这些匹配的RoI创建辨别图像表示。在随后的步骤中,这个(学习的)表示与标题一致。我们的关键贡献在于构建这种“字幕条件”图像编码,它紧密地耦合两个任务并允许弱监督有效地指导视觉基础。我们提供了广泛的经验和定性分析,以研究我们提出的模型的不同组成部分,并将其与竞争基线进行比较。对于短语本地化而言,相对于VisualGenome数据集的先前技术水平,改进了4.9%(绝对值)。我们还报告了与COCO和Flickr30k数据集上下游字幕到图像检索任务的最新技术相关的结果。
translated by 谷歌翻译
我们提出了用于动作分割的新颖的堆叠时空图形卷积网络(Stacked-STGCN),即,预测和定位长视频上的动作的序列。我们扩展了最初为基于骨架的动作识别提出的时空图形卷积网络(STGCN),以使具有不同特征的节点(例如,场景,演员,对象,动作等),具有不同长度的特征描述符和任意时间边缘连接成为可能。解释了与复杂活动相关的大图变形。我们进一步向STGCN介绍堆叠沙漏架构,以利用编码器 - 解码器设计的优势,提高泛化性能和定位精度。我们探索各种描述符,例如帧级VGG,段级I3D,基于RCNN的对象等作为节点描述符,以基于对综合上下文信息的联合参考来实现动作分段。我们在CAD120上显示结果(它提供预先计算的节点特征和边缘权重,用于跨算法的公平性能比较)以及更复杂的真实世界活动数据集Charades。我们的Stacked-STGCN通常使用VGG功能,在使用VGG功能的Charades上获得的最高报告结果中获得4.1%的CAD分数和1.3%的最佳报告结果。
translated by 谷歌翻译
我们解决了在给定广告图像的情况下理解视觉广告的问题,我们的目标是对描述广告目的的适当的人工生成的陈述进行排名。通常通过联合嵌入图像和候选语句来解决该问题以建立对应关系。对visualad进行解码需要推断出在图像和先前方法中引用的语义和符号细微差别可能无法捕获这种关联,尤其是对于带有弱注释的符号。为了创建更好的嵌入,我们利用搜索机制将图像提议与符号相关联,并有效地聚合来自对齐的多模态表示的信息。我们提出了一种多跳共同关注机制,它迭代地改进了注意图,以确保准确的注意力估计。我们的注意基础嵌入模型是通过最大边际损失函数以端到端的方式学习的。 Weshow我们的模型在基准Ad数据集上优于其他基线,并且还显示定性结果以突出使用多跳注意的优势。
translated by 谷歌翻译
我们介绍并解决零射击物体检测(ZSD)的问题,该目标是检测在训练期间未观察到的物体类别。我们使用一组具有挑战性的对象类,而不是像以前的零射击分类工作那样限制自己的类似和/或细粒度类别。我们通过首先针对ZSD调整可视语义嵌入来呈现原则性方法。然后,我们讨论与选择背景类相关的问题,并激发两种用于学习鲁棒检测器的背景感知方法。其中一个模型使用固定的背景类,另一个基于迭代潜在分配。我们还概述了与使用有限数量的训练类相关的挑战,并提出了一种基于语义标签空间的密集采样的解决方案,使用具有大量类别的辅助数据。我们提出了两种标准检测数据集的新分裂 - MSCOCO和VisualGenome,以及传统和广义零射击设置中的初步实验结果,以突出所提出方法的优点。我们提供有用的算法知识,并通过提出一些开放性问题来鼓励进一步的研究。
translated by 谷歌翻译
近年来,对量子计算表达神经网络成功的兴趣大大增加。张量网络理论越来越受欢迎,并被广泛用于模拟强纠缠相关系统。矩阵乘积状态(MPS)是一种精心设计的张量网状态,在量子信息处理中起着重要作用。在本文中,我们已经表明矩阵乘积状态作为张量的一维数组可用于分类经典和量子数据。我们已经对以量子态编码的经典机器学习数据集Iris进行了二元分类。此外,我们通过考虑ibmqx4量子计算机上的不同参数来研究性能,并证明MPS电路可用于获得更好的精度。此外,测试了MPS量子分类器的学习能力,使用三年的历史数据集(Agri)对位于印度北部旁遮普邦的Patiala气象站进行蒸发蒸腾($ ET_ {o} $)分类。此外,我们使用了不同的性能指标分类测量其能力。最后,绘制结果并显示每个样品的值之间的对应程度。
translated by 谷歌翻译
物理引擎在机器人规划和控制中发挥着重要作用;然而,许多现实世界的控制问题涉及无法通过分析表征的复杂接触动力学。因此,大多数物理引擎都采用了导致精度损失的近似。在本文中,我们提出了混合动力学模型,模拟器增强交互网络(SAIN),结合物理引擎和基于对象的神经网络进行动态建模。与纯粹分析或纯数据驱动的现有模型相比,我们的混合模型以更准确和数据有效的方式捕获交互对象的动态。仿真和面部机器人的实验表明,当使用不复杂时,它也会带来更好的性能。控制任务。最后,我们展示了我们的模型推广到具有不同物体形状和材料的novelenvironments。
translated by 谷歌翻译
预训练的深度学习模型越来越多地被用于提供各种计算密集型预测分析服务,例如fitnesstracking,语音和图像识别。无状态且高度可并行化的深度学习模型使它们非常适合无服务器计算范例。但是,由于动态工作负载和具有部署和管理成本的各种可用资源配置,为这些服务做出有效的资源管理决策是一个难题。为了应对这些挑战,我们提出了一个名为Barista的分布式和可扩展的深度学习预测服务系统,并进行了以下分析。首先,我们通过识别各种趋势,为预测工作量提供快速有效的方法。其次,我们制定了一个优化问题,以最大限度地降低所产生的总成本,同时确保合理准确的有界预测延迟。第三,我们提出了一种有效的启发法来识别合适的计算资源配置。第四,我们提出了一个智能代理,通过水平和垂直缩放来分配和管理计算资源,以保持所需的预测延迟。最后,我们使用代表性的现实工作负载进行城市交通服务,展示并验证了Barista的功能。
translated by 谷歌翻译
工业,汽车和服务机器人不断增长的需求在隐私性,安全性,延迟,带宽和可靠性方面对集中式Cloud Robotics模型提出了挑战。在本文中,我们提出了一种深度机器人学习的“FogRobotics”方法,以联合方式在云和Edge之间分配计算,存储和网络资源。深度模型在云中训练非私人(公共)合成图像;模型适用于Edgewith在可信网络中的环境的私有真实图像,随后被部署为服务,用于网络中其他机器人的低延迟和安全推断/预测。我们将这种方法应用于表面整理,其中移动机器人通过学习深度对象识别和掌握计划模型来从杂乱的地板中拾取和分类对象。实验表明,与专门使用Cloud或Edge资源相比,Fog Robotics可以通过sim-to-real域自适应来提高性能,同时将推理周期时间减少4倍,成功地将超过213次尝试的86%的对象整理。
translated by 谷歌翻译