多模式分类是人类以人为本的机器学习中的核心任务。我们观察到信息跨多模式融合在多模式融合之前,信息在偶像中具有高度互补的信息,因此在多模式融合之前可以彻底稀释。为此,我们呈现稀疏的融合变压器(SFT),一种用于现有最先进的方法的变压器的新型多模式融合方法,同时具有大大降低了内存占用和计算成本。我们想法的关键是稀疏池块,可在跨模式建模之前减少单峰令牌集合。评估在多个多模式基准数据集上进行,用于广泛的分类任务。在类似的实验条件下的多个基准上获得最先进的性能,同时报告计算成本和内存要求降低六倍。广泛的消融研究展示了在天真的方法中结合稀疏和多式化学习的好处。这铺平了在低资源设备上实现多模级学习的方式。
translated by 谷歌翻译
来自多模态输入的人类学习效益通常出现为丰富语义(例如,在学习IT时描述对象的属性)。这使我们能够从非常有限的视觉示例中学习广泛的概念。但是,目前的少量学习(FSL)方法使用数值类标签来表示不提供关于学习概念的丰富语义含义的对象类。在这项工作中,我们表明,通过使用“类级”语言描述,可以以最少的注释成本获取,我们可以提高FSL性能。鉴于支持集和查询,我们的主要思想是创建一个瓶颈视觉特征(混合原型),然后用于在训练期间将类的语言描述作为辅助任务。我们开发基于转换器的前向和后向编码机制,以涉及可以编码两个模式之间的复杂关系的视觉和语义令牌。强迫原型来保留关于类描述的语义信息,作​​为视觉特征上的常规器,在推理时提高他们的新类别的概括。此外,该策略在学习的陈述之前强加了人类,确保该模型忠实地与视觉和语义概念相关联,从而提高了模型解释性。我们对四个数据集和消融研究的实验表明了有效地建模丰富的FSL语义。
translated by 谷歌翻译
我们介绍了一个新的真实值不变,称为3范围内的双曲结的自然斜率,这在其CUSP几何形状中定义。我们展示了两倍的结签名,自然斜率在大多数恒定时间上不同的双曲线除以喷射率半径的立方体。使用机器学习发现这种不等式来检测各种结不变之间的关系。它有应用于Dehn手术和4球属的应用。我们还显示了一个精致版本的不等式,其中上限是体积的线性函数,并且斜率通过对应于链接结的短测地测量的术语来校正,该术语将结奇数次数。
translated by 谷歌翻译
通过言语技术的最新进步和智能助理的引入,如亚马逊Alexa,Apple Siri和Google Home,越来越多的用户通过语音命令与各种应用程序进行交互。电子商务公司通常在其网页上显示较短的产品标题,在需要简洁时,可以在其网页上进行人工策划或算法生成。然而,这些标题与自然语言不同。例如,“幸运的魅力面筋无麸质谷物,20.5盎司盒装幸运魅力含有无麸质”可以在网页上显示,而在基于语音的文本到语音应用程序中不能使用类似的标题。在这种对话系统中,易于理解的句子,例如“20.5盎司的幸运魅力麸质谷物”是优选的。与显示设备相比,可以向用户呈现图像和详细的产品信息,在与语音助手相互作用时,需要传达最重要信息的产品的短标题。我们提出Ebert,通过进一步预先训练电子商务产品描述语料库中的BERT嵌入来进行序列到序列方法,然后微调结果模型,以产生来自输入Web标题的短,自然的语言标题。我们对现实世界行业数据集的广泛实验,以及对模型输出的人类评估,表明Ebert摘要优于相当的基线模型。由于该模型的功效,该模型的版本已在真实世界中进行部署。
translated by 谷歌翻译
计算机生成的全息术(CGH)具有广泛的应用,如直视显示,虚拟和增强现实,以及光学显微镜。CGH通常利用显示计算机产生的相位掩模的空间光调制器,调制相干光的相位以产生定制图案。计算相位掩码的算法是CGH的核心,通常定制以满足不同的应用。用于光学显微镜的CGH通常需要3D可访问性(即,沿着$ Z $ -axis产生重叠模式)和微米级空间精度。这里,我们使用设计用于光学显微镜的无监督生成模型来提出CGH算法,以合成3D选择的照明。命名为稀疏深度CGH的算法,能够以比传统的CGH算法更高的对比度在大的3D容积中产生稀疏分布点。
translated by 谷歌翻译
高度动态的移动ad-hoc网络(MANET)仍然是开发和部署强大,高效和可扩展的路由协议的最具挑战性环境之一。在本文中,我们提出了DeepCQ +路由协议,以一种新颖的方式将新兴的多代理深度增强学习(Madrl)技术集成到现有的基于Q学习的路由协议及其变体中,并在各种拓扑结构中实现了持续更高的性能和移动配置。在保持基于Q学习的路由协议的整体协议结构的同时,DeepCQ +通过精心设计的Madrl代理替换静态配置的参数化阈值和手写规则,使得不需要这些参数的配置。广泛的模拟表明,与其基于Q学习的对应物相比,DeptCQ +产生的端到端吞吐量显着增加了端到端延迟(跳数)的明显劣化。在定性方面,也许更重要的是,Deepcq +在许多情况下维持了非常相似的性能提升,即在网络尺寸,移动条件和交通动态方面没有接受过培训。据我们所知,这是Madrl框架的第一次成功应用MANET路由问题,即使在训练有素的场景范围之外的环境中,即使在训练范围之外的环境中也能够高度的可扩展性和鲁棒性。这意味着我们的基于Marl的DeepCQ +设计解决方案显着提高了基于Q学习的CQ +基线方法的性能,以进行比较,并提高其实用性和解释性,因为现实世界的MANET环境可能会在训练范围的MANET场景之外变化。讨论了进一步提高性能和可扩展性的增益的额外技术。
translated by 谷歌翻译
Koopman运算符是无限维的运算符,可全球线性化非线性动态系统,使其光谱信息可用于理解动态。然而,Koopman运算符可以具有连续的光谱和无限维度的子空间,使得它们的光谱信息提供相当大的挑战。本文介绍了具有严格融合的数据驱动算法,用于从轨迹数据计算Koopman运算符的频谱信息。我们引入了残余动态模式分解(ResDMD),它提供了第一种用于计算普通Koopman运算符的Spectra和PseudtoStra的第一种方案,无需光谱污染。使用解析器操作员和RESDMD,我们还计算与测量保存动态系统相关的光谱度量的平滑近似。我们证明了我们的算法的显式收敛定理,即使计算连续频谱和离散频谱的密度,也可以实现高阶收敛即使是混沌系统。我们展示了在帐篷地图,高斯迭代地图,非线性摆,双摆,洛伦茨系统和11美元延长洛伦兹系统的算法。最后,我们为具有高维状态空间的动态系统提供了我们的算法的核化变体。这使我们能够计算与具有20,046维状态空间的蛋白质分子的动态相关的光谱度量,并计算出湍流流过空气的误差界限的非线性Koopman模式,其具有雷诺数为$> 10 ^ 5 $。一个295,122维的状态空间。
translated by 谷歌翻译
AI中的不同子场倾向于储存一小部分有影响力的基准。这些基准作为一系列涂抹的常见问题的支架运作,这些常见问题经常被录制为朝向灵活和更广泛的AI系统的道路上的基础里程碑。这些基准最先进的性能被广泛理解为表明对这些长期目标的进展。在这个位置纸中,我们探讨了这种基准的限制,以便在其框架中揭示构建有效性问题,作为功能“一般”的进展措施,他们被设置为。
translated by 谷歌翻译
最近的工作表明,难以察觉的扰动可以应用于工艺未被动实施例(ULE),即其内容不能用于改善训练期间的分类器的图像。在本文中,我们揭示了研究人员应遵循的道路,因为它们最初制定了(Uleos)。本文进行了四项贡献。首先,我们展示了Uleos利用颜色,因此,可以通过简单的灰度预过滤来减轻它们的效果,而无需诉诸对抗性培训。其次,我们向Uleos提出了一个延伸,它被称为uleo-grayaugs,这将通过在优化期间利用灰度知识和数据增强来迫使所产生的ules远离频道明智的颜色扰动。第三,我们表明,在复杂的卷积神经网络(CNN)分类器的情况下,使用多层的Perceptrons(MLP)产生的Uleos是有效的,这表明CNN遭受了对电机的特定漏洞。第四,我们证明当分类器培训ULEOS时,对抗性训练将防止在清洁图像和对抗性图像上测量的准确度。在一起,我们的贡献代表了不可见的例子的艺术状态的大量进展,但也揭示了他们行为的重要特征,必须更好地理解,以实现进一步的改进。
translated by 谷歌翻译
深度学习中的关键挑战之一是检测对抗例的有效策略的定义。为此,我们提出了一种名为Ensemble对抗探测器(EAD)的新型方法,用于识别对抗性示例,在标准的多字节分类场景中。 EAD结合了多个检测器,该检测器利用了预先训练的深神经网络(DNN)内部表示中的输入实例的不同属性。具体而言,EAD基于Mahalanobis距离和局部内在的维度(盖子)与基于单级支持向量机(OSVM)的新引进的方法集成了最先进的探测器。尽管所有构成方法都假定测试实例从一组正确分类的训练实例的距离越大,但概率越高,其是对手示例的概率越高,它们在计算距离的方式中不同。为了利用不同方法的有效性在捕获数据分布的不同特性,因此,有效地解决泛化和过度装备之间的权衡,EAD采用探测器特定的距离分数作为逻辑回归分类器的特征,独立的超公数后优化。我们在不同的数据集(CIFAR-10,CiFar-100和SVHN)和模型(Reset和Densenet)上评估了EAD方法,以及通过与竞争方法进行比较,关于四个对抗性攻击(FGSM,BIM,DeepFool和CW)。总的来说,我们表明EAD达到了最大的Auroc和Aupr在大多数设置和其他方面的表现。对现有技术的改进以及容易延伸EAD以包括任何任意探测器的可能性,铺平了在普遍示例性检测的广场上广泛采用的集合方法。
translated by 谷歌翻译