视觉变压器(VITS)最近在各种视觉任务中展示了最先进的性能,更换了卷积神经网络(CNN)。同时,由于VIT具有比CNN不同的结构,因此它可能表现不同。探讨VIT的可靠性,本文研究了VIT的行为和稳健性。我们通过假设可能出现在实际视觉任务中的各种图像损坏来比较CNN和Vit的稳健性。我们确认,对于大多数图像转换,Vit显示出与CNN或更高的鲁棒性相当。然而,对于对比增强,在Vit中一直观察到严重的性能降解。从详细分析中,我们确定了潜在的问题:在颜色比例变化时,韦特的贴片嵌入中的位置嵌入可能不正确地工作。在这里,我们声称使用PRELAYORNOM,修改后的贴片嵌入结构,以确保VIT的鳞片不变行为。 PRELAYORMOM的VIT显示在包括对比度不同环境的各种腐败中的鲁棒性。
translated by 谷歌翻译
在本文中,我们提出了Sanane-TTS,这是一种稳定且自然的端到端多语言TTS模型。由于很难为给定的演讲者获得多语言语料库,因此不可避免地会使用单语语料库进行多语言TTS模型。我们介绍了扬声器正规化损失,该损失可改善跨语性合成期间的语音自然性以及域对抗训练,该训练适用于其他多语言TTS模型。此外,通过添加扬声器正规化损失,以持续时间为零矢量嵌入的扬声器可以稳定跨语性推断。通过此替代品,我们的模型将产生以中等节奏的语音,而不论跨语性合成中的源说话者如何。在MOS评估中,Sane-TTS在跨语义和内部合成中的自然性得分高于3.80,地面真相评分为3.99。同样,即使在跨语性的推论中,Sane-TTS也保持了接近地面真理的说话者相似性。音频样本可在我们的网页上找到。
translated by 谷歌翻译
在过去的十年中,我们看到了工业数据,计算能力的巨大改善以及机器学习的重大理论进步。这为在大规模非线性监控和控制问题上使用现代机器学习工具提供了机会。本文对过程行业的应用进行了对最新结果的调查。
translated by 谷歌翻译
特征相似性匹配将参考框架的信息传输到查询框架,是半监视视频对象分割中的关键组件。如果采用了汇总匹配,则背景干扰器很容易出现并降低性能。徒匹配机制试图通过限制要传输到查询框架的信息的量来防止这种情况,但是有两个局限性:1)由于在测试时转换为两种匹配,因此无法完全利用过滤匹配的匹配; 2)搜索最佳超参数需要测试时间手动调整。为了在确保可靠的信息传输的同时克服这些局限性,我们引入了均衡的匹配机制。为了防止参考框架信息过于引用,通过简单地将SoftMax操作与查询一起应用SoftMax操作,对查询框架的潜在贡献得到了均等。在公共基准数据集上,我们提出的方法与最先进的方法达到了可比的性能。
translated by 谷歌翻译
机器学习(ML)为生物处理工程的发展做出了重大贡献,但其应用仍然有限,阻碍了生物过程自动化的巨大潜力。用于模型构建自动化的ML可以看作是引入另一种抽象水平的一种方式,将专家的人类集中在生物过程开发的最认知任务中。首先,概率编程用于预测模型的自动构建。其次,机器学习会通过计划实验来测试假设并进行调查以收集信息性数据来自动评估替代决策,以收集基于模型预测不确定性的模型选择的信息数据。这篇评论提供了有关生物处理开发中基于ML的自动化的全面概述。一方面,生物技术和生物工程社区应意识到现有ML解决方案在生物技术和生物制药中的应用的限制。另一方面,必须确定缺失的链接,以使ML和人工智能(AI)解决方案轻松实施在有价值的生物社区解决方案中。我们总结了几个重要的生物处理系统的ML实施,并提出了两个至关重要的挑战,这些挑战仍然是生物技术自动化的瓶颈,并减少了生物技术开发的不确定性。没有一个合适的程序;但是,这项综述应有助于确定结合生物技术和ML领域的潜在自动化。
translated by 谷歌翻译
相机陷阱,无人观察设备和基于深度学习的图像识别系统在收集和分析野生动植物图像方​​面的努力大大减少了。但是,通过上述设备收集的数据表现出1)长尾巴和2)开放式分布问题。为了解决开放设定的长尾识别问题,我们提出了包括三个关键构件的时间流面膜注意网络:1)光流模块,2)注意残留模块,3)一个元物质分类器。我们使用光流模块提取顺序帧的时间特征,并使用注意残留块学习信息表示。此外,我们表明,应用元装置技术可以在开放式长尾识别中提高该方法的性能。我们将此方法应用于韩国非军事区(DMZ)数据集。我们进行了广泛的实验以及定量和定性分析,以证明我们的方法有效地解决了开放式的长尾识别问题,同时对未知类别进行了强大的态度。
translated by 谷歌翻译
最近的成功表明,可以通过文本提示来操纵图像,例如,在雨天的晴天,在雨天中被操纵到同一场景中,这是由文本输入“下雨”驱动的雨天。这些方法经常利用基于样式的图像生成器,该生成器利用多模式(文本和图像)嵌入空间。但是,我们观察到,这种文本输入通常在提供和综合丰富的语义提示时被瓶颈瓶颈,例如将大雨与雨雨区分开。为了解决这个问题,我们主张利用另一种方式,声音,在图像操纵中具有显着优势,因为它可以传达出比文本更多样化的语义提示(生动的情感或自然世界的动态表达)。在本文中,我们提出了一种新颖的方法,该方法首先使用声音扩展了图像文本接头嵌入空间,并应用了一种直接的潜在优化方法来根据音频输入(例如雨的声音)操纵给定的图像。我们的广泛实验表明,我们的声音引导的图像操纵方法在语义和视觉上比最先进的文本和声音引导的图像操纵方法产生更合理的操作结果,这通过我们的人类评估进一步证实。我们的下游任务评估还表明,我们学到的图像文本单嵌入空间有效地编码声音输入。
translated by 谷歌翻译
在多模式的行动识别中,重要的是,不仅要考虑不同方式的互补性,而且考虑全球动作内容。在本文中,我们提出了一个名为Modital Mixer(M-Mixer)网络的新颖网络,以利用跨模态和动作的时间上下文的互补信息进行多模式动作识别。我们还引入了一个简单而有效的复发单元,称为多模式上下文化单元(MCU),该单元(MCU)是M-Mixer的核心组成部分。我们的MCU在时间上编码具有其他模态的动作内容特征(例如Depth,ir)的动作内容特征。该过程鼓励M-Mixer利用全球行动内容,并补充其他模式的互补信息。结果,我们提出的方法优于NTU RGB+D 60,NTU RGB+D 120和NW-UCLA数据集的最先进方法。此外,我们通过进行全面的消融研究来证明M混合物的有效性。
translated by 谷歌翻译
在本文中,我们提出了一种使用CNN和变压器结构融合以提高图像分类性能的方法。对于CNN,可以很好地提取有关图像上局部区域的信息,但是限制了全局信息的提取。另一方面,变压器在相对全局的提取方面具有优势,但缺点是因为它需要大量的内存来进行本地特征值提取。在图像的情况下,它通过CNN转换为特征映射,每个特征映射的像素都被视为令牌。同时,将图像分为贴片区域,然后与将其视为令牌视图的变压器方法融合在一起。对于令牌与两个不同特征的融合,我们提出了三种方法:(1)具有平行结构的晚令融合,(2)早期令牌融合,(3)逐层中的令牌融合。在使用Imagenet 1K的实验中,提出的方法显示了最佳的分类性能。
translated by 谷歌翻译
具有提高可传递性的对抗性攻击 - 在已知模型上精心制作的对抗性示例的能力也欺骗了未知模型 - 由于其实用性,最近受到了很多关注。然而,现有的可转移攻击以确定性的方式制作扰动,并且常常无法完全探索损失表面,从而陷入了贫穷的当地最佳最佳效果,并且遭受了低传递性的折磨。为了解决这个问题,我们提出了细心多样性攻击(ADA),该攻击以随机方式破坏了不同的显着特征以提高可转移性。首先,我们将图像注意力扰动到破坏不同模型共享的通用特征。然后,为了有效避免局部优势差,我们以随机方式破坏了这些功能,并更加详尽地探索可转移扰动的搜索空间。更具体地说,我们使用发电机来产生对抗性扰动,每个扰动都根据输入潜在代码而以不同的方式打扰。广泛的实验评估证明了我们方法的有效性,优于最先进方法的可转移性。代码可在https://github.com/wkim97/ada上找到。
translated by 谷歌翻译