最近的工作表明,难以察觉的扰动可以应用于工艺未被动实施例(ULE),即其内容不能用于改善训练期间的分类器的图像。在本文中,我们揭示了研究人员应遵循的道路,因为它们最初制定了(Uleos)。本文进行了四项贡献。首先,我们展示了Uleos利用颜色,因此,可以通过简单的灰度预过滤来减轻它们的效果,而无需诉诸对抗性培训。其次,我们向Uleos提出了一个延伸,它被称为uleo-grayaugs,这将通过在优化期间利用灰度知识和数据增强来迫使所产生的ules远离频道明智的颜色扰动。第三,我们表明,在复杂的卷积神经网络(CNN)分类器的情况下,使用多层的Perceptrons(MLP)产生的Uleos是有效的,这表明CNN遭受了对电机的特定漏洞。第四,我们证明当分类器培训ULEOS时,对抗性训练将防止在清洁图像和对抗性图像上测量的准确度。在一起,我们的贡献代表了不可见的例子的艺术状态的大量进展,但也揭示了他们行为的重要特征,必须更好地理解,以实现进一步的改进。
translated by 谷歌翻译
离线强化学习(RL)任务要求代理从预先收集的数据集中学习,没有与环境进行进一步的交互。尽管有可能超越行为政策,但基于RL的方法通常是不切实际的,因为培训不稳定并引导外推错误,这始终需要通过在线评估进行仔细的超参数调整。相比之下,离线模仿学习(IL)没有这样的问题,因为它直接在不估计值函数的情况下直接了解策略。然而,IL通常限制在行为政策的能力,并且倾向于从政策混合收集的数据集中学习平庸行为。在本文中,我们的目标是利用IL但缓解这种缺点。观察行为克隆能够使用较少的数据模仿邻近的策略,我们提出\ Textit {课程脱机仿制学习(线圈)},它利用具有更高回报的自适应邻近策略的体验挑选策略,并提高了当前策略沿课程阶段。在连续控制基准测试中,我们将线圈与基于仿制的和基于RL的方法进行比较,表明它不仅避免了在混合数据集上学习平庸行为,而且甚至与最先进的离线RL方法竞争。
translated by 谷歌翻译
深度神经网络已被证明容易受到对抗图像的影响。常规攻击努力争取严格限制扰动的不可分割的对抗图像。最近,研究人员已采取行动探索可区分但非奇异的对抗图像,并证明色彩转化攻击是有效的。在这项工作中,我们提出了对抗颜色过滤器(ADVCF),这是一种新颖的颜色转换攻击,在简单颜色滤波器的参数空间中通过梯度信息进行了优化。特别是,明确指定了我们的颜色滤波器空间,以便从攻击和防御角度来对对抗性色转换进行系统的鲁棒性分析。相反,由于缺乏这种明确的空间,现有的颜色转换攻击并不能为系统分析提供机会。我们通过用户研究进一步进行了对成功率和图像可接受性的不同颜色转化攻击之间的广泛比较。其他结果为在另外三个视觉任务中针对ADVCF的模型鲁棒性提供了有趣的新见解。我们还强调了ADVCF的人类解剖性,该advcf在实际使用方案中有希望,并显示出比对图像可接受性和效率的最新人解释的色彩转化攻击的优越性。
translated by 谷歌翻译
终身语言学习旨在流式传输学习NLP任务,同时保留对先前任务的知识。基于语言模型和以下无数据约束方法的先前作品探索了所有数据的格式,因为“ begin token(\ textit {b}) +上下文(\ textit {c}) +问题(\ textit {q}) +答案(\ textit {a})对于不同的任务。但是,由于以下原因,当上一个任务的伪数据不足时,它们仍然遭受灾难性的遗忘,并且会加剧:(1)模型难以生成任务处理的伪数据,(2)\ textit {a}易于使用{a} \ textIt {a}和\ textit {c}被\ textit {q}分开时错误,因为\ textit {c}的信息在生成\ textit {a}之前会减小。因此,我们首先提出问问题和重播问题(AQF-RQ),包括一种新颖的数据格式“ \ textit {bqca}”和一项新的培训任务,以培训先前任务的伪造问题。实验结果表明,AQF-RQ使模型更容易生成匹配相应任务的更多伪数据,并且在任务边界既明确又不清楚时,对相应的任务匹配,对伪data的足够和不足。与多任务学习相比,AQF-RQ仅能达到0.36 \%的性能。
translated by 谷歌翻译
多模式学习,尤其是大规模的多模式预训练,在过去的几年中已经迅速发展,并带来了人工智能(AI)的最大进步。尽管具有有效性,但了解多模式预训练模型的潜在机制仍然是一个巨大的挑战。揭示此类模型的解释性可能会使AI领域中新型学习范式的突破。为此,鉴于人脑的多模式性质,我们建议借助非侵入性脑成像技术(例如功能磁共振成像(fMRI))探索多模式学习模型的解释性。具体而言,我们首先提出了1500万个图像文本对预训练的新设计的多模式基础模型,该模型在各种认知下游任务中显示出强烈的多模式理解和概括能力。此外,从神经编码的角度来看(基于我们的基础模型),我们发现,与单峰相比,经过多模式训练的视觉和舌编码器都更像脑状。特别是,我们确定了许多大脑区域,其中多模式训练的编码器表现出更好的神经编码性能。这与现有有关探索大脑多感觉整合的研究的发现是一致的。因此,我们认为,多模式基础模型是神经科学家研究人脑中多模式信号处理机制的更合适的工具。我们的发现还证明了多模式基础模型作为理想的计算模拟器的潜力,以促进脑和大脑的AI研究。
translated by 谷歌翻译
本文提出了基于Pytorch的深度自动编码器模型。该算法将Pytorch的想法引入自动编码器,并随机清除具有一定概率连接到隐藏层神经元的输入权重,以实现稀疏网络的效果,这与稀疏的起点相似自动编码器。新算法有效地解决了模型过度拟合的问题,并提高了图像分类的准确性。最后,进行实验,并将实验结果与ELM,RELM,AE,SAE,DAE进行比较。
translated by 谷歌翻译
单元实例分割是一项旨在针对图像中每个单元格的联合检测和分割的新任务。最近,在此任务中应用了许多实例细分方法。尽管取得了巨大的成功,但仍然存在两个主要弱点,这是由于定位细胞中心点的不确定性而引起的。首先,可以很容易地将密集的填充细胞识别到一个细胞中。其次,细胞的细胞很容易被识别为两个细胞。为了克服这两个弱点,我们提出了一个基于多控制回归指南的新细胞实例分割网络。借助多功能回归指导,该网络具有不同视图中每个单元格的能力。具体而言,我们首先提出了一种高斯指导注意机制,以使用高斯标签来指导网络的注意力。然后,我们提出了一个点回归模块,以帮助细胞中心的回归。最后,我们利用上述两个模块的输出来进一步指导实例分割。借助多轮回归指导,我们可以充分利用不同区域的特征,尤其是细胞的中心区域。我们在基准数据集,DSB2018,CA2.5和SCIS上进行了广泛的实验。令人鼓舞的结果表明,我们的网络实现了SOTA(最先进的)性能。在DSB2018和CA2.5上,我们的网络超过1.2%(AP50)。尤其是在SCIS数据集上,我们的网络的性能较大(AP50高3.0%)。可视化和分析进一步证明了我们提出的方法是可以解释的。
translated by 谷歌翻译
使用计算机视觉对间接费用的分析是一个问题,在学术文献中受到了很大的关注。在这个领域运行的大多数技术都非常专业,需要大型数据集的昂贵手动注释。这些问题通过开发更通用的框架来解决这些问题,并结合了表示学习的进步,该框架可以更灵活地分析具有有限标记数据的新图像类别。首先,根据动量对比机制创建了未标记的空中图像数据集的强大表示。随后,通过构建5个标记图像的准确分类器来专门用于不同的任务。从6000万个未标记的图像中,成功的低水平检测城市基础设施进化,体现了我们推进定量城市研究的巨大潜力。
translated by 谷歌翻译
常规的多视图聚类试图基于所有观点的假设,以完全观察到所有观点的假设。但是,在诸如疾病诊断,多媒体分析和建议系统之类的实际应用中,常见的是,在许多情况下,并非所有样品的观点都可以使用,这导致常规多视图聚类方法的失败。在此不完整的多视图数据上的聚类称为不完整的多视图聚类。鉴于有前途的应用前景,近年来对不完整的多视图聚类的研究取得了明显的进步。但是,没有调查可以总结当前的进展并指出未来的研究方向。为此,我们回顾了最新的关于多视图聚类的研究。重要的是,我们提供一些框架来统一相应的不完整的多视图聚类方法,并从理论和实验角度对某些代表性方法进行深入的比较分析。最后,为研究人员提供了不完整的多视图聚类领域中的一些开放问题。
translated by 谷歌翻译
我们解决了3D室内场景的语言引导语义风格转移的新问题。输入是一个3D室内场景网格和几个描述目标场景的短语。首先,通过多层感知器将3D顶点坐标映射到RGB残基。其次,通过针对室内场景量身定制的视点采样策略将彩色的3D网格分化为2D图像。第三,通过预训练的视觉模型将渲染的2D图像与短语进行比较。最后,错误被反向传播到多层感知器,以更新与某些语义类别相对应的顶点颜色。我们对公共扫描仪和场景数据集进行了大规模定性分析和A/B用户测试。我们证明:(1)视觉令人愉悦的结果,这些结果可能对多媒体应用有用。 (2)从与人类先验一致的观点渲染3D​​室内场景很重要。 (3)合并语义可显着提高样式转移质量。 (4)HSV正则化项会导致结果与输入更一致,并且通常评分更好。代码和用户研究工具箱可从https://github.com/air-discover/lasst获得
translated by 谷歌翻译