深度学习已被广​​泛用于医学图像细分和其他方面。但是,现有的医学图像分割模型的性能受到获得足够数量的高质量数据的挑战的限制。为了克服限制,我们提出了一个新的视觉医学图像分割模型LVIT(语言符合视觉变压器)。在我们的模型中,引入了医学文本注释,以弥补图像数据的质量缺陷。此外,文本信息可以在一定程度上指导伪标签的产生,并进一步保证半监督学习中伪标签的质量。我们还提出了指数伪标签迭代机制(EPI),以帮助扩展LVIT和像素级注意模块(PLAM)的半监督版本,以保留图像的局部特征。在我们的模型中,LV(语言视觉)损失旨在直接使用文本信息监督未标记图像的培训。为了验证LVIT的性能,我们构建了包含病理图像,X射线等的多模式医学分割数据集(图像 +文本)。实验结果表明,我们提出的LVIT在完全和半监督条件下具有更好的分割性能。代码和数据集可在https://github.com/huanglizi/lvit上找到。
translated by 谷歌翻译
对象目标视觉导航是一项具有挑战性的任务,旨在仅根据其视觉观察来指导机器人找到目标对象,并且该目标仅限于训练阶段中指定的类。但是,在实际家庭中,机器人可能需要处理许多对象类,并且在培训阶段,所有这些类都很难包含。为了应对这一挑战,我们通过将零照片学习与对象目标视频导航相结合,提出了一个零摄像的对象导航任务,该目标旨在指导机器人找到属于新颖类的对象而无需任何培训样本。这项任务导致需要将学习的政策推广到新颖的班级,这是使用深度强化学习的对象导航问题较小的问题。为了解决这个问题,我们利用“阶级无关”的数据来减轻培训阶段中指定的类过度拟合的输入。与类无关的输入包括检测结果和单词嵌入的余弦相似性,并且不包含任何与类相关的视觉特征或知识图。在AI2 Thor平台上进行的广泛实验表明,我们的模型在可见和看不见的类中都优于基线模型,这证明我们的模型对类别的敏感性较小,并且可以更好地概括。我们的代码可在https://github.com/pioneer-innovation/zero-sero-shot-object-navigation上找到
translated by 谷歌翻译
当前的深度神经网络(DNN)容易受到对抗性攻击的影响,在这种攻击中,对输入的对抗扰动可以改变或操纵分类。为了防御此类攻击,已证明一种有效而流行的方法,称为对抗性训练(AT),可通过一种最小的最大强大的训练方法来减轻对抗攻击的负面影响。尽管有效,但尚不清楚它是否可以成功地适应分布式学习环境。分布式优化对多台机器的功能使我们能够扩展大型型号和数据集的强大训练。我们提出了这一点,我们提出了分布式的对抗训练(DAT),这是在多台机器上实施的大批量对抗训练框架。我们证明DAT是一般的,它支持对标记和未标记的数据,多种类型的攻击生成方法以及梯度压缩操作的培训。从理论上讲,我们在优化理论中的标准条件下提供了DAT与一般非凸面设置中一阶固定点的收敛速率。从经验上讲,我们证明DAT要么匹配或胜过最先进的稳健精度,并实现了优美的训练速度(例如,在ImageNet下的Resnet-50上)。代码可在https://github.com/dat-2022/dat上找到。
translated by 谷歌翻译
自然语言界面(NLIS)为用户提供了一种方便的方式来通过自然语言查询交互分析数据。然而,交互式数据分析是一种苛刻的过程,特别是对于新手数据分析师。从不同域探索大型和复杂的数据集时,数据分析师不一定有足够的关于数据和应用域的知识。它使他们无法有效地引起一系列查询并广泛导出理想的数据洞察力。在本文中,我们使用Step-Wise查询推荐模块开发NLI,以帮助用户选择适当的下一步探索操作。该系统采用数据驱动方法,以基于其查询日志生成用户兴趣的应用域的逐步语义相关和上下文感知的查询建议。此外,该系统可帮助用户将查询历史和结果组织成仪表板以传达发现的数据洞察力。通过比较用户学习,我们表明我们的系统可以促进比没有推荐模块的基线更有效和系统的数据分析过程。
translated by 谷歌翻译
光保护综合技术的快速进展达到了真实和操纵图像之间的边界开始模糊的临界点。最近,一个由Mega-Scale Deep Face Forgery DataSet,由290万个图像组成和221,247个视频的伪造网络已被释放。它是迄今为止的数据规模,操纵(7个图像级别方法,8个视频级别方法),扰动(36个独立和更混合的扰动)和注释(630万个分类标签,290万操纵区域注释和221,247个时间伪造段标签)。本文报告了Forgerynet-Face Forgery Analysis挑战2021的方法和结果,它采用了伪造的基准。模型评估在私人测试集上执行离线。共有186名参加比赛的参与者,11名队伍提交了有效的提交。我们将分析排名排名的解决方案,并展示一些关于未来工作方向的讨论。
translated by 谷歌翻译
最近的基于学习的图像雨和噪声衰减的繁荣主要是由于精心设计的神经网络架构和大型标记数据集。但是,我们发现当前的图像雨和噪声去除方法导致图像的利用率低。为了减轻对大型标签数据集的依赖,我们提出了基于引入的补丁分析策略的任务驱动的图像雨和噪声(TRNR)。补丁分析策略提供了具有各种空间和统计特性的图像贴片,用于培训,并已被验证以增加图像的利用率。此外,补丁分析策略激励我们考虑学习图像雨和噪声去除任务驱动而不是数据驱动。因此,我们介绍了TRNR的N频率-K射击学习任务。每个N频率-K-Shot学习任务基于包含补丁分析策略采样的NK图像修补的微小数据集。 TRNR使神经网络能够从足够的数据以外的丰富N频率-K射击学习任务中学习。为了验证TRNR的有效性,我们建立了一个浅色多尺度残差网络(MSRESNet),具有约0.9米的参数来学习图像雨量拆卸,并使用简单的RESET与大约1.2M参数配合DNNET进行盲目高斯噪声删除,有一些图像(例如,20.0%的Rain100h培训赛车组)。实验结果表明,TRNR使MSRESNet能够从更少的图像中学到更好的学习。此外,MSRESNet和DNNET利用TRNR获得的性能比大多数最近的深度学习方法在大型标记数据集上受过训练的数据驱动。这些实验结果证实了所提出的TRNR的有效性和优越性。 TRNR的代码将很快公开。
translated by 谷歌翻译
零射门学习(ZSL)旨在通过将语义知识从看见课程转移到看不见者来识别新颖的课程。从不同类别之间共享的属性描述中学到的语义知识,该属性描述是用于本地化代表歧视区域特征的对象属性的强子指数,从而实现了显着的视觉语义交互。尽管基于注意的模型已经尝试学习单个图像中的这种区域特征,但是通常忽略视觉特征的可转换性和辨别性属性定位。在本文中,我们提出了一个属性引导的变压器网络,称为Transzero,以改进视觉特征,并在ZSL中鉴定鉴别的视觉嵌入表示。具体而言,Transzero采用特征增强编码器来缓解想象集和ZSL基准之间的交叉数据集偏压,并通过减少区域特征之间的缠结的相对几何关系来提高视觉特征的可转换性。为了学习地区增强的可视功能,Transzero使用视觉语义解码器来在语义属性信息的指导下本地化与给定图像中的每个属性最相关的图像区域。然后,用于在视觉语义嵌入网络中进行有效的视觉语义交互来实现局部增强的视觉特征和语义向量。广泛的实验表明,Transzero在三个ZSL基准上实现了新的最新状态。该代码可用于:\ url {https://github.com/shiming-chen/transzero}。
translated by 谷歌翻译
结合PersonAs信息允许在对话响应生成中多样化和接触响应。不幸的是,事先作品主要专注于自我的人物,并忽视了合作伙伴角色的价值。此外,在实际应用中,实际伙伴角色的可用性通常不是这种情况。本文试图通过提供一种新颖的框架来解决这些问题,这些框架利用自动合作伙伴角色生成来增强成功的对话一代。我们将强化学习纳入了一个专门设计的批评网络,以获得奖励判断。自动和人类评估的实验结果表明a)我们的框架能够产生相关,信息丰富的合作伙伴角色,甚至与地面真理合作伙伴角色相比。 b)生成的合作伙伴角色增强了后续的响应生成,从而超越了当在推理阶段缺少合作伙伴角色时超越了我们的基线和比较模型。 c)我们的框架在推理期间产生的响应比我们的基线在地面真理合作伙伴角色上的基线更具信息丰富和参与。 d)我们专门设计的批评批评网络有效地加强了我们的框架。最后,我们的框架提供了更好的解释性,并降低了对伙伴角色的外部数据库的需求。
translated by 谷歌翻译
草图和照片之间的巨大领域差距以及高度抽象的草图表示构成了基于草图的图像检索(\下划线{Sbir})的挑战。基于零拍的草图的图像检索(\下划线{ZS-SBIR})更通用,实用,但由于所看到和未遵守的类别之间的额外知识差距,造成更大的挑战。要同时缓解两个间隙,我们提出了一个\ textbf {a} pproaching-and-\ textbf {c}映射\ textbf {net}工作(称为`\ textbf {acnet}''),以共同优化素描到照片合成与图像检索。检索模块引导综合模块生成大量不同的光相似图像,该图像逐渐接近照片域,从而更好地服务于检索模块,而不是以前学习域名不可知的表征和类别 - 无名的共同知识,以概括到未经证明的类别。通过检索引导产生的这些不同的图像可以有效地减轻了高梯度的混凝土类别训练样本的过度装备问题。我们还发现使用基于代理的NormsoftMax丢失是有效的,因为它的集中效果可以稳定我们的联合培训并促进未经看管分类的概括能力。我们的方法简单而且有效,这在两个广泛使用的ZS-SBIR数据集上实现了最先进的性能,并通过大边距超过以前的方法。
translated by 谷歌翻译
主题进化建模近几十年来收到了重大关注。虽然已经提出了各种主题演进模型,但大多数研究都关注单一文件语料库。但是,在实践中,我们可以轻松访问来自多个来源的数据,并且还可以观察它们之间的关系。然后,识别多个文本语料库之间的关系并进一步利用这种关系来提高主题建模。在这项工作中,我们专注于两个文本语料库之间的特殊关系,我们将其定义为“滞后关系”。这种关系表征了一个文本语料库会影响未来在另一个文本语料库中讨论的主题的现象。要发现引导滞后关系,我们提出了一个共同动态的主题模型,并开发了嵌入扩展,以解决大规模文本语料库的建模问题。通过认可的引导关系,可以改善两个文本语料库的相似性,可以改善在两种语料中学习的主题质量。我们使用合成数据进行数值调查联合动态主题建模方法的性能。最后,我们在两个文本语料库上应用拟议的模型,包括统计文件和毕业论文。结果表明,拟议的模型可以很好地认识到两种语料库之间的引导滞后关系,也发现了两种语料库的具体和共享主题模式。
translated by 谷歌翻译