在这项工作中,我们提出了一个新的和一般的框架来防御后门攻击,灵感来自攻击触发器通常遵循\ textsc {特定}类型的攻击模式,因此,中毒训练示例在彼此期间对彼此产生更大的影响训练。我们介绍了{\ IT影响图}的概念,它包括分别代表各个训练点和相关的对方式的节点和边缘组成。一对训练点之间的影响代表了去除一个训练点对另一个训练点的影响,由影响函数\ citep {koh2017understanding}近似。通过查找特定大小的最大平均子图来提取恶意训练点。关于计算机视觉和自然语言处理任务的广泛实验证明了所提出的框架的有效性和一般性。
translated by 谷歌翻译
基于变压器的监督预培训在重新识别(REID)中实现了良好的性能。但是,由于想象成和Reid数据集之间的域间隙,它通常需要更大的预训练数据集(例如,ImageNet-21k),以提高性能,因为变压器的强大数据拟合能力。为了解决这一挑战,这项工作可以分别从数据和模型结构的角度降低预训练和REID数据集之间的差距。我们首先调查在未标记的人物图像(Luperson DataSet)上的视觉变压器(VIV)的自我监督为了进一步降低域间隙并加速预训练,提出了灾难性的遗忘得分(CFS)来评估预训练和微调数据之间的差距。基于CFS,通过采样靠近下游REID数据的相关数据来选择一个子集,并从预训练的数据集中过滤无关数据。对于模型结构,提出了一种名为基于IBN的卷积词条(ICS)的特定于REID的模块来通过学习更不变的功能来弥合域间隙。已经进行了广泛的实验,以微调在监督学习,无监督域适应(UDA)和无监督的学习(USL)设置下进行预训练模型。我们成功将Luperson DataSet缩小为50%,没有性能下降。最后,我们在市场-1501和MSMT17上实现了最先进的表现。例如,我们的VIT-S / 16在Market1501上实现了91.3%/ 89.9%/ 89.6%用于监督/ UDA / USL REID的11501。代码和模型将发布到https://github.com/michuanhaohao/transreid -sl。
translated by 谷歌翻译
在复杂的协调问题中,深层合作多智能经纪增强学习(Marl)的高效探索仍然依然存在挑战。在本文中,我们介绍了一种具有奇妙驱动的探索的新型情节多功能钢筋学习,称为EMC。我们利用对流行分解的MARL算法的洞察力“诱导的”个体Q值,即用于本地执行的单个实用程序功能,是本地动作观察历史的嵌入,并且可以捕获因奖励而捕获代理之间的相互作用在集中培训期间的反向化。因此,我们使用单独的Q值的预测误差作为协调勘探的内在奖励,利用集肠内存来利用探索的信息经验来提高政策培训。随着代理商的个人Q值函数的动态捕获了国家的新颖性和其他代理人的影响,我们的内在奖励可以促使对新或有前途的国家的协调探索。我们通过教学实例说明了我们的方法的优势,并展示了在星际争霸II微互动基准中挑战任务的最先进的MARL基础上的其显着优势。
translated by 谷歌翻译
建议图表神经网络(GNNS)在不考虑训练和测试图之间的不可知分布的情况下,诱导GNN的泛化能力退化在分布外(OOD)设置。这种退化的根本原因是大多数GNN是基于I.I.D假设开发的。在这种设置中,GNN倾向于利用在培训中存在的微妙统计相关性用于预测,即使它是杂散的相关性。然而,这种杂散的相关性可能在测试环境中改变,导致GNN的失败。因此,消除了杂散相关的影响对于稳定的GNN来说是至关重要的。为此,我们提出了一个普遍的因果代表框架,称为稳定凝球。主要思想是首先从图数据中提取高级表示,并诉诸因因果推理的显着能力,以帮助模型摆脱虚假相关性。特别是,我们利用图形池化层以提取基于子图的表示作为高级表示。此外,我们提出了一种因果变量区别,以纠正偏置训练分布。因此,GNN将更多地集中在稳定的相关性上。对合成和现实世界ood图数据集的广泛实验良好地验证了所提出的框架的有效性,灵活性和可解释性。
translated by 谷歌翻译
最近,随着重建规范3D表示的发展,类别级别的6D对象姿态估计已经取得了显着的改进。然而,现有方法的重建质量仍远非优秀。在本文中,我们提出了一种名为ACR-POSE的新型对抗性规范代表性重建网络。 ACR-POSE由重建器和鉴别器组成。重建器主要由两种新型子模块组成:姿势 - 无关模块(PIM)和关系重建模块(RRM)。 PIM倾向于学习Canonical相关的功能,使重建者对旋转和翻译不敏感,而RRM探讨不同输入模态之间的基本关系信息以产生高质量功能。随后,采用鉴别器来指导重建器以产生现实的规范表示。重构和鉴别者学会通过对抗性培训进行优化。普遍的NOCS相机和NOCS实际数据集的实验结果表明,我们的方法实现了最先进的性能。
translated by 谷歌翻译
我们介绍了一个开源深学习库的Pytorchvideo,为各种视频理解任务提供了丰富的模块化,高效,可重复的组件,包括分类,检测,自我监督学习和低级处理。该库涵盖了一系列视频理解工具,包括复制最先进的性能的多模式数据加载,转换和模型。Pytorchvideo进一步支持硬件加速,从而实现移动设备上的实时推断。图书馆基于Pytorch,可以由任何培训框架使用;例如,pytorchlightning,pyslowfast或优雅的愿景。pytorchvideo在https://pytorchvideo.org/提供
translated by 谷歌翻译
机器学习在虚拟筛选中显示出巨大的潜力,用于药物发现。目前正在加速基于对接的虚拟筛选的努力不考虑使用其他先前开发的目标的现有数据。为了利用其他目标的知识并利用现有数据,在这项工作中,我们将多任务学习应用于基于对接的虚拟筛选问题。通过两个大型对接数据集,广泛实验结果表明,多任务学习可以实现对接分数预测的更好性能。通过在多个目标上学习知识,由多任务学习训练的模型显示了适应新目标的更好能力。额外的实证研究表明,药物发现中的其他问题,例如实验药物 - 目标亲和预测,也可能受益于多任务学习。我们的结果表明,多任务学习是基于对接的虚拟筛选和加速药物发现过程的有前途的机器学习方法。
translated by 谷歌翻译
人工智能(AI)为简化Covid-19诊断提供了有前景的替代。然而,涉及周围的安全和可信度的担忧阻碍了大规模代表性的医学数据,对临床实践中训练广泛的模型造成了相当大的挑战。为了解决这个问题,我们启动了统一的CT-Covid AI诊断计划(UCADI),其中AI模型可以在没有数据共享的联合学习框架(FL)下在每个主机机构下分发和独立地在没有数据共享的情况下在每个主机机构上执行。在这里,我们认为我们的FL模型通过大的产量(中国测试敏感性/特异性:0.973 / 0.951,英国:0.730 / 0.942),与专业放射科医师的面板实现可比性表现。我们进一步评估了持有的模型(从另外两家医院收集,留出FL)和异构(用造影材料获取)数据,提供了模型所做的决策的视觉解释,并分析了模型之间的权衡联邦培训过程中的性能和沟通成本。我们的研究基于来自位于中国和英国的23家医院的3,336名患者的9,573次胸部计算断层扫描扫描(CTS)。统称,我们的工作提出了利用联邦学习的潜在保留了数字健康的前景。
translated by 谷歌翻译
帕金森病(PD)的语音识别是其诊断的有效途径,近年来已成为一个炎热和困难的研究区。众所周知,一个主题中有大型语料库(段)。但是,太大的段会增加分类模型的复杂性。此外,临床医生有兴趣找到反映整个主题病理的诊断语音标记。由于每个语音样本段的最佳相关特征是不同的,因此难以找到均匀的诊断标记。因此,有必要将一个受试者内的现有的大段重构为几个段中的几个段,其可以促进相关语音特征的提取,以表征整个主题的诊断标记。为了解决这个问题,本文提出了一种基于多层模糊C均值(MLFCM)聚类和层间一致性保存的帕金森科目的封闭深音样本学习算法。该算法可用于实现帕金森病(PD)的对象内部样品重建,以获得少量的高质量原型样品段。在纸张结束时,分别选择了几个代表性的PD语音数据集,并将其与最先进的相关方法进行比较。实验结果表明,该算法有效地意识到。
translated by 谷歌翻译
视觉问题应答(VQA)任务利用视觉图像和语言分析来回回答图像的文本问题。它是一个流行的研究课题,在过去十年中越来越多的现实应用。本文介绍了我们最近对AliceMind-MMU的研究(阿里巴巴的编码器 - 解码器来自Damo Academy - 多媒体理解的机器智能实验室),其比人类在VQA上获得相似甚至略微更好的结果。这是通过系统地改善VQA流水线来实现的,包括:(1)具有全面的视觉和文本特征表示的预培训; (2)与学习参加的有效跨模型互动; (3)一个新颖的知识挖掘框架,具有专门的专业专家模块,适用于复杂的VQA任务。处理不同类型的视觉问题,需要具有相应的专业知识在提高我们的VQA架构的表现方面发挥着重要作用,这取决于人力水平。进行了广泛的实验和分析,以证明新的研究工作的有效性。
translated by 谷歌翻译