The security of artificial intelligence (AI) is an important research area towards safe, reliable, and trustworthy AI systems. To accelerate the research on AI security, the Artificial Intelligence Security Competition (AISC) was organized by the Zhongguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, and RealAI as part of the Zhongguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en). The competition consists of three tracks, including Deepfake Security Competition, Autonomous Driving Security Competition, and Face Recognition Security Competition. This report will introduce the competition rules of these three tracks and the solutions of top-ranking teams in each track.
translated by 谷歌翻译
从观察数据中恢复基本的定向无环形结构(DAG),由于DAG受限的优化问题的组合性质,因此极具挑战性。最近,通过将DAG约束将DAG的限制定义为平滑的平等性,通常基于邻接矩阵上的多项式,将DAG学习作为连续优化问题。现有方法将非常小的系数放在高阶多项式术语上以进行稳定,因为它们认为由于数字爆炸而导致高阶项上的大系数有害。相反,我们发现,高阶术语上的大系数对DAG学习有益,当邻接矩阵的光谱辐射小时,高阶术语的较大系数可以比小尺寸近似于小的限制。同行。基于此,我们提出了一种具有有效截短的矩阵功率迭代的新型DAG学习方法,以近似于基于几何序列的DAG约束。从经验上讲,我们的DAG学习方法在各种环境中的表现优于先前的最新方法,在结构锤距离上通常以3倍或以上的倍数。
translated by 谷歌翻译
多源域适应(MSDA)学会了预测目标域数据中的标签,在标记来自多个源域的所有数据并且来自目标域的所有数据的设置下。为了解决这个问题,大多数方法都集中在跨域中学习不变表示。但是,他们的成功严重依赖于标签分布在跨域保持不变的假设。为了减轻它,我们提出了一个新的假设,潜在的协变量移位,其中潜在内容变量的边际分布跨域变化,并且给定标签的条件分布在跨域之间保持不变。我们引入了一个潜在样式变量,以补充潜在因果图作为数据和标签生成过程的潜在内容变量。我们表明,尽管潜在样式变量由于潜在空间中的传输性能而无法识别,但在某些温和条件下,可以将潜在内容变量识别为简单缩放。这激发了我们为MSDA提出一种新颖的方法,该方法在潜在内容变量上学习了不变标签的分布,而不是学习不变表示。与基于不变表示的许多最新方法相比,对模拟和真实数据的经验评估证明了该方法的有效性。
translated by 谷歌翻译
因果代表学习揭示了低级观察背后的潜在高级因果变量,这对于一组感兴趣的下游任务具有巨大的潜力。尽管如此,从观察到的数据中确定真正的潜在因果表示是一个巨大的挑战。在这项工作中,我们专注于确定潜在的因果变量。为此,我们分析了潜在空间中的三个固有特性,包括传递性,置换和缩放。我们表明,传递性严重阻碍了潜在因果变量的可识别性,而排列和缩放指导指导了识别潜在因果变量的方向。为了打破传递性,我们假设潜在的潜在因果关系是线性高斯模型,其中高斯噪声的权重,平均值和方差受到额外观察到的变量的调节。在这些假设下,我们从理论上表明,潜在因果变量可以识别为微不足道的置换和缩放。基于这个理论结果,我们提出了一种新型方法,称为结构性因果变异自动编码器,该方法直接学习潜在因果变量,以及从潜在因果变量到观察到的映射。关于合成和实际数据的实验结果证明了可识别的结果以及所提出的学习潜在因果变量的能力。
translated by 谷歌翻译
稀疏奖励学习通常在加强学习(RL)方面效率低下。 Hindsight Experience重播(她)已显示出一种有效的解决方案,可以处理低样本效率,这是由于目标重新标记而导致的稀疏奖励效率。但是,她仍然有一个隐含的虚拟阳性稀疏奖励问题,这是由于实现目标而引起的,尤其是对于机器人操纵任务而言。为了解决这个问题,我们提出了一种新型的无模型连续RL算法,称为Relay-HER(RHER)。提出的方法首先分解并重新布置原始的长马任务,以增量复杂性为新的子任务。随后,多任务网络旨在以复杂性的上升顺序学习子任务。为了解决虚拟阳性的稀疏奖励问题,我们提出了一种随机混合的探索策略(RME),在该策略中,在复杂性较低的人的指导下,较高复杂性的子任务的实现目标很快就会改变。实验结果表明,在五个典型的机器人操纵任务中,与香草盖相比,RHER样品效率的显着提高,包括Push,Pickandplace,抽屉,插入物和InstaclePush。提出的RHER方法还应用于从头开始的物理机器人上的接触式推送任务,成功率仅使用250集达到10/10。
translated by 谷歌翻译
最近已经为医疗图像分割任务创建了许多医疗数据集,并且自然质疑我们是否可以使用它们来依次训练(1)在所有这些数据集中表现更好的单个模型,并且(2)良好的概括和传输更好到未知的目标站点域。先前的工作通过在多站点数据集上共同训练一个模型来实现这一目标,该模型平均实现了竞争性能,但是这种方法依赖于所有培训数据的可用性的假设,从而限制了其在实际部署中的有效性。在本文中,我们提出了一个称为增量转移学习(ITL)的新型多站点分割框架,该框架以端到端的顺序方式从多站点数据集中学习模型。具体而言,“增量”是指顺序构建的数据集,而“转移”是通过利用每个数据集上嵌入功能的线性组合的有用信息来实现的。此外,我们介绍了ITL框架,在该框架中,我们在其中训练网络,包括具有预先训练的权重和最多两个分段解码器头的站点不合时宜的编码器。我们还设计了一种新型的站点级增量损失,以便在目标域上良好地概括。其次,我们首次表明利用我们的ITL培训计划能够减轻富有灾难性的遗忘问题,从而在渐进学习中遇到了挑战。我们使用五个具有挑战性的基准数据集进行实验,以验证我们的增量转移学习方法的有效性。我们的方法对计算资源和特定于领域的专业知识的假设最少,因此构成了多站点医学图像细分的强大起点。
translated by 谷歌翻译
视频的行动识别,即将视频分类为预定义的动作类型之一,一直是人工智能,多媒体和信号处理社区中的一个流行话题。但是,现有方法通常考虑一个整体上的输入视频并学习模型,例如卷积神经网络(CNNS),并带有粗糙的视频级别类标签。这些方法只能为视频输出一个动作类,但不能提供可解释的线索来回答为什么视频显示特定的动作。因此,研究人员开始专注于一项新任务,部分级别的动作解析(PAP),该作用不仅旨在预测视频级别的动作,而且还要认识到每个人的框架级别的细粒度的动作或身体部位的相互作用在视频中。为此,我们为这项具有挑战性的任务提出了一个粗到精细的框架。特别是,我们的框架首先预测输入视频的视频级别类别,然后将身体部位定位并预测零件级别的动作。此外,为了平衡部分级别的动作解析的准确性和计算,我们建议通过段级特征识别零件级的操作。此外,为了克服身体部位的歧义,我们提出了一种姿势引导的位置嵌入方法来准确地定位身体部位。通过在大规模数据集(即动力学TPS)上进行的全面实验,我们的框架可以实现最先进的性能,并且超过31.10%的ROC得分的现有方法。
translated by 谷歌翻译
实现通用语言情报是自然语言处理的长期目标,标准评估基准发挥基本和指导作用。我们认为,对于通用语言智能评估,基准本身需要全面和系统。为此,我们提出了Cuge,一种中文语言理解和生成评估基准,具有以下特征:(1)分层基准框架,其中数据集主要选择和组织语言能力 - 任务数据集层次结构。 (2)多级评分策略,其中基于分层框架提供了不同级别的模型性能。为了促进CUGE,我们提供了一个公共排行榜,可以自定义,以支持灵活的模型判断标准。代表性预先训练的语言模型的评估结果表明了对通用语言智能的完善的充足空间。 Cuge在Cuge.baai.ac.cn上公开提供。
translated by 谷歌翻译
在许多数据域中,关于对象的关节外观的共同发生统计是有源地信息的。通过将无监督的学习问题转换成共同发生统计的分解,光谱算法为后验题分析和社区检测提供透明和有效的算法。然而,由于对象词汇表生长,存储和运行应对统计数据的推理算法迅速更昂贵。整改共同发生,秉承模型假设的关键过程在罕见术语存在下变得越来越重要,但目前的技术不能扩展到大号词汇。我们提出了新的方法,即同时压缩和纠正共发生统计,优雅地缩放词汇量和潜在空间的维度。我们还提出了从压缩统计数据的新算法学习潜在变量,并验证了我们的方法是否相当于文本和非文本数据的先前方法。
translated by 谷歌翻译
背景噪声和规模变化是人群计数中长期以来已经认识到的常见问题。人类瞥见人群的形象,立即知道人类的大概数量,以及他们通过关注的人群地区和人群地区的拥塞程度,并具有全球接收领域。因此,在本文中,我们通过对人类自上而下的视觉感知机制进行建模,提出了一个具有称为RANET的区域感知块的新型反馈网络。首先,我们介绍了一个反馈体系结构,以生成优先级地图,这些图提供了输入图像中候选人人群区域的先验。先验使Ranet更加关注人群地区。然后,我们设计了可以通过全局接受字段自适应地将上下文信息编码为输入图像的区域感知块。更具体地说,我们以列向量的形式扫描整个输入图像及其优先级图,以获得相关矩阵估计其相似性。获得的相关矩阵将用于建立像素之间的全球关系。我们的方法在几个公共数据集上优于最先进的人群计数方法。
translated by 谷歌翻译