广义零射门学习(GZSL)是有希望在许多实际场景前景具有挑战性的课题。使用门控机构,其判别从看出样品看不见的样品可以分解GZSL问题常规的零铅球学习(ZSL)问题和监督分类问题。然而,培养的栅极通常是由于具有挑战性在看不见的域中的数据缺乏。要解决这个问题,在本文中,我们提出了一种基于外的分布(OOD)分类器只使用看过样本训练分类看不见,看到域的边界。首先,我们学上的单位超球,其中的视觉特征和语义属性潜分布对准类明智地共享潜在空间。随后,我们发现边界和歧管每个类的中心。通过利用类中心和边界,看不见的样品可以从样品可见分开。在那之后,我们使用了两个专家来看到和看不见的样本分别进行分类。我们广泛验证我们的五个流行的基准数据集,包括AWA1,AWA2,CUB,FLO和SUN的做法。实验结果表明,我们对国家的最先进的方法,方法的优点。
translated by 谷歌翻译
轨迹预测是自动车辆(AVS)执行安全规划和导航的关键组件。然而,很少有研究分析了轨迹预测的对抗性稳健性,或者调查了最坏情况的预测是否仍然可以导致安全规划。为了弥合这种差距,我们通过提出普通车辆轨迹来最大化预测误差来研究轨迹预测模型的对抗鲁棒性。我们在三个模型和三个数据集上的实验表明,对手预测将预测误差增加超过150%。我们的案例研究表明,如果对手在对手轨迹之后驱动靠近目标AV的车辆,则AV可以进行不准确的预测,甚至不安全的驾驶决策。我们还通过数据增强和轨迹平滑探索可能的缓解技术。
translated by 谷歌翻译
视频理解需要在多种时空分辨率下推理 - 从短的细粒度动作到更长的持续时间。虽然变压器架构最近提出了最先进的,但它们没有明确建模不同的时空分辨率。为此,我们为视频识别(MTV)提供了多视图变压器。我们的模型由单独的编码器组成,表示输入视频的不同视图,以横向连接,以跨视图熔断信息。我们对我们的模型提供了彻底的消融研究,并表明MTV在一系列模型尺寸范围内的准确性和计算成本方面始终如一地表现优于单视对应力。此外,我们在五个标准数据集上实现最先进的结果,并通过大规模预制来进一步提高。我们将释放代码和备用检查点。
translated by 谷歌翻译
有效的模型选择,用于向下游任务识别合适的预先训练的神经网络是深度学习中的基本但具有挑战性的任务。目前的实践需要昂贵的计算成本在模型训练中进行性能预测。在本文中,我们通过在训练期间分析突触连接(边缘)的控制动态来提出一个新颖的神经网络选择框架。我们的框架是基于神经网络培训期间的回波传播相当于突触连接的动态演变。因此,融合的神经网络与由那些边缘组成的网络系统的平衡状态相关联。为此,我们构建一个网络映射$ \ phi $,将神经网络$ g_a $转换为定向行图$ g_b $,它在$ g_a $中定义。接下来,我们推导出神经电容度量标准$ \ beta _ {\ rm upf} $普遍捕获下游任务上的预测措施,仅使用少数早期训练结果。我们使用17个流行的预先训练的Imagenet模型和五个基准数据集进行了广泛的实验,包括CiFar10,CiFar100,SVHN,时尚Mnist和鸟类,以评估我们框架的微调性能。我们的神经电容度量显示为仅基于早期训练结果的模型选择的强大指标,比最先进的方法更有效。
translated by 谷歌翻译
学习者语料库收集L2学习者产生的语言数据,即第二或外语学习者。这种资源与第二语言采集研究,外语教学和自动语法纠错有关。但是,几乎没有焦点汉语作为外语(CFL)学习者的学习者语料库。因此,我们建议构建大规模的多维注释的中国学习者语料库。要构建语料库,我们首先获得CFL学习者生成的大量富有的富主题文本。然后我们设计一个注释方案,包括句子可接受性得分以及语法错误和基于流畅的校正。我们构建一个众群平台,有效地执行注释(https://yaclc.wenmind.net)。我们命名语料库yaclc(又一个中国学习者语料库)并将其释放为Cuge基准(http://cuge.baai.ac.cn)。通过分析语料库中的原始句子和注释,我们发现Yaclc具有相当大的尺寸和非常高的注释质量。我们希望这项语料库能够进一步加强中国国际教育和中国自动语法纠错的研究。
translated by 谷歌翻译
如今,在人员重新识别(Reid)任务的真实数据面临隐私问题,例如,禁止DataSet Dukemtmc-Reid。因此,收集Reid任务的真实数据变得更难。同时,标签的劳动力成本仍然很高,进一步阻碍了Reid研究的发展。因此,许多方法转向为REID算法生成合成图像作为替代方而不是真实图像。然而,合成和真实图像之间存在不可避免的领域差距。在以前的方法中,生成过程基于虚拟场景,并且无法根据不同的目标实际场景自动更改其合成训练数据。为了处理这个问题,我们提出了一种新颖的目标感知一代管道,以产生称为Tagerson的合成人物图像。具体地,它涉及参数化渲染方法,其中参数是可控的,并且可以根据目标场景调整。在Tagperson中,我们从目标场景中提取信息,并使用它们来控制我们的参数化渲染过程以生成目标感知的合成图像,这将使目标域中的实图像保持较小的间隙。在我们的实验中,我们的目标感知的合成图像可以实现比MSMT17上的广义合成图像更高的性能,即秩1精度的47.5%与40.9%。我们将发布此工具包\脚注{\ noindent代码可用于\ href {https://github.com/tagperson/tagperson-blender} {https://github.com/tagperson/tagperson -brender}}为Reid社区以任何所需味道产生合成图像。
translated by 谷歌翻译
通过各种面部操作技术产生,由于安全问题,面部伪造检测引起了不断的关注。以前的作品总是根据交叉熵损失将面部伪造检测作为分类问题,这强调了类别级别差异,而不是真实和假面之间的基本差异,限制了看不见的域中的模型概括。为了解决这个问题,我们提出了一种新颖的面部伪造检测框架,名为双重对比学习(DCL),其特殊地构建了正负配对数据,并在不同粒度下进行了设计的对比学习,以学习广义特征表示。具体地,结合硬样品选择策略,首先提出通过特别构造实例对来促进与之相关的鉴别特征学习的任务相关的对比学习策略。此外,为了进一步探索基本的差异,引入内部内部对比学习(INL-ICL),以通过构建内部实例构建局部区域对来关注伪造的面中普遍存在的局部内容不一致。在若干数据集上的广泛实验和可视化证明了我们对最先进的竞争对手的方法的概括。
translated by 谷歌翻译
预先接受的语言模型实现了最先进的导致各种自然语言处理(NLP)任务。 GPT-3表明,缩放预先训练的语言模型可以进一步利用它们的巨大潜力。最近提出了一个名为Ernie 3.0的统一框架,以预先培训大型知识增强型号,并培训了具有10亿参数的模型。 Ernie 3.0在各种NLP任务上表现出最先进的模型。为了探讨缩放的表现,我们培养了百卢比的3.0泰坦参数型号,在PaddlePaddle平台上有高达260亿参数的泰坦。此外,我们设计了一种自我监督的对抗性损失和可控语言建模损失,以使ERNIE 3.0 TITAN产生可信和可控的文本。为了减少计算开销和碳排放,我们向Ernie 3.0泰坦提出了一个在线蒸馏框架,教师模型将同时教授学生和培训。埃塞尼3.0泰坦是迄今为止最大的中国密集预训练模型。经验结果表明,Ernie 3.0泰坦在68个NLP数据集中优于最先进的模型。
translated by 谷歌翻译
在隐性反馈推荐中,将短期偏好纳入推荐系统近年来引起了不断的关注。但是,在历史交互中的意外行为,如偶然点击一些物品,也不能反映用户固有的偏好。现有研究未能模拟意外行为的影响,从而实现劣等的推荐性能。在本文中,我们提出了一种多偏好模型(MPM)来消除意外行为的影响。 MPM首先通过细粒度的偏好模块从最近的历史交互中提取用户的即时偏好。然后,培训意外行为检测器以判断这些即时偏好是否由意外行为偏置。我们还将用户的一般偏好集成在MPM中。最后,执行输出模块以消除意外行为的影响,并集成所有信息以进行最终推荐。我们在电影的两个数据集和电子零售中进行广泛的实验,展示了我们在最先进的方法上的模型的显着改进。实验结果表明,MPM在HR @ 10和NDCG @ 10中获得了大规模的改善,平均与斯trec模型相比相对增加了3.643%和4.107%。我们在https://github.com/chenjie04/mpm/发布我们的代码。
translated by 谷歌翻译
深度神经网络(DNN)已显示在许多现实生活中提供极好的性能,但它们的大量计算成本和存储要求已阻止它们部署到许多边缘和内部内容(IOT)设备。稀疏的深神经网络,其大多数重量参数是零,可以大大降低模型的计算复杂性和存储器消耗。在实际使用场景中,设备可能遭受不同环境下的可用计算和存储器资源的大波动,并且由于具有大延迟的长尾延长而难以维持服务质量(QoS)。面对现实生活挑战,我们建议培训支持多个稀疏水平的稀疏模型。也就是说,满足权重的分层结构,使得较少稀疏子模型的较少稀疏子模型区域子集的位置和非零参数的位置。以这种方式,可以在推理期间动态地选择适当的稀疏度水平,而存储成本被最小稀疏子模型覆盖。我们已经在各种DNN模型和任务中验证了我们的方法,包括Reset-50,PointNet ++,GNMT和图表注意网络。我们获得稀疏的子模型,平均重量为13.38%,拖鞋14.97%,而准确性也与他们的密集对应物一样好。具有5.38%权重和4.47%的更稀疏的子模型,跨越少量稀疏的跨,只能获得3.25%的相对精度损耗。
translated by 谷歌翻译