有机搜索包括电子商务公司总流量的很大一部分。扩大公司在有机搜索渠道上接触的一种方法是创建对客户意图的覆盖范围更广泛的着陆页。在本文中,我们提出了一个基于变压器语言模型的有机渠道页面管理系统,旨在提高公司对渠道的总体点击的突出性。我们的系统成功地处理了数百万个新登陆页面的创建和部署过程。我们展示并讨论了最先进的语言表示方法的现实表现,并揭示了我们如何将它们视为最佳的解决方案。
translated by 谷歌翻译
安全与其他交通参与者的互动是自动驾驶的核心要求之一,尤其是在交叉点和遮挡中。大多数现有的方法都是为特定场景设计的,需要大量的人工劳动参数调整,以应用于不同情况。为了解决这个问题,我们首先提出了一个基于学习的交互点模型(IPM),该模型描述了代理与保护时间和交互优先级之间的相互作用以统一的方式。我们将提出的IPM进一步整合到一个新颖的计划框架中,通过在高度动态的环境中的全面模拟来证明其有效性和鲁棒性。
translated by 谷歌翻译
尽管变形金刚及其变体构象体在语音识别方面表现出了有希望的表现,但参数化的属性在训练和推理过程中导致了很大的记忆成本。一些作品使用跨层重量分享来减少模型的参数。但是,不可避免的能力损失会损害模型性能。为了解决这个问题,本文提出了通过共享稀疏门控专家的参数效率构象异构体。具体而言,我们使用稀疏门控的专家(MOE)来扩展构型块的容量而不增加计算。然后,共享分组构象块的参数,以减少参数的数量。接下来,为了确保具有不同级别适应表示的灵活性的共享块,我们会单独设计MOE路由器和标准化。此外,我们使用知识蒸馏来进一步提高性能。实验结果表明,与全参数模型相比,所提出的模型用编码器的1/3来实现竞争性能。
translated by 谷歌翻译
神经网络(NNS)和决策树(DTS)都是机器学习的流行模型,但具有相互排斥的优势和局限性。为了带来两个世界中的最好,提出了各种方法来明确或隐式地集成NN和DTS。在这项调查中,这些方法是在我们称为神经树(NTS)的学校中组织的。这项调查旨在对NTS进行全面审查,并尝试确定它们如何增强模型的解释性。我们首先提出了NTS的彻底分类学,该分类法表达了NNS和DTS的逐步整合和共同进化。之后,我们根据NTS的解释性和绩效分析,并建议解决其余挑战的可能解决方案。最后,这项调查以讨论有条件计算和向该领域的有希望的方向进行讨论结束。该调查中审查的论文列表及其相应的代码可在以下网址获得:https://github.com/zju-vipa/awesome-neural-trees
translated by 谷歌翻译
原型零件网络(Protopnet)引起了广泛的关注,并增加了许多随访研究,因为它的自我解释特性可解释人工智能(XAI)。但是,当直接在视觉变压器(VIT)骨架上应用原始网络时,学到的原型存在“分心”问题:它们具有相对较高的可能性,即被背景激活,并且对前景的关注较少。建模长期依赖性的强大能力使得基于变压器的Protopnet难以专注于原型部分,从而严重损害了其固有的解释性。本文提出了原型零件变压器(ProtoPformer),以适当有效地应用基于原型的方法,并使用VIT进行可解释的图像识别。提出的方法介绍了根据VIT的建筑特征捕获和突出目标的代表性整体和部分特征的全局和局部原型。采用了全球原型,以提供对象的全球视图,以指导本地原型集中在前景上,同时消除背景的影响。之后,明确监督局部原型,以专注于它们各自的原型视觉部分,从而提高整体可解释性。广泛的实验表明,我们提出的全球和本地原型可以相互纠正并共同做出最终决策,这些决策分别忠实,透明地从整体和地方的角度缔合过程。此外,ProtoPformer始终取得优于基于原型的原型基线(SOTA)的卓越性能和可视化结果。我们的代码已在https://github.com/zju-vipa/protopformer上发布。
translated by 谷歌翻译
只有单个目标扬声器的语音供参考的单发语音转换(VC)已成为一个热门研究主题。现有作品通常会散布音色,而有关音高,节奏和内容的信息仍然混合在一起。为了进一步删除这些语音组件,有效地执行一声VC,我们采用随机重新采样用于音高和内容编码器,并使用互信息的各种对比对数比率上限和基于梯度反向层的对抗性相互信息学习来确保不同部分在训练过程中仅包含所需的分离表示的潜在空间。 VCTK数据集的实验显示该模型就自然性和智能性方面实现了一声VC的最新性能。此外,我们可以通过语音表示分离分别传递音色,音调和节奏的单发VC的特征。我们的代码,预训练的模型和演示可在https://im1eon.github.io/is2022-Srdvc/上获得。
translated by 谷歌翻译
尽管已经提出了许多方法来增强对抗性扰动的可转移性,但这些方法是以启发式方式设计的,并且尚不清楚改善对抗性转移性的基本机制。本文总结了在统一视图中以十二个以前的可传递性提高方法共享的共同机制,即这些方法都减少了区域对抗性扰动之间的游戏理论相互作用。为此,我们专注于区域对抗扰动之间所有相互作用的攻击效用,我们首先发现并证明了对抗传递性与相互作用的攻击效用之间的负相关性。基于这一发现,我们从理论上证明并从经验上验证了十二种以前的可传递性提高方法均减少了区域对抗扰动之间的相互作用。更重要的是,我们将相互作用的减少视为增强对抗性转移性的基本原因。此外,我们设计了交互损失,以直接惩罚攻击过程中区域对抗扰动之间的相互作用。实验结果表明,相互作用损失显着提高了对抗扰动的转移性。
translated by 谷歌翻译
通用事件边界检测(GEBD)任务旨在检测通用的,无分类的事件边界,将整个视频分为块。在本文中,我们应用蒙版的自动编码器来提高GEBD任务上的算法性能。我们的方法主要采用了对GEBD任务进行微调的蒙面自动编码器的合奏,并将其作为其他基本模型的自我监督的学习者。此外,我们还使用半监督的伪标签方法来充分利用训练时丰富的未标记动力学-400数据。此外,我们提出了一种软标签方法,以部分平衡正面和负样本,并减轻此任务中模棱两可的标记问题。最后,实施了一个棘手的分割对准策略,以完善我们的模型预测到更准确的位置的边界。通过我们的方法,我们在动力学-GEBD测试集上的F1得分上获得了85.94%的成绩,与2021 Kinetics-GEBD挑战的获胜者相比,F1得分提高了2.31%。我们的代码可从https://github.com/contentandmaterialportortait/mae-gebd获得。
translated by 谷歌翻译
人员搜索旨在共同本地化和识别来自自然的查询人员,不可用的图像,这在过去几年中在计算机视觉社区中积极研究了这一图像。在本文中,我们将在全球和本地围绕目标人群的丰富的上下文信息中阐述,我们分别指的是场景和组上下文。与以前的作品单独处理这两种类型的作品,我们将它们利用统一的全球本地上下文网络(GLCNet),其具有直观的功能增强。具体地,以多级方式同时增强重新ID嵌入和上下文特征,最终导致人员搜索增强,辨别特征。我们对两个人搜索基准(即Cuhk-Sysu和PRW)进行实验,并将我们的方法扩展到更具有挑战性的环境(即,在MovieIenet上的字符搜索)。广泛的实验结果表明,在三个数据集上的最先进方法中提出的GLCNET的一致性改进。我们的源代码,预先训练的型号,以及字符搜索的新设置可以:https://github.com/zhengpeng7/llcnet。
translated by 谷歌翻译
知识蒸馏(KD)最近被出现为将学生预先接受教师模型转移到轻量级学生的知识的强大战略,并在广泛的应用方面表现出了前所未有的成功。尽管结果令人鼓舞的结果,但KD流程本身对网络所有权保护构成了潜在的威胁,因为网络中包含的知识可以毫不费力地蒸馏,因此暴露于恶意用户。在本文中,我们提出了一种新颖的框架,称为安全蒸馏盒(SDB),允许我们将预先训练的模型包装在虚拟盒中用于知识产权保护。具体地,SDB将包装模型的推理能力保留给所有用户,但从未经授权的用户中排除KD。另一方面,对于授权用户,SDB执行知识增强方案,以加强KD性能和学生模型的结果。换句话说,所有用户都可以在SDB中使用模型进行推断,但只有授权用户只能从模型中访问KD。所提出的SDB对模型架构不对限制,并且可以易于作为即插即用解决方案,以保护预先训练的网络的所有权。各个数据集和架构的实验表明,对于SDB,未经授权的KD的性能显着下降,而授权的销量会增强,展示SDB的有效性。
translated by 谷歌翻译