推荐系统(RS)是一个重要的在线应用程序,每天都会影响数十亿个用户。主流RS排名框架由两个部分组成:多任务学习模型(MTL),该模型可预测各种用户反馈,即点击,喜欢,分享和多任务融合模型(MTF),该模型(MTF)结合了多任务就用户满意度而言,输出分为最终排名得分。关于融合模型的研究并不多,尽管它对最终建议作为排名的最后一个关键过程有很大的影响。为了优化长期用户满意度,而不是贪婪地获得即时回报,我们将MTF任务作为Markov决策过程(MDP),并在推荐会话中提出,并建议基于批处理加固学习(RL)基于多任务融合框架(BATCHRL-MTF)包括批处理RL框架和在线探索。前者利用批处理RL从固定的批处理数据离线学习最佳推荐政策,以达到长期用户满意度,而后者则探索了潜在的高价值动作在线,以突破本地最佳难题。通过对用户行为的全面调查,我们通过从用户粘性和用户活动性的两个方面的微妙启发式方法对用户满意度进行了建模。最后,我们对十亿个样本级别的现实数据集进行了广泛的实验,以显示模型的有效性。我们建议保守的离线政策估计器(保守 - 访问器)来测试我们的模型离线。此外,我们在真实推荐环境中进行在线实验,以比较不同模型的性能。作为成功在MTF任务中应用的少数批次RL研究之一,我们的模型也已部署在一个大规模的工业短视频平台上,为数亿用户提供服务。
translated by 谷歌翻译
基于学习的3D点云注册的任务已经取得了很大的进展,即使在部分到部分匹配方案中,现有方法也在ModelNET40等标准基准上产生未完成的结果。不幸的是,这些方法仍然在实际数据存在下挣扎。在这项工作中,我们确定了这些失败的来源,分析了它们背后的原因,并提出解决它们的解决方案。我们将我们的调查结果总结为一系列准则,并通过将它们应用于不同的基线方法,DCP和IDAM来证明其有效性。简而言之,我们的指导方针改善了它们的培训融合和测试准确性。最终,这转换为最佳实践的3D注册网络(BPNET),构成了一种能够在真实数据中处理先前未经操作的基于学习的方法。尽管仅对合成数据进行培训,但我们的模型将推广到实际数据,而无需任何微调,达到使用商业传感器获得的看不见物体的点云达到高达67%的准确性。
translated by 谷歌翻译
三维荧光显微镜通常遭受各向异性的影响,沿轴向方向的分辨率低于侧面成像平面内的分辨率。我们通过提出双周期来解决此问题,这是双环荧光图像的关节反卷积和融合的新框架。受到最近的神经清性方法的启发,双周期被设计为一种循环一致的生成网络,通过结合双视发电机和先前引导的退化模型,以自我监督的方式训练。我们在合成数据和真实数据上验证双周期,显示其最先进的性能,而无需任何外部培训数据。
translated by 谷歌翻译
现有的广告点击率(CTR)预测模型主要取决于行为ID功能,这些功能是根据历史用户AD交互所学习的。然而,依赖历史用户行为的行为ID功能是不可行的,可以在没有以前与用户互动的情况下描述新广告。为了克服对新广告建模的行为ID特征的局限性,我们利用广告中的视觉内容来提高CTR预测模型的性能。具体来说,我们根据其视觉内容将每个广告映射到一组视觉ID中。这些视觉ID进一步用于生成可视觉嵌入,以增强CTR预测模型。我们将视觉ID的学习分为有监督的量化问题。由于缺乏广告中商业图像的类标签,因此我们利用图像文本描述作为监督,以优化图像提取器以生成有效的视觉ID。同时,由于硬量化是不可差异的,因此我们软化量化操作以使其支持端到端网络培训。将每个图像映射到视觉ID之后,我们根据过去积累的历史用户AD交互学习每个视觉ID的嵌入。由于视觉ID嵌入仅取决于视觉内容,因此它概括为新广告。同时,嵌入视觉ID补充了AD行为ID嵌入。因此,它可以大大提高CTR预测模型的性能,以前依赖于积累了丰富用户行为的新广告和广告的行为ID功能。将视觉ID嵌入在BAIDU在线广告的CTR预测模型中后,AD的平均CTR提高了1.46%,总费用增加了1.10%。
translated by 谷歌翻译
我们提出了一个新型混合动力系统(硬件和软件),该系统载有微型无人接地车辆(MiniUGV),以执行复杂的搜索和操纵任务。该系统利用异质机器人来完成使用单个机器人系统无法完成的任务。它使无人机能够探索一个隐藏的空间,并具有狭窄的开口,Miniugv可以轻松进入并逃脱。假定隐藏的空间可用于MiniUGV。 MiniUGV使用红外(IR)传感器和单眼相机在隐藏空间中搜索对象。所提出的系统利用摄像机的更广阔的视野(FOV)以及对象检测算法的随机性引导隐藏空间中的MiniUGV以找到对象。找到对象后,MiniUGV使用视觉伺服抓住它,然后返回其起点,从无人机将其缩回并将物体运送到安全的地方。如果在隐藏空间中没有发现对象,则无人机继续进行空中搜索。束缚的MiniUGV使无人机具有超出其影响力并执行搜索和操纵任务的能力,而该任务对于任何机器人都无法单独进行。该系统具有广泛的应用,我们通过重复实验证明了其可行性。
translated by 谷歌翻译
本文介绍了Speakin团队提交的SPEAKER验证(SV)系统,该系统针对2022年远场演讲者验证挑战(FFSVC2022)的任务2和任务2。挑战的SV任务集中在完全监督的远场演讲者验证(任务1)和半监督远场扬声器验证(任务2)的问题上。在任务1中,我们将Voxceleb和FFSVC2020数据集用作火车数据集。对于任务2,我们仅将Voxceleb数据集用作火车集。为此挑战开发了基于重新连接和基于REPVGG的架构。全局统计池结构和MQMHA池结构用于跨时间汇总框架级特征,以获得语音级别的表示。我们采用了Am-Softmax和Aam-Softmax来对产生的嵌入进行分类。我们创新提出了一种分阶段的转移学习方法。在训练阶段,我们保留扬声器的权重,并且在此阶段没有积极的样本来训练它们。然后,我们在第二阶段用正面和负样品微调这些权重。与传统的转移学习策略相比,该策略可以更好地改善模型性能。亚均值和标志的后端方法用于解决域不匹配的问题。在融合阶段,任务1中融合了三个模型,并在任务2中融合了两个模型。在FFSVC2022排行榜上,我们提交的EER为3.0049%,在Task1中,相应的MindCF为0.2938。在任务2中,EER和MindCF分别为6.2060%和0.5232。我们的方法可以提高表现出色,并在两项挑战任务中排名第一。
translated by 谷歌翻译
用于机器阅读理解(MRC)的大多数领域适应方法都使用预先训练的问题解答(QA)构造模型来生成用于MRC传输的伪QA对。这样的过程将不可避免地引入不匹配的对(即嘈杂的对应关系),因此由于i)目标文档中不可用的QA对,ii)在将QA构造模型应用于目标域时的域移位。毫无疑问,嘈杂的信件将退化MRC的性能,但是现有作品忽略了MRC的性能。为了解决这样一个未触及的问题,我们建议通过使用与文档相关的对话以及MRC的新域适应方法来构建质量检查对。具体而言,我们建议用于机器阅读理解理解(RMRC)方法的强大域适应性,该方法由答案提取器(AE),问题选择器(QS)和MRC模型组成。具体而言,RMRC通过通过AE估算与文档的相关性来滤除无关的答案,并通过通过QS将候选问题融合在多轮对话聊天中来提取问题。使用提取的QA对,MRC进行了微调,并提供了反馈,以通过一种新颖的增强自我训练方法优化QS。得益于QS的优化,我们的方法将大大减轻域转移引起的嘈杂对应问题。据我们所知,这可能是揭示噪声对应性在域适应MRC模型中的影响的第一个研究,并显示出一种可行的方法来实现与错配对的鲁棒性。在三个数据集上进行的广泛实验证明了我们方法的有效性。
translated by 谷歌翻译
现有的基于视频的人重新识别(REID)的方法主要通过功能提取器和功能聚合器来了解给定行人的外观特征。但是,当不同的行人外观相似时,外观模型将失败。考虑到不同的行人具有不同的步行姿势和身体比例,我们建议学习视频检索的外观功能之外的歧视性姿势功能。具体而言,我们实现了一个两分支的体系结构,以单独学习外观功能和姿势功能,然后将它们串联在一起进行推理。为了学习姿势特征,我们首先通过现成的姿势检测器检测到每个框架中的行人姿势,并使用姿势序列构建时间图。然后,我们利用复发图卷积网络(RGCN)来学习时间姿势图的节点嵌入,该姿势图设计了一种全局信息传播机制,以同时实现框内节点的邻域聚集,并在框架间图之间传递消息。最后,我们提出了一种由节点注意和时间注意的双重意见方法,以从节点嵌入中获得时间图表示,其中采用自我注意机制来了解每个节点和每个帧的重要性。我们在三个基于视频的REID数据集(即火星,Dukemtmc和Ilids-Vid)上验证了所提出的方法,其实验结果表明,学习的姿势功能可以有效地改善现有外观模型的性能。
translated by 谷歌翻译
作为多媒体信息检索中越来越流行的任务,视频瞬间检索(VMR)旨在根据给定的语言查询从未修剪视频中定位目标时刻。以前的大多数方法都在很大程度上取决于众多手动注释(即瞬间边界),在实践中获取非常昂贵。此外,由于不同数据集之间的域间隙,直接将这些预训练的模型应用于看不见的域,这会导致显着的性能下降。在本文中,我们专注于一项新任务:跨域VMR,其中一个域中完全注重数据集(````源域'''),但是感兴趣的域(``目标域'')仅包含未通知的数据集。据我们所知,我们介绍了有关跨域VMR的第一项研究。为了解决这一新任务,我们提出了一个新型的多模式跨域比对(MMCDA)网络,以将注释知识从源域转移到目标域。但是,由于源和目标域之间的域差异以及视频和查询之间的语义差距,直接将经过训练的模型应用于目标域通常会导致性能下降。为了解决这个问题,我们开发了三个新型模块:(i)域对齐模块旨在使每种模式的不同域之间的特征分布对齐; (ii)跨模式对齐模块旨在将视频和查询特征映射到关节嵌入空间中,并将目标域不同模态之间的特征分布对齐; (iii)特定的比对模块试图获得特定帧与给定查询之间的细粒度相似性以进行最佳定位。通过共同训练这三个模块,我们的MMCDA可以学习域不变和语义一致的跨模式表示。
translated by 谷歌翻译
Starcraft II(SC2)对强化学习(RL)提出了巨大的挑战,其中主要困难包括巨大的状态空间,不同的动作空间和长期的视野。在这项工作中,我们研究了《星际争霸II》全长游戏的一系列RL技术。我们研究了涉及提取的宏观活动和神经网络的层次结构的层次RL方法。我们研究了课程转移培训程序,并在具有4个GPU和48个CPU线的单台计算机上训练代理。在64x64地图并使用限制性单元上,我们对内置AI的获胜率达到99%。通过课程转移学习算法和战斗模型的混合物,我们在最困难的非作战水平内置AI(7级)中获得了93%的胜利率。在本文的扩展版本中,我们改进了架构,以针对作弊水平训练代理商,并在8级,9级和10级AIS上达到胜利率,为96%,97%和94 %, 分别。我们的代码在https://github.com/liuruoze/hiernet-sc2上。为了为我们的工作以及研究和开源社区提供基线,我们将其复制了一个缩放版本的Mini-Alphastar(MAS)。 MAS的最新版本为1.07,可以在具有564个动作的原始动作空间上进行培训。它旨在通过使超参数可调节来在单个普通机器上进行训练。然后,我们使用相同的资源将我们的工作与MAS进行比较,并表明我们的方法更有效。迷你α的代码在https://github.com/liuruoze/mini-alphastar上。我们希望我们的研究能够阐明对SC2和其他大型游戏有效增强学习的未来研究。
translated by 谷歌翻译