在本文中,我们研究了Micro-Video平台中的对象效果建议的新主题,这对于许多实际应用(例如广告插入)来说是一项具有挑战性但重要的任务。为了避免引入由图像框架直接学习视频内容引起的背景偏见的问题,我们建议利用3D人类姿势中隐藏的有意义的肢体语言进行推荐。为此,在这项工作中,引入了一种新型的人类姿势驱动的对象效应建议网络称为poserec。 Poserec利用了3D人姿势检测的优势,并从多框架3D人姿势中学习信息进行视频项目注册,从而导致高质量的对象效应建议性能。此外,为了解决对象效应建议中存在的固有的歧义和稀疏性问题,我们进一步提出了一种新颖的物品感知的隐性原型学习模块,并提供了一种新颖的姿势感知的托管性托管性硬性阴性挖掘模块,以更好地学习姿势 - 项目。更重要的是,为了为新研究主题进行基准方法,我们构建了一个新数据集,用于对象效果建议,名为Pose-Obe。对姿势攻击的广泛实验表明,我们的方法比强基础可以取得更高的性能。
translated by 谷歌翻译
近年来,多媒体推荐的兴趣日益增长,旨在预测用户是否会与具有多模式内容的项目进行交互。以前的研究侧重于建模用户项目与包含作为侧面信息的多模式特征的交互。但是,该方案并不适用于多媒体推荐。首先,只有通过高阶项 - 用户项共同发生隐含地建模协作项目 - 项目关系。我们认为这些多模式内容的潜在语义项 - 项目结构可以有利于学习更好的项目表示,并协助推荐模型全面发现候选项目。其次,以前的研究忽视了细粒度的多峰融合。虽然访问多种方式可能允许我们捕获丰富的信息,但我们认为以前的工作中的线性组合或连接的简单粗粒融合不足以完全理解内容信息和项目关系。在此结束时,我们提出了一个潜在的结构采用对比模型融合方法(微型简洁性)。具体而言,我们设计了一种新型的模态感知结构学习模块,它为每个模态学习项目项目关系。基于学习的模态感知潜在项目关系,我们执行明确地将物品关联的图形卷评进行了模当感知的项目表示。然后,我们设计一种新颖的对比方法来保险熔断多模峰特征。这些丰富的项目表示可以插入现有的协作过滤方法,以便更准确的建议。关于现实世界数据集的广泛实验证明了我们在最先进的基线上的方法的优越性。
translated by 谷歌翻译
视频过渡效果被广泛用于视频编辑中,以连接镜头,以创建凝聚力和视觉上吸引人的视频。但是,由于缺乏摄影知识和设计技能,非专业人士选择最佳过渡是一个挑战。在本文中,我们介绍了执行自动视频过渡建议(VTR)的主要工作:给定一系列原始视频镜头和伴侣音频,建议每对相邻拍摄的视频过渡。为了解决此任务,我们使用有关编辑软件的公开视频模板收集了一个大规模的视频过渡数据集。然后,我们将VTR作为从视觉/音频到视频过渡的多模式检索问题,并提出了一个新型的多模式匹配框架,由两个部分组成。首先,我们通过视频过渡分类任务了解视频过渡的嵌入。然后,我们提出了一个模型,以学习从视觉/音频输入到视频过渡的匹配对应关系。具体而言,所提出的模型采用多模式变压器来融合视觉和音频信息,并捕获顺序过渡输出中的上下文提示。通过定量和定性实验,我们清楚地证明了我们方法的有效性。值得注意的是,在综合用户研究中,我们的方法获得了与专业编辑者相比的可比分数,同时通过\ textbf {300 \ scalebox {1.25} {$ \ times $}}提高视频编辑效率。我们希望我们的工作能够激发其他研究人员从事这项新任务。数据集和代码在\ url {https://github.com/acherstyx/autotransition}上公开。
translated by 谷歌翻译
The booming development and huge market of micro-videos bring new e-commerce channels for merchants. Currently, more micro-video publishers prefer to embed relevant ads into their micro-videos, which not only provides them with business income but helps the audiences to discover their interesting products. However, due to the micro-video recording by unprofessional equipment, involving various topics and including multiple modalities, it is challenging to locate the products related to micro-videos efficiently, appropriately, and accurately. We formulate the microvideo-product retrieval task, which is the first attempt to explore the retrieval between the multi-modal and multi-modal instances. A novel approach named Multi-Queue Momentum Contrast (MQMC) network is proposed for bidirectional retrieval, consisting of the uni-modal feature and multi-modal instance representation learning. Moreover, a discriminative selection strategy with a multi-queue is used to distinguish the importance of different negatives based on their categories. We collect two large-scale microvideo-product datasets (MVS and MVS-large) for evaluation and manually construct the hierarchical category ontology, which covers sundry products in daily life. Extensive experiments show that MQMC outperforms the state-of-the-art baselines. Our replication package (including code, dataset, etc.) is publicly available at https://github.com/duyali2000/MQMC.
translated by 谷歌翻译
跨域冷启动推荐是推荐系统越来越新兴的问题。现有的作品主要专注于解决跨域用户推荐或冷启动内容推荐。但是,当新域在早期发展时,它具有类似于源域的潜在用户,但互动较少。从源域中学习用户的偏好并将其转移到目标域中是至关重要的,特别是在具有有限用户反馈的新到达内容上。为了弥合这一差距,我们提出了一个自训练的跨域用户偏好学习(夫妻)框架,针对具有各种语义标签的冷启动推荐,例如视频的项目或视频类型。更具体地,我们考虑三个级别的偏好,包括用户历史,用户内容和用户组提供可靠的推荐。利用由域感知顺序模型表示的用户历史,将频率编码器应用于用于用户内容偏好学习的底层标记。然后,建议具有正交节点表示的分层存储器树以进一步概括域域的用户组偏好。整个框架以一种对比的方式更新,以先进先出(FIFO)队列获得更具独特的表示。两个数据集的广泛实验展示了用户和内容冷启动情况的夫妇效率。通过部署在线A / B一周测试,我们表明夫妇的点击率(CTR)优于淘宝应用程序的其他基线。现在该方法在线为跨域冷微视频推荐服务。
translated by 谷歌翻译
传统的推荐系统面临两个长期存在的障碍,即数据稀疏性和冷启动问题,这些问题促进了跨域建议(CDR)的出现和发展。 CDR的核心思想是利用从其他领域收集的信息来减轻一个域中的两个问题。在过去的十年中,许多努力进行了跨域建议。最近,随着深度学习和神经网络的发展,出现了许多方法。但是,关于CDR的系统调查数量有限,尤其是关于最新提出的方法以及他们解决的建议方案和建议任务。在本调查文件中,我们首先提出了跨域建议的两级分类法,该分类法对不同的建议方案和建议任务进行了分类。然后,我们以结构化的方式介绍并总结了不同建议方案下的现有跨域推荐方法。我们还组织了常用的数据集。我们通过提供有关该领域的几个潜在研究方向来结束这项调查。
translated by 谷歌翻译
顺序推荐是推荐系统的广泛流行的主题。现有的作品有助于提高基于各种方法的顺序推荐系统的预测能力,例如经常性网络和自我关注机制。然而,他们未能发现和区分项目之间的各种关系,这可能是激励用户行为的潜在因素。在本文中,我们提出了一个边缘增强的全面解散图神经网络(EGD-GNN)模型,以捕获全局项目表示和本地用户意图学习项目之间的关系信息。在全球级别,我们通过所有序列构建全局链接图来模拟项目关系。然后,频道感知的解缠绕学习层被设计成将边缘信息分解为不同的信道,这可以聚合以将目标项从其邻居表示。在本地层面,我们应用一个变化的自动编码器框架来学习用户在当前序列上的意图。我们在三个现实世界数据集中评估我们提出的方法。实验结果表明,我们的模型可以通过最先进的基线获得至关重要的改进,能够区分项目特征。
translated by 谷歌翻译
在媒体流媒体的普及之后,许多视频流服务是不断购买新的视频内容来挖掘它们的潜在利润。因此,必须处理新添加的内容,以便建议给合适的用户。在本文中,我们通过探索各种深度学习功能提供视频建议的潜力来解决新的项目冷启动问题。调查的深度学习功能包括从视频内容中捕获视觉外观,音频和运动信息的功能。我们还探讨了不同的融合方法来评估这些功能模式如何组合以完全利用它们捕获的互补信息。关于电影建议的真实视频数据集的实验表明,深度学习功能优于手工制作的功能。特别是,使用深度学习音频功能和以自行信型的深度学习功能生成的建议优于MFCC和最先进的IDT功能。此外,与手工制作特征和文本元数据的各种深度学习特征的组合产生了显着的建议改善,而不是仅相结合的前者。
translated by 谷歌翻译
Bundle建议旨在向用户推荐整个项目。然而,他们通常忽略了用户对采用项目的意图的多样性,并且无法解散用户在表示中的意图。在捆绑建议的实际情况下,用户的意图可以自然分布在该用户的不同捆绑中(全局视图),而捆绑包可能包含用户的多个意图(本地视图)。每个视图都有其意图解开的优势:1)从全球视图中,涉及更多项目来呈现每个意图,这可以更清楚地证明用户在每个意图下的喜好。 2)从本地视图中,它可以揭示每个意图下的项目之间的关联,因为同一捆绑包中的项目彼此高度相关。为此,我们提出了一个名为Multi-View Intentangle图形网络(MIDGN)的新型模型,该模型能够精确,全面地捕获用户意图的多样性和项目的关联,并在更精细的粒度上。具体而言,MIDGN分别从两个不同的角度解开了用户的意图:1)在全球级别,中型中MIDGN将用户的意图与捆绑关系相结合; 2)在本地级别,MIDGN将用户的意图与每个捆绑包中的项目结合在一起。同时,我们比较用户的意图在对比度学习框架下从不同观点中解散,以提高学习意图。在两个基准数据集上进行的广泛实验表明,中期的表现分别超过10.7%和26.8%。
translated by 谷歌翻译
隐式反馈经常用于开发个性化的推荐服务,因为其无处不在和现实世界中的可访问性。为了有效地利用此类信息,大多数研究都采用成对排名方法对构建的培训三胞胎(用户,正面项目,负项目),并旨在区分每个用户的正面项目和负面项目。但是,这些方法中的大多数都同样对待所有训练三胞胎,这忽略了不同的正或负项目之间的微妙差异。另一方面,即使其他一些作品利用用户行为的辅助信息(例如,停留时间)来捕获这种微妙的差异,但很难获得这样的辅助信息。为了减轻上述问题,我们提出了一个名为Triplet重要性学习(TIL)的新型培训框架,该框架可以自适应地学习训练三胞胎的重要性得分。我们为重要性得分生成的两种策略设计了两种策略,并将整个过程作为双层优化,这不需要任何基于规则的设计。我们将提出的训练程序与基于图形神经网络(GNN)基于图形的推荐模型的几个矩阵分解(MF)集成在一起,证明了我们的框架的兼容性。通过使用与许多最先进方法的三个现实世界数据集进行比较,我们表明我们所提出的方法在top-k推荐方面的召回@k方面优于3-21 \%的最佳现有模型。
translated by 谷歌翻译
共享符号跨域顺序推荐(SCSR)任务旨在通过利用多个域中的混合用户行为推荐下一个项目。随着越来越多的用户倾向于在不同的平台上注册并与他人共享访问特定于域的服务,它正在引起极大的研究关注。现有关于SCSR的作品主要依赖于基于复发的神经网络(RNN)模型的采矿顺序模式,这些模型受到以下局限性:1)基于RNN的方法,基于RNN的方法绝大多数目标是发现单用户行为中的顺序依赖性。它们的表现不足以捕获SCSR中多个实体之间的关系。 2)所有现有方法通过潜在空间中的知识转移桥接两个域,并忽略显式的跨域图结构。 3)没有现有研究考虑项目之间的时间间隔信息,这对于表征不同项目和学习判别性表示的顺序建议至关重要。在这项工作中,我们提出了一种新的基于图的解决方案,即TIDA-GCN,以应对上述挑战。具体来说,我们首先将每个域中的用户和项目链接为图。然后,我们设计了一个域感知图形卷积网络,以学习用户特异性节点表示。为了充分说明用户对项目的域特异性偏好,进一步开发了两个有效的注意机制,以选择性地指导消息传递过程。此外,为了进一步增强项目和帐户级的表示学习,我们将时间间隔纳入消息传递中,并为学习项目的交互式特征设计一个帐户意识的自我发项模块。实验证明了我们提出的方法从各个方面的优越性。
translated by 谷歌翻译
在本文中,我们重点介绍了在流中为在线POI推荐的动态地球人类相互作用建模的问题。具体而言,我们将式的地球人类相互作用建模问题提出到一个新颖的深层交互式增强学习框架中,在该框架中,代理是推荐的,而动作是下一个要访问的POI。我们将强化学习环境独特地建模为用户和地理空间环境(POI,POI类别,功能区)的联合组成和连接的组成。用户在流中访问POI的事件更新了用户和地理空间环境的状态;代理商认为更新的环境状态可以提出在线建议。具体而言,我们通过将所有用户,访问和地理空间上下文统一为动态知识图流来对混合用户事件流进行建模,以模拟人类,地理 - 人类,地理geo互动的建模。我们设计了一种解决过期信息挑战的退出机制,设计了一种元路径方法来应对推荐候选人的生成挑战,并开发了一种新的深层政策网络结构来应对不同的行动空间挑战,最后提出有效的对抗性优化的培训方法。最后,我们提出了广泛的实验,以证明方法的增强性能。
translated by 谷歌翻译
与传统的协作过滤方法相比,图表卷积网络可以明确地模拟用户 - 项目二分类图的节点之间的交互,并有效地使用高阶邻居,这使得图形神经网络能够获得更有效的嵌入品以获得推荐,例如推荐作为ngcf和lightgcn。然而,其表示非常易于相互作用的噪音。在响应这个问题时,SGL探讨了用户项目图上的自我监督学习,以提高GCN的鲁棒性。虽然有效,但我们发现SGL直接适用SIMCLR的比较学习框架。此框架可能不会直接适用于推荐系统的场景,并且没有充分考虑用户项交互的不确定性。在这项工作中,我们的目标是考虑充分建议制度的情景中对比学习的应用,使其更适合推荐任务。我们提出了一个监督的对比学习框架来预先列出用户项目二分钟图,然后微调图形卷积神经网络。具体而言,我们将在数据预处理期间比较用户和项目之间的相似性,然后在应用对比学习时,不仅将增强视图视为正样本,而且还将被视为正样品的一定数量的类似样品。 ,这与SIMCLR不同,他们以批量作为阴性样品处理其他样本。我们将这种学习方法术语定期为监督对比学习(SCL)并将其应用于最先进的LightGCN。另外,为了考虑节点交互的不确定性,我们还提出了一种新的数据增强方法,称为节点复制。
translated by 谷歌翻译
与淘宝和亚马逊等大型平台不同,由于严重的数据分配波动(DDF)问题,在小规模推荐方案中开发CVR模型是更具挑战性的。 DDF防止现有的CVR模型自生效以来,因为1)需要几个月的数据需要足够小的场景训练CVR模型,导致培训和在线服务之间的相当大的分布差异; 2)电子商务促销对小型情景产生了更大的影响,导致即将到期的时间段的不确定性。在这项工作中,我们提出了一种名为MetacVR的新型CVR方法,从Meta学习的角度解决了DDF问题。首先,由特征表示网络(FRN)和输出层组成的基础CVR模型是精心设计和培训的,在几个月内与样品充分设计和培训。然后,我们将不同数据分布的时间段视为不同的场合,并使用相应的样本和预先训练的FRN获得每个场合的正面和负原型。随后,设计了距离度量网络(DMN)以计算每个样本和所有原型之间的距离度量,以便于减轻分布不确定性。最后,我们开发了一个集合预测网络(EPN),该网络(EPN)包含FRN和DMN的输出以进行最终的CVR预测。在这个阶段,我们冻结了FRN并用最近一段时间的样品训练DMN和EPN,因此有效地缓解了分布差异。据我们所知,这是在小规模推荐方案中针对DDF问题的CVR预测第一次研究。实验结果对现实世界数据集验证了我们的MetacVR和Online A / B测试的优越性也表明我们的模型在PCVR上实现了11.92%的令人印象深刻的收益和GMV的8.64%。
translated by 谷歌翻译
受到计算机愿景和语言理解的深度学习的巨大成功的影响,建议的研究已经转移到发明基于神经网络的新推荐模型。近年来,我们在开发神经推荐模型方面目睹了显着进展,这概括和超越了传统的推荐模型,由于神经网络的强烈代表性。在本调查论文中,我们从建议建模与准确性目标的角度进行了系统审查,旨在总结该领域,促进研究人员和从业者在推荐系统上工作的研究人员和从业者。具体而具体基于推荐建模期间的数据使用,我们将工作划分为协作过滤和信息丰富的建议:1)协作滤波,其利用用户项目交互数据的关键来源; 2)内容丰富的建议,其另外利用与用户和项目相关的侧面信息,如用户配置文件和项目知识图; 3)时间/顺序推荐,其考虑与交互相关的上下文信息,例如时间,位置和过去的交互。在为每种类型审查代表性工作后,我们终于讨论了这一领域的一些有希望的方向。
translated by 谷歌翻译
深度学习技术导致了通用对象检测领域的显着突破,近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解,场景图一直是研究的焦点。场景图生成(SGG)是指自动将图像映射到语义结构场景图中的任务,这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务,但社区已经提出了许多SGG方法并取得了良好的效果。在本文中,我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品,涵盖了不同的输入方式,并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法,概述和解释SGG的机制和策略。最后,我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。
translated by 谷歌翻译
推荐系统(RSS)旨在模拟和预测用户偏好,同时与诸如兴趣点(POI)的项目进行交互。这些系统面临着几种挑战,例如数据稀疏性,限制了它们的有效性。在本文中,我们通过将社会,地理和时间信息纳入矩阵分解(MF)技术来解决这个问题。为此,我们基于两个因素模拟社会影响:用户之间的相似之处在常见的办理登机手续和它们之间的友谊方面。我们根据明确的友谊网络和用户之间的高支票重叠介绍了两个友谊。我们基于用户的地理活动中心友好算法。结果表明,我们所提出的模型在两个真实的数据集中优于最先进的。更具体地说,我们的消融研究表明,社会模式在精确的@ 10分别在Gowalla和Yelp数据集中提高了我们所提出的POI推荐系统的表现。
translated by 谷歌翻译
从隐式反馈建模推荐系统的核心目标是最大化正样品分数$ S_P $,并最大限度地减少负面样本评分$ S_N $,其通常可以汇总为两个范式:一定点和成对的。点接近符合其标签的每个样本,其在级别的加权和采样中是灵活的,但忽略固有的排名属性。通过定性最大限度地减少相对分数$ S_N - S_P $,成对方法自然地捕获样品的排名,而是遭受培训效率。此外,这两种方法都很难明确提供个性化决策边界,以确定用户是否对查看的项目感兴趣。要解决这些问题,我们创新地向每个用户创新介绍了辅助分数$ B_U $代表用户兴趣边界(UIB),并单独惩罚将边界与成对范例交叉的示例,即分数低于$ B_U的正示例$和分数高于$ b_u $的否定样本。通过这种方式,我们的方法成功地实现了一定点的混合损失,并且成对将两者的优点结合在一起。在分析上,我们表明我们的方法可以提供个性化决策边界,并在没有任何特殊的采样策略的情况下显着提高培训效率。广泛的结果表明,我们的方法不仅可以显着改进,不仅是经典的点或成对模型,还可以实现具有复杂损耗功能和复杂特征编码的最先进模型。
translated by 谷歌翻译
Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.
translated by 谷歌翻译
舞蹈挑战现在是Tiktok这样的视频社区中的病毒性。一旦挑战变得流行,就会在几天内上传成千上万的短型视频。因此,来自舞蹈挑战的病毒预测具有很大的商业价值,具有广泛的应用,例如智能推荐和普及促销。本文提出了一种集成骨骼,整体外观,面部和景区提示的新型多模态框架,以综合舞蹈病毒预测。为了模拟身体运动,我们提出了一种层次地改进了时空骨架图的金字塔骨架图卷积网络(PSGCN)。同时,我们介绍了一个关系时间卷积网络(RTCN),以利用非局部时间关系利用外观动态。最终提出了一种细心的融合方法,以自适应地从不同方式汇总预测。为了验证我们的方法,我们介绍了一个大规模的病毒舞蹈视频(VDV)数据集,其中包含超过4,000个病毒舞蹈挑战的舞蹈剪辑。 VDV数据集的广泛实验证明了我们模型的功效。对VDV数据集的广泛实验良好地证明了我们方法的有效性。此外,我们表明,可以从我们的模型中派生类似多维推荐和动作反馈等的短视频应用。
translated by 谷歌翻译