Current advances in recommender systems have been remarkably successful in optimizing immediate engagement. However, long-term user engagement, a more desirable performance metric, remains difficult to improve. Meanwhile, recent reinforcement learning (RL) algorithms have shown their effectiveness in a variety of long-term goal optimization tasks. For this reason, RL is widely considered as a promising framework for optimizing long-term user engagement in recommendation. Despite being a promising approach, the application of RL heavily relies on well-designed rewards, but designing rewards related to long-term user engagement is quite difficult. To mitigate the problem, we propose a novel paradigm, Preference-based Recommender systems (PrefRec), which allows RL recommender systems to learn from preferences about users' historical behaviors rather than explicitly defined rewards. Such preferences are easily accessible through techniques such as crowdsourcing, as they do not require any expert knowledge. With PrefRec, we can fully exploit the advantages of RL in optimizing long-term goals, while avoiding complex reward engineering. PrefRec uses the preferences to automatically train a reward function in an end-to-end manner. The reward function is then used to generate learning signals to train the recommendation policy. Furthermore, we design an effective optimization method for PrefRec, which uses an additional value function, expectile regression and reward model pre-training to improve the performance. Extensive experiments are conducted on a variety of long-term user engagement optimization tasks. The results show that PrefRec significantly outperforms previous state-of-the-art methods in all the tasks.
translated by 谷歌翻译
卵巢癌是最有害的妇科疾病之一。通过计算机辅助技术在早期检测卵巢肿瘤可以有效降低死亡率。随着医疗标准的提高,超声图像被广泛应用于临床治疗。但是,最近的显着方法主要集中于单模式超声卵巢肿瘤分割或识别,这意味着仍然缺乏探索多模式超声卵巢肿瘤图像的表示能力的研究。为了解决这个问题,我们提出了一个多模式性卵巢肿瘤超声(MMOTU)图像数据集,其中包含1469 2D超声图像和170个具有像素和全球范围注释的对比度增强超声(CEUS)图像。基于MMOTU,我们主要关注无监督的跨域语义分割任务。为了解决域移位问题,我们提出了一个基于功能对齐的架构,名为Dual-Scheme域选择网络(DS $^2 $ NET)。具体而言,我们首先设计源编码器和目标编码器来提取源和目标图像的两种特征。然后,我们提出域名选定的模块(DDSM)和域 - 宇宙选定的模块(DUSM),以在两种样式(源式或目标式式)中提取独特的通用特征。最后,我们融合了这两种功能,并将它们馈入源编码器和目标编码器以生成最终预测。对MMOTU图像数据集的广泛比较实验和分析表明,DS $^2 $ NET可以提高2D超声图像和CEUS图像的双向跨域适应的分割性能。
translated by 谷歌翻译
长期以来,不同的推荐任务通常需要设计特定于任务的架构和培训目标。结果,很难将学习的知识和表示从一个任务转移到另一个任务,从而限制了现有推荐方法的概括能力,例如,几乎无法将顺序推荐模型应用于审核生成方法。为了解决此类问题,考虑到语言几乎可以描述任何内容,语言基础是表示各种问题或任务的有力媒介,我们提出了一种灵活而统一的文本到文本范式,称为“预绘,个性化的提示和预测范式” (P5)为了推荐,该建议在共享框架中统一了各种建议任务。在P5中,将所有数据(例如用户项目交互,用户描述,项目元数据和用户评论)转换为通用格式 - 自然语言序列。来自自然语言的丰富信息有助于P5捕获更深入的语义,以进行个性化和建议。具体而言,P5在预处理过程中以相同的语言建模目标学习不同的任务。因此,它是各种下游建议任务的基础模型,可以轻松地与其他模式集成,并根据提示启用基于指导的建议。 P5将推荐系统从浅层模型到深模型到大型模型,并将彻底改变推荐系统的技术形式,向通用推荐引擎。借助对不同用户的自适应个性化提示,P5能够以零拍或几种方式进行预测,并大大减少了进行广泛微调的必要性。在几个建议基准中,我们进行实验以显示P5的有效性。我们以\ url {https://github.com/jeykigung/p5}发布源代码。
translated by 谷歌翻译
图表可以表示实体之间的关系信息,图形结构广泛用于许多智能任务,例如搜索,推荐和问题应答。然而,实际上大多数图形结构数据都遭受了不完整性,因此链路预测成为一个重要的研究问题。虽然提出了许多模型来用于链路预测,但以下两个问题仍然仍然较少:(1)大多数方法在不利用相关链路中使用丰富的信息,大多数方法都独立模型,并且(2)现有型号主要基于关联设计学习并没有考虑推理。通过这些问题,在本文中,我们提出了图表协作推理(GCR),它可以使用邻居与逻辑推理视角的关系中的关系推理。我们提供了一种简单的方法来将图形结构转换为逻辑表达式,以便链路预测任务可以转换为神经逻辑推理问题。我们应用逻辑受限的神经模块根据逻辑表达式构建网络架构,并使用反向传播以有效地学习模型参数,这在统一架构中桥接可分辨率的学习和象征性推理。为了展示我们工作的有效性,我们对图形相关任务进行实验,例如基于常用的基准数据集的链路预测和推荐,我们的图表合作推理方法实现了最先进的性能。
translated by 谷歌翻译
Neural Radiance Fields (NeRF) methods have proved effective as compact, high-quality and versatile representations for 3D scenes, and enable downstream tasks such as editing, retrieval, navigation, etc. Various neural architectures are vying for the core structure of NeRF, including the plain Multi-Layer Perceptron (MLP), sparse tensors, low-rank tensors, hashtables and their compositions. Each of these representations has its particular set of trade-offs. For example, the hashtable-based representations admit faster training and rendering but their lack of clear geometric meaning hampers downstream tasks like spatial-relation-aware editing. In this paper, we propose Progressive Volume Distillation (PVD), a systematic distillation method that allows any-to-any conversions between different architectures, including MLP, sparse or low-rank tensors, hashtables and their compositions. PVD consequently empowers downstream applications to optimally adapt the neural representations for the task at hand in a post hoc fashion. The conversions are fast, as distillation is progressively performed on different levels of volume representations, from shallower to deeper. We also employ special treatment of density to deal with its specific numerical instability problem. Empirical evidence is presented to validate our method on the NeRF-Synthetic, LLFF and TanksAndTemples datasets. For example, with PVD, an MLP-based NeRF model can be distilled from a hashtable-based Instant-NGP model at a 10X~20X faster speed than being trained the original NeRF from scratch, while achieving a superior level of synthesis quality. Code is available at https://github.com/megvii-research/AAAI2023-PVD.
translated by 谷歌翻译
单元实例分割是一项旨在针对图像中每个单元格的联合检测和分割的新任务。最近,在此任务中应用了许多实例细分方法。尽管取得了巨大的成功,但仍然存在两个主要弱点,这是由于定位细胞中心点的不确定性而引起的。首先,可以很容易地将密集的填充细胞识别到一个细胞中。其次,细胞的细胞很容易被识别为两个细胞。为了克服这两个弱点,我们提出了一个基于多控制回归指南的新细胞实例分割网络。借助多功能回归指导,该网络具有不同视图中每个单元格的能力。具体而言,我们首先提出了一种高斯指导注意机制,以使用高斯标签来指导网络的注意力。然后,我们提出了一个点回归模块,以帮助细胞中心的回归。最后,我们利用上述两个模块的输出来进一步指导实例分割。借助多轮回归指导,我们可以充分利用不同区域的特征,尤其是细胞的中心区域。我们在基准数据集,DSB2018,CA2.5和SCIS上进行了广泛的实验。令人鼓舞的结果表明,我们的网络实现了SOTA(最先进的)性能。在DSB2018和CA2.5上,我们的网络超过1.2%(AP50)。尤其是在SCIS数据集上,我们的网络的性能较大(AP50高3.0%)。可视化和分析进一步证明了我们提出的方法是可以解释的。
translated by 谷歌翻译
节点注入对图神经网络(GNN)的攻击已作为一种实际的攻击场景而引起了人们的注意,攻击者会注入恶意节点,而不是修改节点功能或边缘以降低GNN的性能。尽管节点注射攻击最初取得了成功,但我们发现,通过防御方法,可以通过防御方法和限制其在实践中限制其攻击性能,从而很容易将注射的节点与原始正常节点区分开。为了解决上述问题,我们致力于伪装节点注入攻击,即伪装注入恶意节点(结构/属性)是对防御方法似乎合理/不察觉的普通淋巴结。图形数据的非欧亚人性质和缺乏人类的先验性质给伪装上伪装的形式化,实施和评估带来了巨大挑战。在本文中,我们首先提出并制定了从注射节点围绕的自我网络的忠诚度和多样性中注入的节点的伪装。然后,我们为节点注射攻击(即Cana)设计了一个对抗性伪装框架,以改善伪装,同时确保攻击性能。进一步设计了几种用于图形伪装的新型指标,以进行全面的评估。实验结果表明,当将现有的节点注入攻击方法与我们提出的CANA框架配置时,针对防御方法的攻击性能以及节点伪装将显着改善。
translated by 谷歌翻译
随着自我监督学习(SSL)的成功,它已成为一种主流范式,可以从自我监督预定的预计模型中进行微调以提高下游任务的性能。但是,我们发现当前的SSL模型在执行低位量化时遭受严重的准确性下降,禁止其在资源受限应用程序中的部署。在本文中,我们提出了一种称为协同自我监督和量化学习(SSQL)的方法,以预处理量化量化的自我监督模型,从而有助于下游部署。 SSQL以自我监督的方式对比量化和完整的精度模型的特征,在每个步骤中随机选择了量化模型的位宽度。 SSQL不仅在量化较低的位宽度时显着提高了准确性,而且在大多数情况下都提高了完整精度模型的准确性。通过仅培训一次,SSQL可以同时在不同的位宽度上受益于各种下游任务。此外,在没有额外的存储开销的情况下,可以实现位宽度的灵活性,在训练和推理过程中只需要一份重量。我们理论上分析了SSQL的优化过程,并在各种基准测试中进行详尽的实验,以进一步证明我们方法的有效性。我们的代码可从https://github.com/megvii-research/ssql-eccv2022获得。
translated by 谷歌翻译
在所需的姿势中绘制人物的图像是动漫制作中必不可少但费力的任务。在本文中,我们介绍了协作神经渲染〜(CONR)方法,以从字符表中可用的一些任意摆姿势的参考图像中创建新图像。通常,动漫人物的身体形状的高度多样性违反了像SMPL这样的现实世界人体的普遍身体模型的利用。为了克服这个困难,Conr使用紧凑且易于攻击的地标编码,以避免在管道中创建统一的紫外线映射。此外,使用特征空间跨视图密集的对应关系和翘曲在特殊设计的神经网络构建体中使用多个参考图像时,Conr的性能可以显着提高。此外,我们收集了一个字符表数据集,该数据集包含700,000多个手绘和合成的姿势图像,以促进该领域的研究。
translated by 谷歌翻译
本文报告了我们针对多媒体VICO 2022对话式头部生成挑战的解决方案,该挑战旨在根据音频和参考图像生成生动的面对面对话视频。我们的解决方案专注于使用正则化并组装高视觉质量渲染器的广义音频对手驱动器。我们仔细调整了行为的音频模型,并使用我们的前后背景融合模块进行后制作视频。我们在官方排名中的Talking Head Generation Track中获得了聆听校长曲目的第一名。我们的代码将发布。
translated by 谷歌翻译