随着电子商务行业的爆炸性增长,检测现实世界应用中的在线交易欺诈对电子商务平台的发展越来越重要。用户的顺序行为历史提供有用的信息,以区分从常规支付的欺诈性付款。最近,已经提出了一些方法来解决基于序列的欺诈检测问题。然而,这些方法通常遭受两个问题:预测结果难以解释,并且对行为的内部信息的利用不足。为了解决上述两个问题,我们提出了一个分层可解释的网络(母鸡)来模拟用户的行为序列,这不仅可以提高欺诈检测的性能,还可以使推理过程解释。同时,随着电子商务业务扩展到新域名,例如新的国家或新市场,在欺诈检测系统中建模用户行为的一个主要问题是数据收集的限制,例如,非常少的数据/标签。因此,在本文中,我们进一步提出了一种转移框架来解决跨域欺诈检测问题,其旨在从现有域(源域)的知识传输足够的域(源域),以提高新域中的性能(目标域)。我们所提出的方法是一般的转移框架,不仅可以应用于母鸡而且可以在嵌入和MLP范例中应用各种现有模型。基于90个转移任务实验,我们还表明,我们的转移框架不仅可以促进母鸡的跨域欺诈检测任务,而且对于各种现有模型也是普遍的和可扩展的。
translated by 谷歌翻译
许多真实应用程序的预测任务需要在用户的事件序列中模拟多阶特征交互以获得更好的检测性能。然而,现有的流行解决方案通常遭受两个关键问题:1)仅关注特征交互并无法捕获序列影响;2)仅关注序列信息,但忽略每个事件的内部特征关系,因此无法提取更好的事件表示。在本文中,我们考虑使用用户的事件顺序捕获分层信息的两级结构:1)基于基于事件表示的学习有效特征交互;2)建模用户历史事件的序列表示。工业和公共数据集的实验结果清楚地表明,与最先进的基线相比,我们的模式实现了更好的性能。
translated by 谷歌翻译
在图像分类中,获得足够的标签通常昂贵且耗时。为了解决这个问题,域适应通常提供有吸引力的选择,给出了来自类似性质但不同域的大量标记数据。现有方法主要对准单个结构提取的表示的分布,并且表示可以仅包含部分信息,例如,仅包含部分饱和度,亮度和色调信息。在这一行中,我们提出了多代表性适应,这可以大大提高跨域图像分类的分类精度,并且特别旨在对准由名为Inception Adaption Adationation模块(IAM)提取的多个表示的分布。基于此,我们呈现多色自适应网络(MRAN)来通过多表示对准完成跨域图像分类任务,该任向性可以捕获来自不同方面的信息。此外,我们扩展了最大的平均差异(MMD)来计算适应损耗。我们的方法可以通过扩展具有IAM的大多数前进模型来轻松实现,并且网络可以通过反向传播有效地培训。在三个基准图像数据集上进行的实验证明了备的有效性。代码已在https://github.com/easezyc/deep-transfer -learning上获得。
translated by 谷歌翻译
冷启动问题在推荐系统中仍然是一个非常具有挑战性的问题。幸运的是,冷启动用户在辅助源域中的交互可以帮助目标域中的冷启动推荐。如何将用户的偏好从源域转移到目标域,是跨域推荐(CDR)中的关键问题,这是处理冷启动问题的有希望的解决方案。大多数现有方法模型用于传输所有用户的偏好。直观地,由于偏好因用户对用户而异,不同用户的偏好网桥应该是不同的。在这一行中,我们提出了一个名为个性化用户偏好的小说框架,用于跨域推荐(PTUPCDR)。具体地,学习了与用户特征嵌入的元网络,以生成个性化桥接功能以实现每个用户的个性化的偏好传送。要稳定地学习元网络,我们采用了面向任务的优化过程。利用元生成的个性化桥函数,用户在源域中的偏好嵌入可以转换为目标域,并且变换的用户偏好嵌入可以用作目标域中的冷启动用户的初始嵌入。使用大型现实数据集,我们进行广泛的实验,以评估PTUPCDR对冷启动和热启动阶段的有效性。代码已在https://github.com/easezyc/wsdm2022-ptupcdr中提供。
translated by 谷歌翻译
为了开发有效的顺序推荐人,提出了一系列序列表示学习(SRL)方法来模拟历史用户行为。大多数现有的SRL方法都依赖于开发序列模型以更好地捕获用户偏好的明确项目ID。尽管在某种程度上有效,但由于通过明确建模项目ID的限制,这些方法很难转移到新的建议方案。为了解决这个问题,我们提出了一种新颖的通用序列表示方法,名为UNISREC。提出的方法利用项目的文本在不同的建议方案中学习可转移表示形式。为了学习通用项目表示形式,我们设计了一个基于参数美白和Experts的混合物增强的适配器的轻巧项目编码体系结构。为了学习通用序列表示,我们通过抽样多域负面因素介绍了两个对比的预训练任务。借助预训练的通用序列表示模型,我们的方法可以在电感或跨传导设置下以参数有效的方式有效地传输到新的推荐域或平台。在现实世界数据集上进行的广泛实验证明了该方法的有效性。尤其是,我们的方法还导致跨平台环境中的性能提高,显示了所提出的通用SRL方法的强可传递性。代码和预培训模型可在以下网址获得:https://github.com/rucaibox/unisrec。
translated by 谷歌翻译
传统的推荐系统面临两个长期存在的障碍,即数据稀疏性和冷启动问题,这些问题促进了跨域建议(CDR)的出现和发展。 CDR的核心思想是利用从其他领域收集的信息来减轻一个域中的两个问题。在过去的十年中,许多努力进行了跨域建议。最近,随着深度学习和神经网络的发展,出现了许多方法。但是,关于CDR的系统调查数量有限,尤其是关于最新提出的方法以及他们解决的建议方案和建议任务。在本调查文件中,我们首先提出了跨域建议的两级分类法,该分类法对不同的建议方案和建议任务进行了分类。然后,我们以结构化的方式介绍并总结了不同建议方案下的现有跨域推荐方法。我们还组织了常用的数据集。我们通过提供有关该领域的几个潜在研究方向来结束这项调查。
translated by 谷歌翻译
在点击率(CTR)预测方案中,用户的顺序行为很好地利用来捕获最近文献中的用户兴趣。然而,尽管正在广泛研究,但这些顺序方法仍然存在三个限制。首先,现有方法主要利用对用户行为的注意,这并不总是适用于CTR预测,因为用户经常点击与任何历史行为无关的新产品。其次,在真实场景中,很久以前存在许多具有运营的用户,但最近的次数相对不活跃。因此,难以通过早期行为精确地捕获用户的当前偏好。第三,不同特征子空间中用户历史行为的多个表示主要被忽略。为了解决这些问题,我们提出了一种多互动关注网络(Mian),全面提取各种细粒度特征之间的潜在关系(例如,性别,年龄和用户档案)。具体而言,MIAN包含多交互式层(MIL),其集成了三个本地交互模块,通过顺序行为捕获用户偏好的多个表示,并同时利用细粒度的用户特定的以及上下文信息。此外,我们设计了一个全局交互模块(GIM)来学习高阶交互,平衡多个功能的不同影响。最后,脱机实验结果来自三个数据集,以及在大型推荐系统中的在线A / B测试,展示了我们提出的方法的有效性。
translated by 谷歌翻译
虽然无监督的域适应(UDA)算法,即,近年来只有来自源域的标记数据,大多数算法和理论结果侧重于单源无监督域适应(SUDA)。然而,在实际情况下,标记的数据通常可以从多个不同的源收集,并且它们可能不仅不同于目标域而且彼此不同。因此,来自多个源的域适配器不应以相同的方式进行建模。最近基于深度学习的多源无监督域适应(Muda)算法专注于通过在通用特征空间中的所有源极和目标域的分布对齐来提取所有域的公共域不变表示。但是,往往很难提取Muda中所有域的相同域不变表示。此外,这些方法匹配分布而不考虑类之间的域特定的决策边界。为了解决这些问题,我们提出了一个新的框架,具有两个对准阶段的Muda,它不仅将每对源和目标域的分布对齐,而且还通过利用域特定的分类器的输出对准决策边界。广泛的实验表明,我们的方法可以对图像分类的流行基准数据集实现显着的结果。
translated by 谷歌翻译
跨域的建议显示了解决数据范围和冷启动问题方面有希望的结果。尽管取得了这样的进展,但现有的方法集中在知识转移的可提供的域可共享信息(重叠的用户或相同的上下文)上,并且在没有此类要求的情况下,它们无法很好地概括。为了解决这些问题,我们建议利用大多数电子商务系统一般的审核文本。我们的模型(命名为SER)使用三个文本分析模块,由单个域歧视器指导,用于分离表示表示。在这里,我们提出了一种新颖的优化策略,可以提高域分解的质量,并使源域的有害信息衰弱。此外,我们将编码网络从单个域扩展到多个域,事实证明,这对于基于审核的推荐系统具有强大的功能。广泛的实验和消融研究表明,与最先进的单域和跨域推荐方法相比,我们的方法是有效,健壮和可扩展的。
translated by 谷歌翻译
睡眠分期在诊断和治疗睡眠障碍中非常重要。最近,已经提出了许多数据驱动的深度学习模型,用于自动睡眠分期。他们主要在一个大型公共标签的睡眠数据集上训练该模型,并在较小的主题上对其进行测试。但是,他们通常认为火车和测试数据是从相同的分布中绘制的,这可能在现实世界中不存在。最近已经开发了无监督的域适应性(UDA)来处理此域移位问题。但是,以前用于睡眠分期的UDA方法具有两个主要局限性。首先,他们依靠一个完全共享的模型来对齐,该模型可能会在功能提取过程中丢失特定于域的信息。其次,它们仅在全球范围内将源和目标分布对齐,而无需考虑目标域中的类信息,从而阻碍了测试时模型的分类性能。在这项工作中,我们提出了一个名为Adast的新型对抗性学习框架,以解决未标记的目标域中的域转移问题。首先,我们开发了一个未共享的注意机制,以保留两个领域中的域特异性特征。其次,我们设计了一种迭代自我训练策略,以通过目标域伪标签提高目标域上的分类性能。我们还建议双重分类器,以提高伪标签的鲁棒性和质量。在六个跨域场景上的实验结果验证了我们提出的框架的功效及其优于最先进的UDA方法。源代码可在https://github.com/emadeldeen24/adast上获得。
translated by 谷歌翻译
共享符号跨域顺序推荐(SCSR)任务旨在通过利用多个域中的混合用户行为推荐下一个项目。随着越来越多的用户倾向于在不同的平台上注册并与他人共享访问特定于域的服务,它正在引起极大的研究关注。现有关于SCSR的作品主要依赖于基于复发的神经网络(RNN)模型的采矿顺序模式,这些模型受到以下局限性:1)基于RNN的方法,基于RNN的方法绝大多数目标是发现单用户行为中的顺序依赖性。它们的表现不足以捕获SCSR中多个实体之间的关系。 2)所有现有方法通过潜在空间中的知识转移桥接两个域,并忽略显式的跨域图结构。 3)没有现有研究考虑项目之间的时间间隔信息,这对于表征不同项目和学习判别性表示的顺序建议至关重要。在这项工作中,我们提出了一种新的基于图的解决方案,即TIDA-GCN,以应对上述挑战。具体来说,我们首先将每个域中的用户和项目链接为图。然后,我们设计了一个域感知图形卷积网络,以学习用户特异性节点表示。为了充分说明用户对项目的域特异性偏好,进一步开发了两个有效的注意机制,以选择性地指导消息传递过程。此外,为了进一步增强项目和帐户级的表示学习,我们将时间间隔纳入消息传递中,并为学习项目的交互式特征设计一个帐户意识的自我发项模块。实验证明了我们提出的方法从各个方面的优越性。
translated by 谷歌翻译
最近的智能故障诊断(IFD)的进展大大依赖于深度代表学习和大量标记数据。然而,机器通常以各种工作条件操作,或者目标任务具有不同的分布,其中包含用于训练的收集数据(域移位问题)。此外,目标域中的新收集的测试数据通常是未标记的,导致基于无监督的深度转移学习(基于UDTL为基础的)IFD问题。虽然它已经实现了巨大的发展,但标准和开放的源代码框架以及基于UDTL的IFD的比较研究尚未建立。在本文中,我们根据不同的任务,构建新的分类系统并对基于UDTL的IFD进行全面审查。对一些典型方法和数据集的比较分析显示了基于UDTL的IFD中的一些开放和基本问题,这很少研究,包括特征,骨干,负转移,物理前导等的可转移性,强调UDTL的重要性和再现性 - 基于IFD,整个测试框架将发布给研究界以促进未来的研究。总之,发布的框架和比较研究可以作为扩展界面和基本结果,以便对基于UDTL的IFD进行新的研究。代码框架可用于\ url {https:/github.com/zhaozhibin/udtl}。
translated by 谷歌翻译
域适应任务,如跨域情感分类的目标在于利用在目标域源域中现有数据标记和未标记的或标记的几个数据经由减少数据分布之间的偏移,以提高在目标域的性能。现有跨域情绪分类方法需要区分枢转,即,域共享情绪词语,和非枢转时,即,该特定域的情绪也就是说,对于优良的适应性能。在本文中,我们首先设计一个类别关注网络(CAN),然后提出一个名为CAN-CNN集成CAN和卷积神经网络(CNN)模型。在一方面,该模型的问候基点和非关键数据作为统一的类别属性的话,可以自动捕捉他们提高域自适应性能;在另一方面,该模式使得在解释性试图了解转移类别属性词。具体地,我们的模型的优化目标具有三个不同的部分:1)监督分类损失; 2)类别特征权重的分布丢失; 3)的域不变性损失。最后,该模型在三个民情分析数据集进行评估,结果表明,CAN-CNN能优于其他各种基线的方法。
translated by 谷歌翻译
跨域建议可以帮助缓解传统的连续推荐系统中的数据稀疏问题。在本文中,我们提出了Recguru算法框架,以在顺序推荐中生成包含跨域的用户信息的广义用户表示,即使在两个域中的最小或没有公共用户时也是如此。我们提出了一种自我细心的AutoEncoder来导出潜在用户表示,以及域鉴别器,其旨在预测所产生的潜在表示的原点域。我们提出了一种新的逆势学习方法来训练两个模块,以使从不同域生成的用户嵌入到每个用户的单个全局Gur。学习的Gur捕获了用户的整体偏好和特征,因此可以用于增强行为数据并改进在涉及用户的任何单个域中的推荐。在两个公共交叉域推荐数据集以及从现实世界应用程序收集的大型数据集进行了广泛的实验。结果表明,Recguru提高了性能,优于各种最先进的顺序推荐和跨域推荐方法。收集的数据将被释放以促进未来的研究。
translated by 谷歌翻译
假新闻的广泛传播越来越威胁到个人和社会。在单个领域(例如政治)上自动假新闻发现已做出了巨大的努力。但是,相关性通常存在于多个新闻领域,因此有望同时检测多个域的假新闻。基于我们的分析,我们在多域假新闻检测中提出了两个挑战:1)域转移,是由域,情感,样式等领域之间的差异引起的。世界分类仅输出一个单个领域标签,而不管新闻文章的主题多样性如何。在本文中,我们提出了一个记忆引导的多视图多域假新闻检测框架(M $^3 $ fend),以应对这两个挑战。我们从多视图的角度对新闻作品进行建模,包括语义,情感和风格。具体而言,我们建议一个域存储库来丰富域信息,该信息可以根据可见的新闻和模型域特征来发现潜在的域标签。然后,以丰富的域信息为输入,域适配器可以从各个域中的新闻的多个视图中适应汇总歧视性信息。对英语和中文数据集进行的大量离线实验证明了M $^3 $ fend的有效性,在线测试在实践中验证了其优势。我们的代码可在https://github.com/ictmcg/m3fend上找到。
translated by 谷歌翻译
在本文中,我们提出了一种使用域鉴别特征模块的双模块网络架构,以鼓励域不变的特征模块学习更多域不变的功能。该建议的架构可以应用于任何利用域不变功能的任何模型,用于无监督域适应,以提高其提取域不变特征的能力。我们在作为代表性算法的神经网络(DANN)模型的区域 - 对抗训练进行实验。在培训过程中,我们为两个模块提供相同的输入,然后分别提取它们的特征分布和预测结果。我们提出了差异损失,以找到预测结果的差异和两个模块之间的特征分布。通过对抗训练来最大化其特征分布和最小化其预测结果的差异,鼓励两个模块分别学习更多域歧视和域不变特征。进行了广泛的比较评估,拟议的方法在大多数无监督的域适应任务中表现出最先进的。
translated by 谷歌翻译
在本文中,我们考虑点击率(CTR)预测问题。因子化机器及其变体考虑配对特征交互,但通常我们不会由于高时间复杂度而使用FM进行高阶功能交互。鉴于许多领域的深度神经网络(DNN)的成功,研究人员提出了几种基于DNN的模型来学习高阶功能交互。已广泛用于从功能嵌入到最终登录的功能嵌入的可靠映射,从而广泛使用多层。在本文中,我们的目标是更多地探索这些高阶功能的交互。然而,高阶特征互动值得更加关注和进一步发展。灵感来自计算机愿景中密集连接的卷积网络(DENSENET)的巨大成就,我们提出了一种新颖的模型,称为殷勤基于DENENET的分解机(ADNFM)。 ADNFM可以通过使用前馈神经网络的所有隐藏层作为隐式的高阶功能来提取更全面的深度功能,然后通过注意机制选择主导特征。此外,使用DNN的隐式方式的高阶交互比以明确的方式更具成本效益,例如在FM中。两个真实数据集的广泛实验表明,所提出的模型可以有效地提高CTR预测的性能。
translated by 谷歌翻译
虽然在许多域内生成并提供了大量的未标记数据,但对视觉数据的自动理解的需求高于以往任何时候。大多数现有机器学习模型通常依赖于大量标记的训练数据来实现高性能。不幸的是,在现实世界的应用中,不能满足这种要求。标签的数量有限,手动注释数据昂贵且耗时。通常需要将知识从现有标记域传输到新域。但是,模型性能因域之间的差异(域移位或数据集偏差)而劣化。为了克服注释的负担,域适应(DA)旨在在将知识从一个域转移到另一个类似但不同的域中时减轻域移位问题。无监督的DA(UDA)处理标记的源域和未标记的目标域。 UDA的主要目标是减少标记的源数据和未标记的目标数据之间的域差异,并在培训期间在两个域中学习域不变的表示。在本文中,我们首先定义UDA问题。其次,我们从传统方法和基于深度学习的方法中概述了不同类别的UDA的最先进的方法。最后,我们收集常用的基准数据集和UDA最先进方法的报告结果对视觉识别问题。
translated by 谷歌翻译
顺序推荐(SR)通过对用户在项目之间的过境方式进行建模来表征用户行为不断发展的模式。但是,简短的交互序列限制了现有SR的性能。为了解决这个问题,我们专注于本文中的跨域顺序推荐(CDSR),该建议旨在利用其他域中的信息来提高单个域的顺序建议性能。解决CDSR具有挑战性。一方面,如何保留单个领域的偏好以及整合跨域影响仍然是一个基本问题。另一方面,由于合并序列的长度有限,因此仅利用来自其他域的知识来完全解决数据稀疏问题。为了应对挑战,我们提出了DDGHM,这是CDSR问题的新型框架,其中包括两个主要模块,即双动态图形建模和混合度量训练。前者通过动态构造两级图,即局部图和全局图,捕获内域和域间顺序跃迁,并将它们与融合的细心门控机制结合在一起。后者通过采用混合度量学习来增强用户和项目表示形式,包括实现保持一致性和对比度度量的协作指标,以确保均匀性,以进一步减轻数据稀少性问题并提高预测准确性。我们在两个基准数据集上进行实验,结果证明了DDHMG的有效性。
translated by 谷歌翻译
最近,深度神经网络在时间序列的预测中越来越受欢迎。他们成功的主要原因是他们有效捕获多个相关时间序列的复杂时间动态的能力。这些深度预测者的优势才开始在有足够数量的数据的情况下开始出现。这对实践中的典型预测问题提出了挑战,在实践中,每个时间序列的时间序列或观察值有限,或者两者兼而有之。为了应对这些数据稀缺问题,我们提出了一个新颖的域适应框架,域适应预报员(DAF)。 DAF利用具有丰富数据样本(源)的相关领域的统计强度,以通过有限的数据(目标)提高感兴趣域的性能。特别是,我们使用基于注意力的共享模块,该模块与跨域跨域和私人模块的域歧视器一起使用。我们同时诱导域不变的潜在特征(查询和密钥)和重新培训特定特征(值),以使源和目标域上的预报员的联合训练。一个主要的见解是,我们对齐密钥的设计使目标域即使具有不同的特征也可以利用源时间序列。对各个领域的广泛实验表明,我们提出的方法在合成和现实世界数据集上优于最先进的基准,而消融研究验证了我们的设计选择的有效性。
translated by 谷歌翻译