Vision-Language(V + L)预先润廓模型通过了解图像和文本之间的对齐来支持多媒体应用程序取得了巨大成功。虽然现有的视觉预押模型主要专注于了解文本中的图像或实体中的对象,但它们通常会忽略事件级别的对齐及其参数结构。 %在这项工作中,我们提出了一种对比的学习框架来强制执行愿景 - 语言预押模型来理解事件和相关参数(参与者)角色。为此,我们利用文本信息提取技术来获得事件结构知识,并利用多个提示函数来通过操纵事件结构来对比难度的负面描述。我们还基于最佳传输来设计事件图对齐损耗以捕获事件参数结构。此外,我们收集了一个大型活动的数据集(106,875张图片),用于预磨平,这提供了更具挑战性的图像检索基准,以评估对复杂冗长的句子的理解。实验表明,我们的零射剪辑事件优于在多媒体事件提取中的参数提取中的最先进的监督模型,从而实现了事件提取中的5±绝对f得分增益,以及显着改进零拍摄设置下的各种下游任务。
translated by 谷歌翻译
先进的面部交换方法取得了吸引力的结果。但是,这些方法中的大多数具有许多参数和计算,这使得在实时应用程序中应用它们或在移动电话等边缘设备上部署它们的挑战。在这项工作中,通过根据身份信息动态调整模型参数,提出了一种用于主目不可知的人的动态网络(IDN),用于通过动态调整模型参数。特别地,我们通过引入两个动态神经网络技术来设计高效的标识注入模块(IIM),包括权重预测和权重调制。更新IDN后,可以应用于给定任何目标图像或视频的交换面。所呈现的IDN仅包含0.50米的参数,每个框架需要0.33g拖鞋,使其能够在移动电话上运行实时视频面。此外,我们介绍了一种基于知识的蒸馏的方法,用于稳定训练,并且使用损耗重量模块来获得更好的合成结果。最后,我们的方法通过教师模型和其他最先进的方法实现了可比的结果。
translated by 谷歌翻译
目前,下一个位置推荐在基于位置的社交网络应用程序和服务中起着重要作用。虽然已经提出了许多方法来解决这个问题,但到目前为止,三个重要挑战尚未得到很好的解决:(1)大多数现有方法基于经常性网络,这是耗费训练长期序列,因为不允许完整的平行度; (2)个性化偏好通常不被认为是合理的; (3)现有方法很少系统地研究了如何在轨迹数据中有效地利用各种辅助信息(例如,用户ID和时间戳)和非连续位置之间的时空关系。为了解决上述挑战,我们提出了一种名为SANMOVE的新型方法,是一种自我关注网络的模型,通过捕获用户的长期和短期移动模式来预测下一个位置。具体而言,SANMOVE引入了一个长期偏好学习模块,它使用自我关注模块来捕获用户的长期移动模式,可以代表用户的个性化位置偏好。同时,SanMove使用空间延伸的非侵入自我关注(Stnova)来利用辅助信息来学习短期偏好。我们使用两个真实世界数据集进行评估SANMOVE,并演示SANMOVE不仅比基于最先进的RNN的预测模型更快,而且还优于下一个位置预测的基线。
translated by 谷歌翻译
节点之间有序序列的动态图在现实世界的工业应用中普遍存在电子商务和社交平台中。然而,由于数据的时间和结构依赖性和不规则性,因此,对动态图表的表示学习已经提出了很大的计算挑战,防止这些模型部署到现实世界的应用程序。为了解决这一挑战,我们提出了一种有效的算法,有效的动态图学习(边缘),它通过训练丢失选择性地表达某些时间依赖性,以改善计算中的并行性。我们展示了边缘可以扩展到数百万节点的动态图形,数亿个时间事件,实现新的最先进的(SOTA)性能。
translated by 谷歌翻译
我们将受约束的线性数据特征映射模型提出作为使用卷积神经网络(CNN)的图像分类的可解释数学模型。从这个角度来看,我们建立了线性系统的传统迭代方案与Reset-and Mgnet型模型的基本块体系结构之间的详细连接。使用这些连接,我们介绍了一些修改的Reset模型,与原始模型相比具有更少的参数,但可以产生更准确的结果,从而展示该受约束的学习数据特征映射假设的有效性。基于此假设,我们进一步提出了一般的数据特征迭代方案来展示MGNet的合理性。我们还对MGNet提供系统的数值研究,以显示其在图像分类问题中的成功和优势,并展示其与已建立的网络相比的优点。
translated by 谷歌翻译
今天的大部分AI系统都专注于使用自我关注机制和变压器架构在大量多样化的数据中实现令人印象深刻的性能收益。在本文中,我们建议使用外部注意机制增强变压器架构,以带来外部知识和背景。通过将外部信息集成到预测过程中,我们希望减少对更大的模型的需求,并增加AI系统的民主化。我们发现所提出的外部注意机制可以显着提高现有AI系统的性能,使从业者可以轻松地将基础AI模型自定义到许多不同的下游应用程序。特别是,我们专注于勤杂朗语推理的任务,展示所提出的外部注意机制可以增加现有的变压器模型,并显着提高模型的推理能力。拟议的系统,知识外部关注推理(Kear),达到了开放的铜商QA研究基准的人类奇偶校验,其准确性为89.4 \%,与人类准确性为88.9 \%。
translated by 谷歌翻译
目的:开发和验证基于临床阴性ALN的早期乳腺癌(EBC)术后预测腋窝淋巴结(ALN)转移的深度学习(DL)的主要肿瘤活检签名。方法:从2010年5月到2020年5月,共注册了1,058名具有病理证实ALN状态的eBC患者。基于关注的多实例学习(AMIL)框架,建立了一种DL核心针活检(DL-CNB)模型利用DL特征预测ALN状态,该DL特征从两位病理学家注释的乳腺CNB样本的数字化全幻灯片(WSIS)的癌症区域提取。分析了准确性,灵敏度,特异性,接收器操作特征(ROC)曲线和ROC曲线(AUC)下的区域进行评估,评估我们的模型。结果:具有VGG16_BN的最佳性DL-CNB模型作为特征提取器实现了0.816的AUC(95%置信区间(CI):0.758,0.865),以预测独立测试队列的阳性Aln转移。此外,我们的模型包含称为DL-CNB + C的临床数据,得到了0.831的最佳精度(95%CI:0.775,0.878),特别是对于50岁以下的患者(AUC:0.918,95%CI: 0.825,0.971)。 DL-CNB模型的解释表明,最高度预测ALN转移的顶部签名的特征在于包括密度($ P $ 0.015),周长($ P $ 0.009),循环($ P $ = 0.010)和方向($ p $ = 0.012)。结论:我们的研究提供了一种基于DL的基于DL的生物标志物在原发性肿瘤CNB上,以预先验证EBC患者的术前预测ALN的转移状态。
translated by 谷歌翻译
这项工作旨在将在一个图像域上预先训练的生成的对抗网络(GaN)转移到新域名,其仅仅是只有一个目标图像。主要挑战是,在有限的监督下,综合照片现实和高度多样化的图像非常困难,同时获取目标的代表性。不同于采用Vanilla微调策略的现有方法,我们分别将两个轻量级模块导入发电机和鉴别器。具体地,我们将属性适配器引入发电机中冻结其原始参数,通过该参数,它可以通过其重复利用现有知识,因此保持合成质量和多样性。然后,我们用一个属性分类器装备了学习良好的鉴别器骨干,以确保生成器从引用中捕获相应的字符。此外,考虑到培训数据的多样性差(即,只有一个图像),我们建议在培训过程中建议在生成域中的多样性限制,减轻优化难度。我们的方法在各种环境下提出了吸引力的结果,基本上超越了最先进的替代方案,特别是在合成多样性方面。明显的是,我们的方法即使具有大域间隙,并且在几分钟内为每个实验提供鲁棒地收敛。
translated by 谷歌翻译
虽然人工智能(AI)正在解决现实世界的挑战和转型行业,但对其表现和以负责任的方式做出决定存在严重担忧。最近各国政府,组织和企业发布了许多AI伦理原则和负责任的原则和指南。但是,这些AI伦理原则和指南通常是高级别的,并且不提供关于如何设计和开发负责任的AI系统的具体指导。为了解决这种缺点,我们首先提出了一个实证研究,我们采访了21名科学家和工程师,了解从业者对AI伦理原则及其实施的看法。然后,我们提出了一个模板,使AI道德原则能够以具体模式的形式进行操作,并建议使用新创建的模板的模式列表。这些模式提供了具体的,操作化指导,促进了负责任AI系统的发展。
translated by 谷歌翻译
医学图像分割是基于人工智能的临床决策系统的基本问题之一。目前的自动医学图像分割方法往往未能满足临床要求。因此,提出了一系列交互式分段算法来利用专家校正信息。然而,现有方法在长期互动之后遭受一些分割炼制失败问题,以及来自专家注释的一些成本问题,这阻碍了临床应用。本文通过引入纠正措施评估,提出了一种互动分割框架,称为交互式医疗细分,通过引入纠正措施评估,该纠正措施评估结合了基于动作的置信度学习和多智能体增强学习(Marl)。通过新颖的基于行动的置信网络建立评估,并从Marl获得纠正措施。基于机密信息,旨在提供更详细的反馈,并在无监督数据上提出模拟标签生成机制,以减少对标记数据的过度依赖性的模拟标签生成机制。各种医学图像数据集的实验结果显示了所提出的算法的显着性能。
translated by 谷歌翻译