为了实现解除不诚格的图像操纵,以前的作品依赖于手动注释。同时,可用的操作仅限于预定义的集合培训的模型。在本文中,我们提出了一种新颖的框架,即预测,预防和评估(PPE),用于解散的文本驱动的图像操纵,其不需要手动注释,因此不限于固定操作。我们的方法通过深入利用大规模预先训练的视觉语言模型剪辑的力量来接近目标。具体地,我们首先预测给定文本命令可能纠缠的属性。然后,基于预测的属性,我们引入了纠缠损失以防止培训期间的缠结。最后,我们提出了一个新的评估度量来评估解除戒开的图像操纵。我们验证了我们对挑战面部编辑任务的方法的有效性。广泛的实验表明,所提出的PPE框架比最新的特写率基线实现了更好的定量和定性结果。
translated by 谷歌翻译
弱监督的时间行动本地化旨在从视频级标签学习实例级别动作模式,其中重大挑战是动作情境混淆。为了克服这一挑战,最近的一个工作建立了一个动作单击监督框。它需要类似的注释成本,但与传统的弱势监督方法相比,可以稳步提高本地化性能。在本文中,通过揭示现有方法的性能瓶颈主要来自后台错误,我们发现更强大的动作定位器可以在背景视频帧上的标签上培训,而不是动作帧上的标签。为此,我们将动作单击监控转换为背景单击监控,并开发一种名为Backtal的新方法。具体地,背塔在背景视频帧上实现两倍建模,即位置建模和特征建模。在适当的建模中,我们不仅在带注释的视频帧上进行监督学习,而且还设计得分分离模块,以扩大潜在的动作帧和背景之间的分数差异。在特征建模中,我们提出了一个亲和力模块,以在计算时间卷积时测量相邻帧之间的特定于帧特定的相似性,并在计算时间卷积时动态地参加信息邻居。进行了三个基准测试的广泛实验,展示了建立的背部的高性能和所提出的背景下单击监督的合理性。代码可用于https://github.com/vididle/backtal。
translated by 谷歌翻译
视觉和语言导航(VLN)是一种任务,即遵循语言指令以导航到目标位置的语言指令,这依赖于在移动期间与环境的持续交互。最近的基于变压器的VLN方法取得了很大的进步,从视觉观测和语言指令之间的直接连接通过多模式跨关注机制。然而,这些方法通常代表通过使用LSTM解码器或使用手动设计隐藏状态来构建反复变压器的时间上下文作为固定长度矢量。考虑到单个固定长度向量通常不足以捕获长期时间上下文,在本文中,我们通过显式建模时间上下文来引入具有可变长度存储器(MTVM)的多模式变压器,通过模拟时间上下文。具体地,MTVM使代理能够通过直接存储在存储体中的先前激活来跟踪导航轨迹。为了进一步提高性能,我们提出了内存感知的一致性损失,以帮助学习随机屏蔽指令的时间上下文的更好关节表示。我们在流行的R2R和CVDN数据集上评估MTVM,我们的模型在R2R看不见的验证和测试中提高了2%的成功率,并在CVDN测试集上减少了1.6米的目标进程。
translated by 谷歌翻译
双重编码器结构成功地利用了两个特定语言的编码器(LSE)进行代码转换语音识别。由于LSE由两个预训练的语言特定模型(LSM)初始化,因此双编码器结构可以利用足够的单语言数据并捕获单个语言属性。但是,现有方法对LSE的语言没有限制,并且不足以针对LSM的语言知识。在本文中,我们提出了一种特定语言的特征辅助(LSCA)方法来减轻上述问题。具体来说,在培训期间,我们引入了两种特定语言的损失作为语言限制,并为其生成相应的语言目标。在解码过程中,我们通过组合两个LSM和混合模型的输出概率来考虑LSM的解码能力,以获得最终预测。实验表明,LSCA的训练或解码方法可以改善模型的性能。此外,通过组合LSCA的训练和解码方法,最佳结果可以在代码切换测试集上获得多达15.4%的相对误差。此外,该系统可以通过使用我们的方法来很好地处理代码转换语音识别任务,而无需额外的共享参数,甚至可以基于两个预训练的LSM进行重新训练。
translated by 谷歌翻译
由于问题过度问题,大多数现有的图形神经网络只能使用其固有有限的聚合层捕获有限的依赖性。为了克服这一限制,我们提出了一种新型的图形卷积,称为图形隐式非线性扩散(GIND),该卷积隐含地可以访问邻居的无限啤酒花,同时具有非线性扩散的自适应聚集特征,以防止过度张开。值得注意的是,我们表明,学到的表示形式可以正式化为显式凸优化目标的最小化器。有了这个属性,我们可以从优化的角度从理论上表征GIND的平衡。更有趣的是,我们可以通过修改相应的优化目标来诱导新的结构变体。具体而言,我们可以将先前的特性嵌入到平衡中,并引入跳过连接以促进训练稳定性。广泛的实验表明,GIND擅长捕获长期依赖性,并且在具有非线性扩散的同粒细胞和异性图上表现良好。此外,我们表明,我们模型的优化引起的变体可以提高性能并提高训练稳定性和效率。结果,我们的GIND在节点级别和图形级任务上都获得了重大改进。
translated by 谷歌翻译
视觉变压器最近由于其在各种计算机视觉任务上的出色表现而引发了医学图像分析领域的新浪潮。但是,最近的基于混合/变压器的方法主要集中于变形金刚在捕获长期依赖性方面的好处,同时忽略了其艰巨的计算复杂性,高培训成本和冗余依赖性的问题。在本文中,我们建议对变形金刚进行自适应修剪进行医学图像分割,并提出轻巧有效的混合网络表达式。据我们所知,这是针对医学图像分析任务修剪变压器修剪的第一项工作。 Apformer的关键特征主要是自我监督的自我注意力(SSA),以改善依赖性建立的收敛性,高斯 - 优先相对位置嵌入(GRPE),以促进学习位置信息的学习,并自适应修剪以消除冗余计算和感知信息。具体而言,SSA和GRPE分别考虑了良好的依赖分布和高斯热图分布,作为自我注意事项和嵌入位置的先验知识,以减轻变压器的训练并为以下修剪操作奠定坚实的基础。然后,通过调整栅极控制参数以降低复杂性和性能改进来执行自适应变压器修剪,无论是查询和依赖性方面的修剪,都可以执行。在两个广泛使用的数据集上进行了广泛的实验,证明了Apformer对具有更少参数和较低GFLOPS的最新方法的显着分割性能。更重要的是,通过消融研究,我们证明了自适应修剪可以作为插头-N-play模块,以改善其他基于混合的混合/变压器方法。代码可从https://github.com/xianlin7/apformer获得。
translated by 谷歌翻译
卷积神经网络(CNN),是基于深度学习的医学图像分析的最普遍的体系结构,在功能上仍受其固有的电感偏见和不充分的接收场的限制。旨在解决这个问题的变压器由于其出色的捕获长期依赖的能力而引起了自然语言处理和计算机视觉的爆炸性关注。但是,最新的基于变压器的医学图像分割方法直接将香草变压器作为基于CNN的方法中的辅助模块应用于辅助模块,从而导致由于变压器中刚性贴片分配方案而导致严重的细节损失。为了解决这个问题,我们提出了C2FTRANS,这是一种新型的多尺度架构,将医学图像分割作为粗到精细的过程。 C2FTRAN主要由跨尺度的全局变压器(CGT)组成,该变压器(CGT)解决了CNN中的局部上下文相似性和边界感知的局部变压器(BLT),该局部变压器(BLT)克服了通过变压器中的刚性贴片分配带来的边界不确定性。具体而言,CGT在三个不同的小规模特征图上建立全球依赖性,以获得具有可接受的计算成本的丰富全球语义特征,而BLT通过在熵的指导下适应围绕边界的窗口来捕获中端依赖性,以降低计算复杂性并最小化最小基于大规模特征地图的详细损失。三个公共数据集的广泛实验结果证明了C2FTRAN的卓越性能与基于CNN的最新基于CNN和基于变压器的方法具有更少的参数和较低的拖失术。我们认为,C2Ftrans的设计将进一步激发未来在开发高效和轻量级变压器以进行医学图像细分方面的工作。本文的源代码可在https://github.com/xianlin7/c2ftrans上公开获得。
translated by 谷歌翻译
了解公众关于紧急使用未经证实的治疗剂的论述对于监视安全使用和打击错误信息至关重要。我们开发了一种基于自然语言处理(NLP)的管道,以了解公众对COVID-19与19与COVID相关药物的立场的看法。这项回顾性研究包括2020年1月29日,2020年至2021年11月30日之间的609,189个基于美国的推文,涉及四种药物,这些药物在19日期期间在流行期间引起了广泛关注:1)羟基氯喹和伊维菌素,毒品疗法,具有轶事证据; 2)Molnupiravir和Remdesivir,适合合格患者的FDA批准的治疗选择。时间趋势分析用于了解受欢迎程度和相关事件。进行了内容和人口统计分析,以探讨人们对每种药物的立场的潜在理由。时间趋势分析表明,羟氯喹和伊维菌素的讨论比Molnupiravir和Remdesivir更多,尤其是在Covid-19-19潮中期。羟氯喹和伊维菌素高度政治化,与阴谋论,传闻,名人效应等有关。美国两个主要政党之间立场的分布大不相同(p <0.001);共和党人比民主党人更有可能支持羟氯喹(+55%)和伊维菌素(+30%)。具有医疗保健背景的人倾向于比普通人群多反对羟氯喹(+7%)。相比之下,普通人群更有可能支持伊维菌素(+14%)。我们在https://github.com/ningkko/covid-drug上提供所有数据,代码和模型。
translated by 谷歌翻译
基于图形卷积的方法已成功应用于同质图上的表示学习,其中具有相同标签或相似属性的节点往往相互连接。由于这些方法使用的图形卷积网络(GCN)的同义假设,它们不适合异质图,其中具有不同标记或不同属性的节点往往相邻。几种方法试图解决这个异质问题,但是它们没有改变GCN的基本聚合机制,因为它们依靠求和操作员来汇总邻近节点的信息,这隐含地遵守同质假设。在这里,我们介绍了一种新颖的聚合机制,并开发了基于随机步行聚集的图形神经网络(称为RAW-GNN)方法。提出的方法将随机步行策略与图神经网络集成在一起。新方法利用广度优先的随机步行搜索来捕获同质信息和深度优先搜索以收集异性信息。它用基于路径的社区取代了传统社区,并基于经常性神经网络引入了新的基于路径的聚合器。这些设计使RAW-GNN适用于同质图和异质图。广泛的实验结果表明,新方法在各种同质图和异质图上实现了最先进的性能。
translated by 谷歌翻译
在当今的数据密集型时代,深度学习非常普遍。特别是,卷积神经网络(CNN)在各种领域被广泛采用,以获得卓越的准确性。但是,计算传统CPU和GPU的深入CNN带来了几种性能和能量陷阱。最近已经证明了基于ASIC,FPGA和电阻内存设备的几种新型方法,并有令人鼓舞的结果。他们中的大多数仅针对深度学习的推理(测试)阶段。尝试设计能够培训和推理的全面深度学习加速器的尝试非常有限。这是由于训练阶段的高度计算和记忆密集型性质。在本文中,我们提出了一种新型的模拟光子CNN加速器Litecon。 Litecon使用基于硅微波炉的卷积,基于备忘录的内存和密集波长 - 划分的稳定和超快深度学习。我们使用商业CAD框架(IPKISS)评估LiteCon,该框架(IPKISS)在包括Lenet和VGG-NET在内的深度学习基准模型上评估。与最先进的情况相比,LiteCon分别将CNN的吞吐量,能源效率和计算效率提高了32倍,37倍和5倍,并具有微不足道的精度降解。
translated by 谷歌翻译