我们提出了一种称为基本的组合缩放方法,可在ImageNet ILSVRC-2012验证集上实现85.7%的前1个零点精度,超越了最佳发布的零拍模型 - 剪辑并对齐 - 达9.3%。我们的基本模式还显示出鲁棒性基准的显着改进。例如,在5个测试集中,具有自然分布换档,如想象的 - {A,R,V2,素描}和ObjectNet,我们的车型实现了83.7%的前1个平均精度,只有一个小幅度从其原始的想象精度下降。为实现这些结果,我们扩大了剪辑的对比学习框架,并在三个方面对齐:数据大小,型号大小和批量大小。我们的数据集具有6.6B噪声图像文本对,比对齐的4倍,比夹子大16倍。我们最大的型号具有3B重量,参数比为3.75倍,拖鞋比对齐和夹子更大。我们的批量尺寸为65536,比剪辑的2倍,4倍超过对齐。缩放的主要挑战是我们的加速器的内存有限,如GPU和TPU。因此,我们提出了一种在线渐变缓存的简单方法来克服这个限制。
translated by 谷歌翻译
我们提出Volux-GaN,一种生成框架,以合成3D感知面孔的令人信服的回忆。我们的主要贡献是一种体积的HDRI可发感方法,可以沿着每个3D光线沿着任何所需的HDR环境图累计累积Albedo,漫射和镜面照明贡献。此外,我们展示了使用多个鉴别器监督图像分解过程的重要性。特别是,我们提出了一种数据增强技术,其利用单个图像肖像结合的最近的进步来强制实施一致的几何形状,反照镜,漫射和镜面组分。与其他生成框架的多个实验和比较展示了我们的模型是如何向光电型可致力于的3D生成模型前进的一步。
translated by 谷歌翻译
这项工作系统地调查了深度图像去噪者(DIDS)的对抗性稳健性,即,可以从嘈杂的观察中恢复地面真理的噪音,因对抗性扰动而变化。首先,为了评估DIDS的稳健性,我们提出了一种新的逆势攻击,即观察到的零平均攻击({\ SC obsatk}),对给定嘈杂的图像来制作对抗零均匀扰动。我们发现现有的确实容易受到{\ SC Obsatk}产生的对抗噪声。其次,为了强化犯罪,我们提出了一种对抗性培训策略,混合对抗训练({\ SC帽}),共同列车与对抗性和非对抗性嘈杂的数据做出,以确保重建质量很高,并且围绕非对抗性数据是局部光滑的。所得到的确实可以有效去除各种类型的合成和对抗性噪声。我们还发现,DIDS的稳健性使其在看不见的真实噪音上的概括能力。实际上,{\ SC帽子} -Tromed DID可以从真实世界的噪音中恢复高质量的清洁图像,即使没有真正的嘈杂数据训练。基准数据集的广泛实验,包括SET68,PolyU和SIDD,证实了{\ SC Obsatk}和{\ SC帽}的有效性。
translated by 谷歌翻译
我们展示了一个新的开源和可扩展知识提取工具包,称为Deepke(基于深度学习的知识提取),支持标准完全监督,低资源少拍摄和文档级方案。 Deepke实现了各种信息提取任务,包括命名实体识别,关系提取和属性提取。使用统一的框架,DeePke允许开发人员和研究人员根据其要求,自定义数据集和模型以从非结构化文本中提取信息。具体而言,DeePke不仅为不同的任务和场景提供了各种功能模块和模型实现,而且还通过一致的框架组织所有组件以维持足够的模块化和可扩展性。此外,我们在\ URL {http://deepke.zjukg.cn/}中介绍一个在线平台,用于实时提取各种任务。 Deepke已经配备了Google Colab教程和初学者的综合文件。我们用演示视频发布\ url {https://github.com/zjunlp/deepke}源代码。
translated by 谷歌翻译
听诊器录制的胸部声音为新生儿的偏远有氧呼吸健康监测提供了机会。然而,可靠的监控需要高质量的心脏和肺部声音。本文介绍了新生胸部声音分离的新型非负基质分子(NMF)和非负矩阵协同分解(NMCF)方法。为了评估这些方法并与现有的单源分离方法进行比较,产生人工混合物数据集,包括心脏,肺和噪音。然后计算用于这些人造混合物的信噪比。这些方法也在现实世界嘈杂的新生儿胸部声音上进行测试,并根据生命符号估计误差评估,并在我们以前的作品中发达1-5的信号质量得分。此外,评估所有方法的计算成本,以确定实时处理的适用性。总的来说,所提出的NMF和NMCF方法都以2.7db到11.6db的下一个最佳现有方法而言,对于人工数据集,0.40至1.12的现实数据集的信号质量改进。发现10S记录的声音分离的中值处理时间为NMCF和NMF的342ms为28.3。由于稳定且稳健的性能,我们认为我们的提出方法可用于在真实的环境中弃绝新生儿心脏和肺部。提出和现有方法的代码可以在:https://github.com/egrooby-monash/heart-and-lung-sound-eparation。
translated by 谷歌翻译
分布式文档表示是自然语言处理中的基本问题之一。目前分布式文档表示方法主要考虑单词或句子的上下文信息。这些方法不考虑文件作为整体的一致性,例如文档之间的关系,文档中的纸张标题和抽象,标题和描述或相邻机构之间的关系。一致性显示文档是否有意义,逻辑和句法,尤其是科学文档(论文或专利等)。在本文中,我们提出了一个耦合文本对嵌入(CTPE)模型来学习科学文档的表示,其通过分割文档来维护文档与耦合文本对的相干性。首先,我们将文档划分为构造耦合文本对的两个部分(例如,标题和抽象等)。然后,我们采用负面采样来构建两个部分来自不同文档的未耦合文本对。最后,我们训练模型以判断文本对是否被耦合或解耦并使用所获得的耦合文本对的嵌入作为嵌入文档。我们在三个数据集上执行实验,以获得一个信息检索任务和两个推荐任务。实验结果验证了所提出的CTPE模型的有效性。
translated by 谷歌翻译
由于其捕获远程依赖性的能力,变压器在许多愿景任务中取得了成功。然而,它们的二次计算复杂性构成了将它们应用于需要密集预测的视觉任务的主要障碍,例如对象检测,特征匹配,立体声等。我们引入四叉树的关注,这降低了从二次到线性的计算复杂性。我们的Quadtree变压器构建令牌金字塔,并以粗糙的方式计算注意力。在每个级别,选择具有最高关注分数的顶部K补丁,使得在下一级别,仅关注对应于这些顶部K个补丁的相关区域内。我们表明Quadtree注意在各种视觉任务中实现了最先进的性能,例如,在SCANNET匹配上有4.0%的特征匹配,立体匹配的拖鞋约为50%,提高了Imagenet分类的14-1.5%,对Coco对象检测的提高1.2-1.8%,改进0.7-2.4%以前的最先进变换器的语义分割。该代码可在https://github.com/tangshitao/quadtreeeattention上获得}:htps://github.com/tangshitao/quadtreeattention。
translated by 谷歌翻译
尽管近期长尾对象检测成功,但几乎所有长尾对象探测器都是基于两级范式开发的。在实践中,一阶段探测器在行业中更为普遍,因为它们具有简单而快速的管道,易于部署。然而,在长尾情景中,到目前为止,这项工作尚未探讨。在本文中,我们调查了在这种情况下是否可以良好的单级探测器表现良好。我们发现预防一步检测器实现优异性能的主要障碍是:在长尾数据分布下,类别遭受不同程度的正负不平衡问题。传统的焦点损失与所有类别的调制因子相同的调节因子平衡,因此未能处理长尾问题。为了解决这个问题,我们提出了根据其不平衡程度独立地重新平衡不同类别的正面和负样本的损失贡献的均等的联络损失(EFL)。具体而言,EFL采用类别相关调制因子,可以通过不同类别的培训状态来动态调整。对挑战性的LVIS V1基准进行的广泛实验表明了我们提出的方法的有效性。通过端到端培训管道,EF​​L在整体AP方面实现了29.2%,并对稀有类别进行了显着的性能改进,超越了所有现有的最先进的方法。代码可在https://github.com/modeltc/eod上获得。
translated by 谷歌翻译
我们介绍了一种新颖的屏蔽图AutoEncoder(MGAE)框架,以在图形结构数据上执行有效的学习。从自我监督学习中欣识见,我们随机掩盖了大部分边缘,并在训练期间尝试重建这些缺失的边缘。 Mgae有两个核心设计。首先,我们发现掩蔽了输入图结构的高比率,例如70 \%$,产生一个非凡和有意义的自我监督任务,使下游应用程序受益。其次,我们使用图形神经网络(GNN)作为编码器,以在部分掩蔽的图表上执行消息传播。为了重建大量掩模边缘,提出了一种定制的互相关解码器。它可以捕获多粒度的锚边的头部和尾部节点之间的互相关。耦合这两种设计使MGAE能够有效且有效地培训。在多个开放数据集(Planetoid和OGB基准测试)上进行了广泛的实验,证明MGAE通常比链接预测和节点分类更好地表现优于最先进的无监督竞争对手。
translated by 谷歌翻译
我们提出了一种雷达惯性内径测量的方法,其使用连续时间框架来熔断来自多个汽车雷达的熔丝测量和惯性测量单元(IMU)。不利的天气条件对雷达传感器的操作性能不同,与相机和激光器传感器不同,对雷达传感器的操作性能没有显着影响。雷达在这种情况下的鲁棒性和乘客车辆雷达的普遍普遍激励我们来看看雷达用于自我运动估计。连续时间轨迹表示不仅应用于实现异构和异步多传感器融合的框架,还应用于通过能够计算封闭形式的姿势及其衍生物来实现高效优化,并且在任何特定时间沿着弹道。我们将我们的连续时间估计与来自离散时间雷达 - 惯性内径型方法的方法进行比较,并表明我们的连续时间方法优于离散时间方法。据我们所知,这是第一次将连续时间框架应用于雷达惯性内径术。
translated by 谷歌翻译