尽管生成的对抗网络能够综合面部,猫,风景或几乎任何其他单一类别的高度逼真的图像,但逐文的油漆综合引擎可以 - 从单个文本提示中 - 合成具有无休止的类别的现实图像,与看似无尽的类别合成任意配置和组合。这项强大的技术为照片法医社区带来了新的挑战。由于文本的油漆不是基于明确的几何或物理模型,以及人类视觉系统对照明不一致的普遍不敏感的事实,我们提供了对DALL-E-2合成图像的照明一致性的初步探索基于基于法医的分析将证明在检测这种新的合成介质时富有成果。
translated by 谷歌翻译
键入“约翰内斯·威默尔(Johannes Vermeer)的珍珠耳环的海獭”或“时代广场上滑板上的泰迪熊的照片”中的openai的dall-e-e-2 by Text合成引擎中的照片,您不会对您不会感到失望令人愉悦且令人愉悦的结果。合成高度逼真的图像的能力 - 除了我们的想象力外,似乎没有其他限制 - 一定会产生许多令人兴奋和创造性的应用。这些图像也可能会对照片法医社区构成新的挑战。由于文本的油漆不是基于明确的几何建模,而人类视觉系统通常忽略了几何不一致的事实,我们提供了对DALL-E-2合成图像的观点一致性的初步探索基于基于法医的分析将证明在检测这种新的合成介质时富有成果。
translated by 谷歌翻译
2022年俄罗斯对乌克兰的入侵正在两条战线上进行:一场残酷的地面战争和一场旨在掩盖和证明俄罗斯行动正当的双重虚假宣传运动。这项运动至少包括一个据称显示乌克兰总统Zelenskyy承认失败和投降的一个示例。为了期待这种形式的未来攻击,我们描述了一种面部和手势行为模型,该模型捕获了Zelenskyy的口语风格的独特特征。经过八个多个小时的真实视频的培训,我们表明,这种行为模型可以将Zelenskyy与深效冒险家区分开来。这种模型可以在战争中扮演重要角色,尤其是在战争的雾中 - 将真实的作用与区分。假。
translated by 谷歌翻译
We present NusaCrowd, a collaborative initiative to collect and unite existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have has brought together 137 datasets and 117 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their effectiveness has been demonstrated in multiple experiments. NusaCrowd's data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and its local languages. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and its local languages. Our work is intended to help advance natural language processing research in under-represented languages.
translated by 谷歌翻译
在立体声视觉中,自相似或平淡的区域可能使得很难匹配两个图像之间的补丁。基于主动立体声的方法通过在场景上投射伪随机模式来减轻此问题,以便可以在没有歧义的情况下识别图像对的每个贴片。但是,投影模式显着改变了图像的外观。如果这种模式充当对抗性噪声的一种形式,则可能对基于深度学习的方法的性能产生负面影响,这现在是密集立体声视觉的事实上的标准。在本文中,我们提出了Active-Passive Simstereo数据集和相应的基准测试,以评估立体声匹配算法的被动立体声和活动立体声图像之间的性能差距。使用提出的基准测试和额外的消融研究,我们表明特征提取和匹配的模块选择了20个选择的基于深度学习的立体声匹配方法,可以推广到主动立体声,没有问题。但是,由于二十个体系结构(ACVNet,Cascadestereo和Stereonet)中三个的差异细化模块由于对输入图像的外观的依赖而受到主动立体声模式的负面影响。
translated by 谷歌翻译
尽管自我监督的学习技术通常用于通过建模多种观点来从未标记的数据中挖掘隐性知识,但尚不清楚如何在复杂且不一致的环境中执行有效的表示学习。为此,我们提出了一种方法,特别是一致性和互补网络(Coconet),该方法利用了严格的全局视图一致性和局部跨视图互补性,以维护正则化,从而从多个视图中全面学习表示形式。在全球阶段,我们认为关键知识在观点之间隐含地共享,并增强编码器以从数据中捕获此类知识可以提高学习表示表示的可区分性。因此,保留多种观点的全球一致性可确保获得常识。 Coconet通过利用基于广义切成薄片的Wasserstein距离利用有效的差异度量测量来对齐视图的概率分布。最后,在本地阶段,我们提出了一个启发式互补性因素,该因素是跨观看歧视性知识的,它指导编码者不仅要学习视图的可辨别性,而且还学习跨视图互补信息。从理论上讲,我们提供了我们提出的椰子的基于信息理论的分析。从经验上讲,为了研究我们方法的改善,我们进行了足够的实验验证,这表明椰子的表现优于最先进的自我监督方法,这证明了这种隐含的一致性和互补性可以增强正则化的能力潜在表示的可区分性。
translated by 谷歌翻译
立体声视觉最新发展的主要重点是如何在被动立体声视觉中获得准确的密集差异图。与被动立体声相比,主动视觉系统可以更准确地估计致密差异。但是,子像素准确的差异估计仍然是一个空的问题,几乎没有得到关注。在本文中,我们提出了一种新的学习策略,以训练神经网络,以估计半密集的主动立体声视觉的高质量子像素差异图。关键的见解是,如果神经网络能够共同学习如何完善差异图,同时使像素不足以纠正差异估计值,那么它们的准确性就可以翻倍。我们的方法基于贝叶斯建模,在该模型中,经过验证和无效的像素由它们的随机属性定义,从而使模型可以学习如何自行选择哪些像素值得关注。使用主动立体声数据集(例如Active-Passive Simstereo),我们证明了所提出的方法优于当前最新的活动立体声模型。我们还证明,所提出的方法与米德尔伯里数据集上的最新被动立体声模型进行了优惠比较。
translated by 谷歌翻译
本文介绍了Z-Code ++,这是一种针对抽象文本摘要优化的新的预训练的语言模型。该模型使用三种技术扩展了艺术编码器模型的状态。首先,我们使用两阶段的预训练过程来改善模型在低资源摘要任务上的性能。该模型首先是使用文本语料库进行语言理解的预先培训的,然后在汇总语料库中不断预先培训,以进行基础文本生成。其次,我们用分离的注意力层代替编码器中的自我发项层,其中每个单词都使用两个向量分别代表其内容和位置。第三,我们使用融合编码器,这是一种以层次方式编码长序列的简单而有效的方法。 Z-Code ++在13个文本摘要任务中的9个跨5种语言中创建了新的艺术状态。我们的模型的参数有效,因为它的表现优于XSUM上600倍较大的Palm-540b,并且在Samsum上的易经的200倍GPT3-175B较大。在零射击和少量设置中,我们的模型大大优于竞争模型。
translated by 谷歌翻译
使用变压器模型,多语言神经机器的翻译一直显示出巨大的成功。部署这些模型是具有挑战性的,因为它们通常需要各种语言的大词汇(词汇)尺寸。这限制了在上一个词汇投影层中预测输出令牌的速度。为了减轻这些挑战,本文提出了一种通过聚类的快速词汇投影方法,该方法可用于GPU上的多语言变压器。首先,我们脱机将词汇搜索空间分为不同的结合群,鉴于解码器输出的隐藏上下文向量,这导致词汇投影的词汇列要小得多。其次,在推理时,提出的方法预测了词汇投影中隐藏上下文向量的簇和候选候选代币。本文还包括对在多语言环境中构建这些群集的不同方式的分析。我们的结果表明,FLOAT16 GPU推断中的端到端速度增长高达25%,同时保持BLEU得分并略有增加记忆成本。所提出的方法将词汇投影步骤加速自身最多2.6倍。我们还进行了广泛的人类评估,以验证所提出的方法保留了原始模型的翻译质量。
translated by 谷歌翻译
本文提出了一种简单而有效的方法,可以改善两种情况下的直接(x-to-y)翻译:零射击和直接数据时。我们将编码器和解码器的输入令牌修改为包括源和目标语言的信号。我们在从头开始训练或使用拟议的设置对验证模型进行填充时显示出绩效增长。在实验中,根据检查点选择标准,我们的方法在内部数据集上显示了近10.0个BLEU点的增益。在WMT评估活动中,从英语性能提高了4.17和2.87 BLEU点,在零射击设置和直接数据可用于培训时。而X-to-y在零射基线上提高了1.29 BLEU,而在多到许多基线上提高了0.44。在低资源设置中,我们在X-TO-Y域数据上进行填充时会看到1.5〜1.7点的改善。
translated by 谷歌翻译