近年来,根据Vision-Language预训练(VLP),我们在图像标题任务中掌握了显着的性能提升。比例被认为是这一进步的重要因素。然而,大多数现有工作仅侧重于预训练的变压器,在大约400万图像上具有中等大小(例如,12或24层)。在本文中,我们呈现柠檬,一个大规模的图像标题器,并为图像标题的VLP的缩放行为提供第一个实证研究。我们使用最先进的VINVL模型作为我们的参考模型,它由图像特征提取器和变压器模型组成,并将变压器上下放大,模型大小范围从13到675万参数。在数据方面,我们通过高达200万图像文本对进行实验,该对基于图像的Alt属性自动从Web自动收集(称为ALT200M)。广泛的分析有助于将性能趋势表征为模型大小和预训练数据尺寸增加。我们还比较不同的培训配方,特别是在大规模嘈杂数据上培训。结果,柠檬在几个主要图像标题基准上实现了新的技术状态,包括Coco标题,Nocaps和概念标题。我们还显示柠檬可以在以零拍摄方式使用时生成带有长尾视觉概念的标题。
translated by 谷歌翻译
在本文中,我们提出了Unicorn,一种vision-language(vl)模型,使文本生成和边界框预测到单个架构中。具体而言,我们将每个框量化为四个离散框令牌,并将其序列化为序列,可以与文本令牌集成。我们将所有VL问题作为一代任务,其中目标序列由集成文本和框令牌组成。然后,我们训练变压器编码器解码器以以自动回归方式预测目标。通过如此统一的框架和输入输出格式,Unicorn在7 VL基准测试中实现了对现有技术的可比性的性能,涵盖了视觉接地,接地字幕,视觉问题应答和图像标题任务。当用多任务FINETUNING培训时,UNICORN可以通过单一的参数方法接近不同的VL任务,从而跨越下游任务边界。我们展示了具有单一模型不仅可以节省参数,而且还可以在某些任务上提高模型性能。最后,Unicorn显示了概括到诸如ImageNet对象本地化的新任务的能力。
translated by 谷歌翻译
在本文中,我们提出了一种单一统一的变压器(UFO),其能够处理视觉语言的单峰输入(例如,图像或语言)或多模式输入(例如,图像和问题的串联)( VL)表示学习。现有方法通常为每个模态和/或特定融合网络设计个人网络,用于多模式任务。为了简化网络架构,我们使用单个变压器网络并在VL预培训期间强制执行多任务学习,其包括图像文本对比丢失,图像文本匹配丢失和基于双向的屏蔽语言建模损耗SEQ2Seq注意面具。相同的变压器网络用作不同预训练任务中的图像编码器,文本编码器或融合网络。经验上,我们观察不同任务之间的冲突,并在视觉问题应答,Coco图像标题(交叉熵优化)和Nocaps(在香料中)实现新的艺术状态。在其他下游任务中,例如,图像文本检索,我们也实现了竞争性能。
translated by 谷歌翻译
视网膜手术是一种复杂的医疗程序,需要特殊的专业知识和灵巧。为此目的,目前正在开发几种机器人平台,以实现或改善显微外科任务的结果。由于这种机器人的控制通常被设计用于在视网膜附近导航,成功的套管针对接并将仪器插入眼睛中代表了一种额外的认知努力,因此是机器人视网膜手术中的开放挑战之一。为此目的,我们为自主套管针对接的平台结合了计算机愿景和机器人设置。灵感来自古巴Colibri(蜂鸟)使用只使用视觉将其喙对齐,我们将相机安装到机器人系统的内逸线器上。通过估计套管针的位置和姿势,机器人能够自主地对齐并导航仪器朝向贸易圈的入口点(TEP),最后执行插入。我们的实验表明,该方法能够精确地估计套管针的位置和姿势,实现可重复的自主对接。这项工作的目的是降低机器人设置准备在手术任务之前的复杂性,因此增加了系统集成到临床工作流程的直观。
translated by 谷歌翻译
人类影响识别是一个完善的研究领域,具有许多应用,例如心理护理,但现有方法认为所有兴趣情绪都是先验的作为注释培训例子。然而,通过新颖的心理学理论的人类情感谱的粒度和改进的上升和改善语境中的情绪增加给数据收集和标签工作带来了相当大的压力。在本文中,我们在语境中概念化了对情绪的一次性识别 - 一种新的问题,旨在识别来自单个支持样品的更精细粒子水平的人体影响。为了解决这项具有挑战性的任务,我们遵循深度度量学习范例,并引入多模态情绪嵌入方法,通过利用人类外观的互补信息和通过语义分割网络获得的语义场景上下文来最大限度地减少相同情绪嵌入的距离。我们上下文感知模型的所有流都使用加权三态丢失和加权交叉熵损失来共同优化。我们对适应我们单次识别问题的Demotic DataSet的分类和数值情感识别任务进行了彻底的实验,揭示了从单一示例中分类人类影响是一项艰巨的任务。尽管如此,我们模型的所有变体都明显优于随机基线,同时利用语义场景上下文一致地提高了学习的表示,在一次射击情感识别中设置最先进的结果。为了促进对人类影响国家的更普遍表示的研究,我们将在https://github.com/kpeng9510/affect-dml下公开向社区公开提供我们的基准和模型。
translated by 谷歌翻译
对于视频标题,“预培训和微调”已成为事实上的范式,其中想象成预训练(InP)通常用于帮助编码视频内容,并且从头开始进行任务导向的网络应对标题一代。将InP与最近提出的剪辑(对比语言图像预培训)进行比较,研究了INP的潜在缺陷,用于视频标题,并探索产生准确描述的关键。具体而言,我们对INP与剪辑的实证研究表明,INP使视频标题模型棘手捕获属性的语义和对无关背景信息的敏感。相比之下,剪辑在标题质量中的显着提升突出了属性感知表示学习的重要性。因此,我们被激励引入双属性预测,需要一个辅助任务,需要视频字幕模型来学习视频内容和属性之间的对应关系以及属性之间的共同发生关系。基准数据集的广泛实验表明,我们的方法能够更好地学习属性感知的表示,这对具有不同架构和解码算法的模型带来了一致的改进。
translated by 谷歌翻译
用于单视网型3D重建(SVR)的神经网络(NN)已经获得了普及。最近的工作指出,对于SVR,大多数尖端NNS在重建看不见的对象时具有有限的性能,因为它们主要依赖于识别(即,基于分类的方法)而不是形状重建。要深入了解这个问题,我们对NNS更倾向识别重建的何时以及为什么提供系统的研究,反之亦然。我们的发现表明,确定识别与重建的主要因素是如何分散训练数据。因此,我们介绍了一个新的数据驱动度量的分散评分,以量化这种前导因素并研究其对NNS的影响。我们假设当训练图像更加分散时,NNS朝向识别偏置,并且训练形状较少分散。支持我们的假设,通过我们的合成和基准数据集的实验证明了分散评分。我们表明,拟议的指标是分析重建质量的主要方法,并提供除了传统的重建分数之外的新颖信息。
translated by 谷歌翻译
优化所需特性的化学分子在于药物发育的核心。尽管深度生成模型和加强学习方法进行了初步成功,但这些方法主要受到预定义属性函数或通过手动预编译的原始和优化分子的并行数据的限制。在本文中,我们首次制定了作为样式转移问题的分子优化,并提出了一种新的生成模型,可以通过对抗训练策略自动学习两组非并行数据之间的内部差异。我们的模型通过组合辅助引导变分自身额和生成流动技术,可以通过组合辅助引导变分自动化器和经常性流动技术来保存分子内容和分子特性的优化。两种分子优化任务的实验,毒性修饰和合成性改进,证明我们的模型显着优于几种最先进的方法。
translated by 谷歌翻译
基于骨架的动作识别由于数据集的轻质,紧凑的性质,吸引了从业者和研究人员。与基于RGB视频的动作识别相比,基于骨架的动作识别是一种更安全的方法来保护受试者的隐私,同时具有竞争性识别性能。但是,由于骨架估计算法以及运动和深度传感器的改进,可以在骨架数据集中保留运动特性的更多细节,从而导致数据集的潜在隐私泄漏。要调查骨架数据集的潜在隐私泄漏,我们首先将分类器从关节的轨迹中分类敏感私人信息。实验表明,培训的模型对性别进行分类,可以预测88%的准确性,并重新识别具有82%的准确性的人。我们提出了两个匿名化算法的变体来保护骨架数据集的潜在隐私泄漏。实验结果表明,匿名数据集可以降低隐私泄漏的风险,同时对动作识别性能产生边际影响。
translated by 谷歌翻译
土地遥感分析是地球科学的一个至关重要的研究。在这项工作中,我们专注于土地分析的挑战任务,即自动提取来自遥感数据的交通道路,在城市发展和扩展估计中具有广泛的应用。然而,传统方法仅利用空中图像的有限信息,或者简单地融合多峰信息(例如,车辆轨迹),因此无法识别不受约束的道路。为了促进这个问题,我们介绍了一种新的神经网络框架,称为跨模型消息传播网络(CMMPNET),其完全有益于互补的不同模态数据(即,空中图像和众包轨迹)。具体地,CMMPNET由两个深度自动编码器组成,用于模态特定的表示学习和用于跨模型表示细化的定制设计的双增强模块。特别地,全面提取和动态地传播每个模态的互补信息以增强另一个模态的表示。关于三个真实基准的广泛实验展示了我们CMMPNET对强大的道路提取的有效性,这些资务道路提取受益于使用图像和轨迹数据或图像和LIDAR数据进行混合不同的模态数据。从实验结果来看,我们观察到所提出的方法优于大型利润率的当前最先进的方法。
translated by 谷歌翻译