学习在无人驾驶汽车(UAV)捕获的图像中检测物体(例如人类)通常会遭受无人机对物体的位置造成的巨大变化。此外,现有的基于无人机的基准数据集不提供足够的数据集元数据,这对于精确的模型诊断至关重要,并且学习功能不变。在本文中,我们介绍了大天使,这是第一个基于无人机的对象检测数据集,该数据集由具有相似想象条件以及无人机位置以及对象姿势元数据捕获的真实和合成子集组成。一系列实验经过精心设计,使用最先进的对象检测器设计,以证明在模型评估过程中利用元数据的好处。此外,还提供了几种涉及模型微调过程中涉及真实和合成数据的关键见解。最后,我们讨论了有关大天使的优势,局限性和未来方向,以突出其对更广泛的机器学习社区的独特价值。
translated by 谷歌翻译
Person recognition at a distance entails recognizing the identity of an individual appearing in images or videos collected by long-range imaging systems such as drones or surveillance cameras. Despite recent advances in deep convolutional neural networks (DCNNs), this remains challenging. Images or videos collected by long-range cameras often suffer from atmospheric turbulence, blur, low-resolution, unconstrained poses, and poor illumination. In this paper, we provide a brief survey of recent advances in person recognition at a distance. In particular, we review recent work in multi-spectral face verification, person re-identification, and gait-based analysis techniques. Furthermore, we discuss the merits and drawbacks of existing approaches and identify important, yet under explored challenges for deploying remote person recognition systems in-the-wild.
translated by 谷歌翻译
Governments, industry, and academia have undertaken efforts to identify and mitigate harms in ML-driven systems, with a particular focus on social and ethical risks of ML components in complex sociotechnical systems. However, existing approaches are largely disjointed, ad-hoc and of unknown effectiveness. Systems safety engineering is a well established discipline with a track record of identifying and managing risks in many complex sociotechnical domains. We adopt the natural hypothesis that tools from this domain could serve to enhance risk analyses of ML in its context of use. To test this hypothesis, we apply a "best of breed" systems safety analysis, Systems Theoretic Process Analysis (STPA), to a specific high-consequence system with an important ML-driven component, namely the Prescription Drug Monitoring Programs (PDMPs) operated by many US States, several of which rely on an ML-derived risk score. We focus in particular on how this analysis can extend to identifying social and ethical risks and developing concrete design-level controls to mitigate them.
translated by 谷歌翻译
本文提供了当前视频内容提取工具的比较,重点是比较基于任务的机器学习服务。在过去十年中,视频智能(VIDINT)数据已成为关键情报来源。基于AI的分析和自动化工具从视频中提取和构造内容的需求已迅速成为需要大规模搜索,分析和利用视频的组织的优先事项。随着机器学习技术的快速增长,机器转录,机器翻译,主题标签和对象识别任务的成熟度以指数级的速度提高,随着新应用程序的发展,速度和准确性的性能记录破坏了。本文的每个部分审查并根据与机器学习技术从视频中提取信息相关的任务进行了比较产品,软件资源和视频分析功能。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
从世界上任何地方拍摄的单个地面RGB图像预测地理位置(地理位置)是一个非常具有挑战性的问题。挑战包括由于不同的环境场景而导致的图像多样性,相同位置的出现急剧变化,具体取决于一天中的时间,天气,季节和更重要的是,该预测是由单个图像可能只有一个可能只有一个图像做出的很少有地理线索。由于这些原因,大多数现有作品仅限于特定的城市,图像或全球地标。在这项工作中,我们专注于为行星尺度单位图地理定位开发有效的解决方案。为此,我们提出了转运器,这是一个统一的双分支变压器网络,在整个图像上关注细节,并在极端的外观变化下产生健壮的特征表示。转运器将RGB图像及其语义分割图作为输入,在每个变压器层之后的两个平行分支之间进行交互,并以多任务方式同时执行地理位置定位和场景识别。我们在四个基准数据集上评估转运器-IM2GPS,IM2GPS3K,YFCC4K,YFCC26K,并获得5.5%,14.1%,4.9%,9.9%的大陆级别准确度比最新的级别的精度提高。在现实世界测试图像上还验证了转运器,发现比以前的方法更有效。
translated by 谷歌翻译
面部识别网络通常展示相对于性别,Skintone等的敏感属性,适用于性别和Skintone,我们观察到网络的面积,网络参加属性的类别。这可能有助于偏见。在这种直觉上建立一种新的基于蒸馏的方法,称为蒸馏和去偏置(D&D),以实施网络以寻求类似的面部区域,而不管属性类别如何。在D&D中,我们从一个属性中培训一类图像的教师网络;例如轻的Skintone。然后从教师蒸馏信息,我们在剩余类别的图像上培训学生网络;例如,黑暗的skintone。特征级蒸馏损失约束学生网络以生成类似教师的表示。这允许学生网络参加所有属性类别的类似面部区域,并使其能够减少偏差。我们还提出了D&D的顶部的第二蒸馏步骤,称为D&D ++。对于D&D ++网络,我们将D&D网络的“未偏见”蒸馏成新的学生网络,D&D ++网络。我们在所有属性类别上培训新网络;例如,光明和黑暗的碳酸根。这有助于我们培训对属性偏差的网络,同时获得比D&D更高的面部验证性能。我们展示D&D ++优于在IJB-C数据集上减少性别和Skintone偏置的现有基线,同时获得比现有的对抗偏置方法更高的面部验证性能。我们评估我们所提出的方法对两个最先进的面部识别网络的有效性:Crystalface和Arcface。
translated by 谷歌翻译
匹配问题的图表寻求在两个图形的节点之间找到对齐,这最小化了邻接分歧的数量。解决图表匹配越来越重要,因为它在运营研究,计算机视觉,神经科学等中的应用程序。然而,当前最先进的算法效率低,匹配非常大的图形,尽管它们产生了良好的准确性。这些算法的主要计算瓶颈是线性分配问题,必须在每次迭代时解决。在本文中,我们利用最近的最佳运输领域的进步来取代接受的线性分配算法的使用。我们呈现山羊,对最先进的图形匹配近似算法“常见问题”(Vogelstein,2015)的修改,用CuSuri(2013)的“光速最优传输”方法替换其线性和分配步骤。该修改提供了对速度和经验匹配精度的改进。在模拟和实际数据示例中匹配图表中对该方法的有效性进行了说明。
translated by 谷歌翻译
脚步是多媒体应用中最无处不在的声音效果之一。了解声学特征和开发脚步声音效果的合成模型存在大量研究。在本文中,我们展示了对这项任务采用神经综合的第一次尝试。我们实施了两个基于GAN的架构,并将结果与实际记录相比以及六种传统的声音合成方法。我们的架构达到了现实主义分数,与录制的样品一样高,显示了令人鼓舞的任务结果。
translated by 谷歌翻译
In recent years, visible-spectrum face verification systems have been shown to match the performance of experienced forensic examiners. However, such systems are ineffective in low-light and nighttime conditions. Thermal face imagery, which captures body heat emissions, effectively augments the visible spectrum, capturing discriminative facial features in scenes with limited illumination. Due to the increased cost and difficulty of obtaining diverse, paired thermal and visible spectrum datasets, not many algorithms and large-scale benchmarks for low-light recognition are available. This paper presents an algorithm that achieves state-of-the-art performance on both the ARL-VTF and TUFTS multi-spectral face datasets. Importantly, we study the impact of face alignment, pixel-level correspondence, and identity classification with label smoothing for multi-spectral face synthesis and verification. We show that our proposed method is widely applicable, robust, and highly effective. In addition, we show that the proposed method significantly outperforms face frontalization methods on profile-to-frontal verification. Finally, we present MILAB-VTF(B), a challenging multi-spectral face dataset that is composed of paired thermal and visible videos. To the best of our knowledge, with face data from 400 subjects, this dataset represents the most extensive collection of indoor and long-range outdoor thermal-visible face imagery. Lastly, we show that our end-to-end thermal-to-visible face verification system provides strong performance on the MILAB-VTF(B) dataset.
translated by 谷歌翻译