自我监督的学习算法包括BERT和SIMCLR,在自然语言处理,计算机视觉和语音处理等领域中启用了重要的进步。然而,这些算法是特定于域的,这意味着必须为每个新设置开发新的自我监督的学习算法,包括Myriad Healthcare,Scientific和多模域。为了促进朝向域 - 无症方法的进展,我们介绍了DABS:一个用于自我监督学习的领域 - 不可知基准。为了在DAB上表现良好,在七种不同域名评估算法:自然图像,多通道传感器数据,英语文本,语音记录,多语言文本,胸部X射线和图像,具有文本描述。每个域都包含一个未标记的预先预订的未标记数据集;然后基于其在域中的一组标记任务上的下游性能来评分模型。我们还展示了E-Mix和Shed:两个基线域名 - 不可止结算法;它们相对适度的性能表明,在自我监督学习之前需要取得重大进展是任意域的开箱即用解决方案。基准数据集和基线算法的代码可在https://github.com/alextamkin/dabs上获得。
translated by 谷歌翻译
我们展示了MapReader,一个在Python中编写的免费开源软件库,用于分析大地图集合(扫描或出生)。此库转换历史人员可以通过转动广泛的均匀地图设置到可搜索的主要源来使用映射的方式。 MapReader允许使用很少或没有计算机视觉专业知识的用户来通过Web服务器检索地图; ii)预处理并将它们分成补丁; iii)涂布补丁; iv)火车,微调和评估深度神经网络模型; v)创建有关地图内容的结构化数据。我们展示了MAPREADER如何使历史学家解释$ \ \左右16千世纪的军械调查地图表($ \大约30.5M补丁),将视觉标记转化为机器可读数据的挑战。我们展示了一个案例研究,重点是英国铁路基础设施和建筑物,如这些地图所示。我们还展示了MapReader管道的输出如何链接到我们用于评估的其他外部数据集以及丰富和解释结果。我们释放$ \大约62万美元手动注释的补丁,用于培训和评估模型。
translated by 谷歌翻译
随着已安装的摄像机的数量,需要处理和分析这些摄像机捕获的所有图像所需的计算资源。视频分析使新用例(例如智能城市)或自动驾驶等开放。与此同时,它敦促服务提供商安装额外的计算资源以应对需求,而严格的延迟要求推动到网络末尾的计算,形成了地理分布式和异构的计算位置集,共享和资源受限。这种景观(共享和分布式位置)迫使我们设计可以在所有可用位置之间优化和分发工作的新技术,并且理想情况下,使得计算要求在安装的相机的数量方面增长。在本文中,我们展示了FOMO(专注于移动物体)。该方法通过预处理场景,过滤空区输出并将来自多个摄像机的感兴趣区域组成为用于预先训练的对象检测模型的输入的单个图像来有效地优化多摄像机部署。结果表明,整体系统性能可以提高8倍,而精度可提高40%作为方法的副产物,所有这些都是使用储物预训练模型,没有额外的训练或微调。
translated by 谷歌翻译
以前的工作定义了探索性抓握,其中一个机器人迭代地抓住并丢弃一个未知的复杂多面体物体,以发现一组稳定的掌握对象的每个识别的不同稳定的姿势。最近的工作用来了一个多武装强盗模型,每种姿势一小组候选麦克风;但是,对于具有少数成功Grasps的物体,该组可能不包括最强大的掌握。我们展示了学习高效的掌握装置(腿),这是一种算法,可以通过构建大型有希望的掌握的小型活跃的掌握,并使用学习的信心范围来确定何时何时置信,它可以停止探索对象。实验表明,腿可以比不学习活动集的现有算法更有效地识别高质量的掌握。在仿真实验中,我们测量腿部和基线所识别的最佳掌握的成功概率与真正最强大的掌握的最佳差距。经过3000个探索步骤后,腿部优于14个Dex-Net对手的10个中的基线算法和39 egad的25个!对象。然后,我们开发一个自我监督的掌握系统,机器人探讨了人类干预最小的掌握。 3对象的物理实验表明,腿将从基线收敛到高性能的GRASPS比基线更快。有关补充材料和视频,请参阅\ url {https://sites.google.com/view/legs-exp-grasping}。
translated by 谷歌翻译
为了保护热带森林生物多样性,我们需要能够可靠,便宜地和规模地检测它。通过机器学习方法从被动录制的SoundScapes检测自动化物种是对此目标的有希望的技术,但它受到大型训练数据集的必要性。在婆罗洲的热带森林中使用Soundcapes和通过转移学习创建的卷积神经网络模型(CNN),我们调查I)最低可行训练数据集规模,用于准确预测呼叫类型('Sonotypes')和II)的程度数据增强可以克服小型训练数据集的问题。我们发现甚至相对较高的样本尺寸(每个呼叫类型)导致平庸的精度,然而,无论分类学组或呼叫特征如何,数据增强都会显着提高。我们的研究结果表明,即使对于具有许多罕见物种的小型Sountscape的项目,转移学习和数据增强可以使用CNN来分类物种的发声。我们的开源方法有可能使节约计划能够通过在生物多样性的自适应管理中使用Soundscape数据来实现更有证据。
translated by 谷歌翻译
我们对托管银河系和andromeda星系的群众呈现出新的限制,并使用图形神经网络导出。我们的型号培训了骆驼项目的数千个最先进的流体动力模拟,仅利用属于晕圈的星系的位置,速度和恒星群体,并且能够对无似然推断进行无似的推理晕群,同时占宇宙学和天体物理的不确定性。我们的制约因素与其他传统方法的估计一致。
translated by 谷歌翻译
视听导航将视觉和听觉结合在未映射的环境中导航到声音源。虽然最近的方法已经证明了音频输入的好处,以检测和找到目标,他们专注于干净和静态的声源,并努力推广到闻名声音。在这项工作中,我们提出了新的动态视听导航基准,该基准测试基准测试,该基准要求在具有嘈杂和分散注意力的环境中捕捉环境中的移动声源。我们介绍了一种钢筋学习方法,用于为这些复杂设置学习强大的导航策略。为此,我们提出了一种架构,其融合空间特征空间中的视听信息,以学习本地地图和音频信号中固有的几何信息的相关性。我们展示了我们的方法在两个挑战的3D扫描的真实世界环境中,我们的方法始终如一地占据了所有权力,闻名声音和嘈杂环境的所有任务的大型余量。该基准测试是在http://dav-nav.cs.uni-freiburg.de上获得的。
translated by 谷歌翻译
荆棘冠的海星(婴儿床)爆发是珊瑚损失的主要原因是巨大的障碍礁(GBR),并且正在进行大量监测和控制计划,以试图管理生态可持续水平的COTS群体。我们释放了GBR上的COTS爆发区域的大规模注释的水下图像数据集,以鼓励机器学习和AI驱动技术的研究,以改善珊瑚礁秤上的COTS群体的检测,监测和管理。该数据集发布并托管在一次竞争中,挑战国际机器学习界,并从这些水下图像中的COTS检测的任务挑战。
translated by 谷歌翻译
在临床环境中,通过视频脑电图(EEG)测试监测癫痫患者。视频EEG记录eEG设备记录其脑波时录像带的患者体验。目前,在癫痫发作期间,没有现有的自动化方法用于跟踪患者位置,以及医院患者的视频录制与公开的视频基准数据集大致不同。例如,摄像机角度可能是不寻常的,患者可以部分地覆盖有床上用品和电极组。能够与视频EEG实时跟踪患者将是提高医疗保健质量的有希望的创新。具体而言,自动患者检测系统可以补充临床监督,并降低需要连续监测患者的护士和医生的资源密集努力。我们评估了一个想象的预先训练的面罩R-CNN,一种标准的对象检测深度学习模型,用于使用我们自己的45岁患者45个视频的策划数据集的患者检测任务。数据集被聚合并策划此工作。我们展示没有微调的情况下,Imagenet预训练的掩模R-CNN模型在这些数据上表现不佳。通过微调具有我们数据集的子集的模型,我们观察患者检测性能的大量改善,平均平均精度为0.64。我们表明结果基本上取决于视频剪辑。
translated by 谷歌翻译
我们提出了深刻的Magsac ++结合了传统和深度强大的估算的优势。我们介绍了一种新的损失功能,可利用部分染色的协调特征,例如筛选,以几何实际合理的方式利用部分染色的协调功能。新损失有助于学习有关底层场景几何的高阶信息。此外,我们为Ransac提出了一个新的采样器,总是选择具有最概率的最高概率的样本。在每次不成功的迭代之后,概率通过贝叶斯方法以原则方式更新。深网络的预测被利用在采样器内部。从新的损失,拟议的采样器和一些技术进步受益,Deep Magsac ++在来自公共可用数据集的成千上万的图像对上的准确性和运行方面都优于最先进的和基本矩阵估计。
translated by 谷歌翻译