深度学习模型在机器人技术中的有用性在很大程度上取决于培训数据的可用性。培训数据的手动注释通常是不可行的。合成数据是可行的替代方法,但遭受了域间隙。我们提出了一种多步方法,以获取训练数据而无需手动注释:从3D对象网格中,我们使用现代合成管道生成图像。我们利用一种最先进的图像到图像翻译方法来使合成图像适应真实域,以学习的方式最大程度地减少域间隙。翻译网络是从未配对的图像中训练的,即仅需要未经通知的真实图像集合。然后,生成和精致的图像可用于训练深度学习模型以完成特定任务。我们还建议并评估翻译方法的扩展,以进一步提高性能,例如基于补丁的训练,从而缩短了训练时间并增加了全球一致性。我们评估我们的方法并证明其在两个机器人数据集上的有效性。我们终于深入了解了博学的改进操作。
translated by 谷歌翻译
Mohamed Bin Zayed国际机器人挑战(MBZIRC)2020为无人机(无人机)构成了不同的挑战。我们提供了四个量身定制的无人机,专门为MBZIRC的单独空中机器人任务开发,包括自定义硬件和软件组件。在挑战1中,使用高效率,车载对象检测管道进行目标UAV,以捕获来自目标UAV的球。第二个UAV使用类似的检测方法来查找和流行散落在整个竞技场的气球。对于挑战2,我们展示了一种能够自主空中操作的更大的无人机:从相机图像找到并跟踪砖。随后,将它们接近,挑选,运输并放在墙上。最后,在挑战3中,我们的UAV自动发现使用LIDAR和热敏摄像机的火灾。它用船上灭火器熄灭火灾。虽然每个机器人都具有任务特定的子系统,但所有无人机都依赖于为该特定和未来竞争开发的标准软件堆栈。我们介绍了我们最开源的软件解决方案,包括系统配置,监控,强大无线通信,高级控制和敏捷轨迹生成的工具。为了解决MBZirc 2020任务,我们在多个研究领域提出了机器视觉和轨迹生成的多个研究领域。我们介绍了我们的科学贡献,这些贡献构成了我们的算法和系统的基础,并分析了在阿布扎比的MBZIRC竞赛2020年的结果,我们的系统在大挑战中达到了第二名。此外,我们讨论了我们参与这种复杂的机器人挑战的经验教训。
translated by 谷歌翻译
我们介绍了Fadiv-Syn,一种快速深入的新型观点合成方法。相关方法通常受到它们的深度估计阶段的限制,其中不正确的深度预测可能导致大的投影误差。为避免此问题,我们将输入图像有效地将输入图像呈现为目标帧,以为一系列假定的深度平面。得到的平面扫描量(PSV)直接进入我们的网络,首先以自我监督的方式估计软PSV掩模,然后直接产生新颖的输出视图。因此,我们侧行显式深度估计。这提高了透明,反光,薄,特色场景部件上的效率和性能。 Fadiv-syn可以在大规模Realestate10K数据集上执行插值和外推任务,优于最先进的外推方法。与可比方法相比,它由于其轻量级架构而实现了实时性能。我们彻底评估消融,例如去除软掩蔽网络,从更少的示例中培训以及更高的分辨率和更强深度离散化的概括。
translated by 谷歌翻译
Biometrics are one of the most privacy-sensitive data. Ubiquitous authentication systems with a focus on privacy favor decentralized approaches as they reduce potential attack vectors, both on a technical and organizational level. The gold standard is to let the user be in control of where their own data is stored, which consequently leads to a high variety of devices used. Moreover, in comparison with a centralized system, designs with higher end-user freedom often incur additional network overhead. Therefore, when using face recognition for biometric authentication, an efficient way to compare faces is important in practical deployments, because it reduces both network and hardware requirements that are essential to encourage device diversity. This paper proposes an efficient way to aggregate embeddings used for face recognition based on an extensive analysis on different datasets and the use of different aggregation strategies. As part of this analysis, a new dataset has been collected, which is available for research purposes. Our proposed method supports the construction of massively scalable, decentralized face recognition systems with a focus on both privacy and long-term usability.
translated by 谷歌翻译
机器学习(ML)算法在帮助不同学科和机构的科学社区解决大型和多样化的数据问题方面表现出了增长的趋势。但是,许多可用的ML工具在编程方面要求且计算成本高昂。 MlexChange项目旨在建立一个配备有能力工具的协作平台,该平台使科学家和设施使用者没有深刻的ML背景来使用ML和计算资源进行科学发现。在高水平上,我们针对完整的用户体验,在该体验中,可以通过Web应用程序可以轻松获得管理和交换ML算法,工作流和数据。到目前为止,我们已经构建了四个主要组件,即中央职位管理器,集中式内容注册表,用户门户和搜索引擎,并成功地将这些组件部署到了测试服务器上。由于每个组件都是一个独立的容器,因此可以轻松地在不同尺度的服务器上部署整个平台或其个人服务,从笔记本电脑(通常是单个用户)到高性能群集(HPC)(同时)通过许多用户。因此,MlexChange使用方案使灵活性变得灵活 - 用户可以从远程服务器访问服务和资源,也可以在其本地网络中运行整个平台或其个人服务。
translated by 谷歌翻译
研究人员高度利用了原位同步加速器高能X射线粉末衍射(XRD)技术,可以分析功能设备(例如电池材料)或复杂样品环境中材料的晶体结构反应堆)。材料的原子结构可以通过其衍射模式以及详细的分析(例如Rietveld的细化)来识别,该分析表明测量的结构如何偏离理想结构(例如内部应力或缺陷)。对于原位实验,通常在不同条件下(例如绝热条件)在同一样本上收集一系列XRD图像,产生不同的物质状态,或者简单地作为时间的时间连续收集,以跟踪样品的变化超过化学或物理过程。原位实验通常与区域探测器一起进行,收集由理想粉末的衍射环组成的2D图像。根据材料的形式,人们可能会观察到除现实样本及其环境的典型Debye Scherrer环以外的其他特征,例如纹理或优选方向以及2D XRD图像中的单晶衍射点。在这项工作中,我们介绍了对机器学习方法的研究,以快速可靠地识别XRD图像中的单晶衍射点。在XRD图像整合过程中排除伪影的排除允许精确分析感兴趣的粉末衍射环。我们观察到,当用高度多样的数据集对较小的子集进行训练时,梯度提升方法可以始终如一地产生高精度的结果。与常规方法相比,该方法大大减少了识别和分离单晶斑所花费的时间。
translated by 谷歌翻译
最先进的3D感知生成模型依赖于基于坐标的MLP来参数化3D辐射场。在证明令人印象深刻的结果的同时,请查询每个沿每个射线样品的MLP,都会导致渲染缓慢。因此,现有方法通常会呈现低分辨率特征图,并通过UPSMPLING网络处理以获取最终图像。尽管有效,神经渲染通常纠缠于观点和内容,从而改变摄像头会导致几何或外观的不必要变化。在基于体素的新型视图合成中的最新结果中,我们研究了本文中稀疏体素电网表示的快速和3D一致生成建模的实用性。我们的结果表明,当将稀疏体素电网与渐进式生长,自由空间修剪和适当的正则化结合时,单层MLP确实可以被3D卷积代替。为了获得场景的紧凑表示并允许缩放到更高的体素分辨率,我们的模型将前景对象(以3D模型)从背景(以2D模型建模)中。与现有方法相反,我们的方法仅需要单个正向通行证来生成完整的3D场景。因此,它允许从任意观点呈现有效渲染,同时以高视觉保真度产生3D一致的结果。
translated by 谷歌翻译
深度学习中的最新工作重新想象了数据的表示形式,因为函数从坐标空间映射到基础连续信号。当神经网络近似此类功能时,这引入了更常见的多维阵列表示的引人注目的替代方案。关于这种隐式神经表示(INR)的最新工作表明,仔细体系结构搜索 - INR可以超越建立的压缩方法,例如JPEG(例如Dupont等,2021)。在本文中,我们提出了至关重要的步骤,以使这种想法可扩展:首先,我们采用最先进的网络稀疏技术来大大改善压缩。其次,引入第一种方法,允许在常用的元学习算法的内环中使用稀疏性,从而极大地改善了压缩和学习INR的计算成本。这种形式主义的普遍性使我们能够对各种数据模式提出结果,例如图像,歧管,签名距离功能,3D形状和场景,其中一些建立了新的最新结果。
translated by 谷歌翻译
非神经和神经生物系统都可以学习。因此,与其专注于纯粹类似大脑的学习,不如在研究物理系统中学习学习。这样的努力包括平衡传播(EP)和耦合学习(CL),它们需要存储两个不同的状态 - 自由状态以及扰动的状态,以保留有关梯度的信息。受粘液模具的启发,我们提出了一种植根于化学信号传导的新学习算法,该算法不需要两个不同的状态。相反,输出误差信息是以与激活/前馈信号相似的化学信号中的化学信号编码。稳态反馈化学浓度以及激活信号在本地存储所需的梯度信息。我们使用物理,线性流网络应用算法,并使用具有93%精度的虹膜数据集对其进行测试。我们还证明我们的算法执行梯度下降。最后,除了将我们的算法与EP和CL进行比较外,我们还解决了该算法的生物学合理性。
translated by 谷歌翻译
智能城市的智能交通灯可以最佳地减少交通拥堵。在这项研究中,我们采用了加强学习,培训了城市移动模拟器的红绿灯的控制代理。由于现有工程的差异,除了基于价值的方法之外,利用基于策略的深度加强学习方法,近端策略优化(PPO),例如Deep Q网络(DQN)和双DQN(DDQN)。首先,将获得PPO的最佳政策与来自DQN和DDQN的PPO相比。发现PPO的政策比其他政策更好。接下来,而不是固定间隔的流量光阶段,我们采用具有可变时间间隔的光相位,这导致更好的策略来传递流量流。然后,研究了环境和行动干扰的影响,以展示基于学习的控制器是强大的。最后,我们考虑不平衡的交通流量,并发现智能流量可以适度地对不平衡的流量方案执行,尽管它仅从平衡流量方案中了解最佳策略。
translated by 谷歌翻译