尽管在移动机器人技术中常用的2D占用图可以在室内环境中进行安全导航,但为了让机器人理解和与其环境互动及其代表3D几何和语义环境信息的居民。语义信息对于有效解释人类归因于空间不同部分的含义至关重要,而3D几何形状对于安全性和高级理解很重要。我们提出了一条管道,该管道可以生成用于机器人应用的室内环境的多层表示。提出的表示形式包括3D度量语义层,2D占用层和对象实例层,其中已知对象被通过新型模型匹配方法获得的近似模型代替。将度量层和对象实例层组合在一起以形成对环境的增强表示形式。实验表明,当任务完成场景中对象的一部分时,提出的形状匹配方法优于最先进的深度学习方法。如F1得分分析所示,管道性能从模拟到现实世界都很好,使用蒙版R-CNN作为主要瓶颈具有语义分割精度。最后,我们还在真正的机器人平台上演示了多层地图如何用于提高导航安全性。
translated by 谷歌翻译
In this paper, we propose and showcase, for the first time, monocular multi-view layout estimation for warehouse racks and shelves. Unlike typical layout estimation methods, MVRackLay estimates multi-layered layouts, wherein each layer corresponds to the layout of a shelf within a rack. Given a sequence of images of a warehouse scene, a dual-headed Convolutional-LSTM architecture outputs segmented racks, the front and the top view layout of each shelf within a rack. With minimal effort, such an output is transformed into a 3D rendering of all racks, shelves and objects on the shelves, giving an accurate 3D depiction of the entire warehouse scene in terms of racks, shelves and the number of objects on each shelf. MVRackLay generalizes to a diverse set of warehouse scenes with varying number of objects on each shelf, number of shelves and in the presence of other such racks in the background. Further, MVRackLay shows superior performance vis-a-vis its single view counterpart, RackLay, in layout accuracy, quantized in terms of the mean IoU and mAP metrics. We also showcase a multi-view stitching of the 3D layouts resulting in a representation of the warehouse scene with respect to a global reference frame akin to a rendering of the scene from a SLAM pipeline. To the best of our knowledge, this is the first such work to portray a 3D rendering of a warehouse scene in terms of its semantic components - Racks, Shelves and Objects - all from a single monocular camera.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
We present the design, development, and evaluation of HREyes: biomimetic communication devices which use light to communicate information and, for the first time, gaze direction from AUVs to humans. First, we introduce two types of information displays using the HREye devices: active lucemes and ocular lucemes. Active lucemes communicate information explicitly through animations, while ocular lucemes communicate gaze direction implicitly by mimicking human eyes. We present a human study in which our system is compared to the use of an embedded digital display that explicitly communicates information to a diver by displaying text. Our results demonstrate accurate recognition of active lucemes for trained interactants, limited intuitive understanding of these lucemes for untrained interactants, and relatively accurate perception of gaze direction for all interactants. The results on active luceme recognition demonstrate more accurate recognition than previous light-based communication systems for AUVs (albeit with different phrase sets). Additionally, the ocular lucemes we introduce in this work represent the first method for communicating gaze direction from an AUV, a critical aspect of nonverbal communication used in collaborative work. With readily available hardware as well as open-source and easily re-configurable programming, HREyes can be easily integrated into any AUV with the physical space for the devices and used to communicate effectively with divers in any underwater environment with appropriate visibility.
translated by 谷歌翻译
主动映射的传统方法专注于构建几何图。但是,对于大多数真实世界应用程序,可行的信息与环境中的语义有意义的对象有关。我们提出了一种用于主动度量语义映射问题的方法,该方法使多个异质机器人能够协作构建环境地图。这些机器人积极探索以最大程度地减少语义(对象分类)和几何(对象建模)信息中的不确定性。我们使用信息丰富但稀疏的对象模型表示环境,每个模型由基本形状和语义类标签组成,并使用大量现实世界数据在经验上表征不确定性。鉴于先前的地图,我们使用此模型为每个机器人选择动作以最大程度地减少不确定性。通过多种现实世界环境中的多机器人实验证明了我们的算法的性能。所提出的框架适用于广泛的现实问题,例如精确农业,基础设施检查和工厂中的资产映射。
translated by 谷歌翻译
在此评论中,我们为模糊C均值问题的“迭代重新加权算法”中提出了一个简单的替代推导。我们表明,对于IRW-FCM算法而得出的迭代步骤不过是流行的多数化最小化(MM)算法的步骤。本说明中提出的推导更简单明了,与IRW-FCM的推导不同,此处的推导不涉及引入任何辅助变量。此外,通过将IRW-FCM的步骤显示为MM算法,可以消除IRW-FCM算法的内环,并且可以有效地作为“单个环”算法运行算法。更确切地说,新的基于MM的推导推论IRW-FCM的单个内部环足够降低模糊C均值的目标函数,从而加快了IRW-FCM算法的速度。
translated by 谷歌翻译
傅立叶Ptychographic显微镜(FPM)是一种成像过程,它通过计算平均值克服了传统的传统显微镜空间带宽产品(SBP)的限制。它利用使用低数值孔径(NA)物镜捕获的多个图像,并通过频域缝线实现高分辨率相成像。现有的FPM重建方法可以广泛地分为两种方法:基于迭代优化的方法,这些方法基于正向成像模型的物理学以及通常采用馈送深度学习框架的数据驱动方法。我们提出了一个混合模型驱动的残留网络,该网络将远期成像系统的知识与深度数据驱动的网络相结合。我们提出的架构LWGNET将传统的电线流优化算法展开为一种新型的神经网络设计,该设计通过复杂的卷积块增强了梯度图像。与其他传统的展开技术不同,LWGNET在PAR上执行时使用的阶段较少,甚至比现有的传统和深度学习技术更好,尤其是对于低成本和低动态范围CMOS传感器。低位深度和低成本传感器的性能提高有可能显着降低FPM成像设置的成本。最后,我们在收集到的实际数据上显示出始终提高的性能。
translated by 谷歌翻译
由于不同的人对他人的情感表达方式有所不同,因此他们在唤醒和价值方面的注释本身是主观的。为了解决这个问题,这些情绪注释通常由多个注释者收集,并在注释者之间平均,以获取唤醒和价值的标签。但是,除了平均水平外,标签的不确定性也令人感兴趣,还应对自动情绪识别进行建模和预测。在文献中,为简单起见,标签不确定性建模通常以高斯对收集的注释的假设进行处理。但是,由于注释者的数量通常由于资源限制而相当小,因此我们认为高斯方法是一个相当粗略的假设。相比之下,在这项工作中,我们建议使用学生的T分布来对标签分布进行建模,这使我们可以考虑可用的注释数量。使用此模型,我们将基于相应的Kullback-Leibler差异函数得出相应的损失函数,并使用它来训练估计器以分布情绪标签,从中可以推断出平均值和不确定性。通过定性和定量分析,我们显示了T分布比高斯分布的好处。我们在AVEC'16数据集上验证了我们提出的方法。结果表明,我们基于T分布的方法对高斯方法进行了改进,而最新的不确定性建模会导致基于语音的情绪识别以及最佳甚至更快的收敛性。
translated by 谷歌翻译
最近的各向同性网络,例如Convmixer和Vision Transformers,在视觉识别任务中发现了巨大的成功,匹配或胜过非方向性卷积神经网络(CNNS)。各向同性架构特别适合跨层重量共享,这是一种有效的神经网络压缩技术。在本文中,我们对各向同性网络中共享参数的方法(SPIN)进行了经验评估。我们提出了一个框架,以形式化重量分享设计决策并对此设计空间进行全面的经验评估。在我们的实验结果的指导下,我们提出了一种重量共享策略,以与仅传统缩放方法相比,在拖放和参数与准确性方面,产生一个具有更好总体效率的模型家族,例如,将Convmixer压缩为1.9倍,同时提高准确性的准确性成像网。最后,我们进行定性研究,以进一步了解各向同性体系结构中的重量共享的行为。该代码可在https://github.com/apple/ml-pin上找到。
translated by 谷歌翻译
对使用深神经网络(DNN)来求解部分微分方程(PDE)的兴趣越来越大。尽管承诺这种方法成立,但在各个方面都可以改善它们。这两个缺点是(i)相对于经典数值方法的计算效率低下,以及(ii)训练有素的DNN模型的不泄露性。在这项工作中,我们介绍了Aspinn,这是我们早期工作的各向异性扩展,称为Spinn- sparse,物理信息和可解释的神经网络 - 解决解决这两个问题的PDE。 Aspinns概括了径向基函数网络。我们证明,使用涉及椭圆形和双曲线PDE的各种示例表明,我们提出的特殊体系结构比通用DNN更有效,而同时也可以直接解释。此外,由于每个节点的局部影响区域的各向异性,使用Aspinn比使用Spinn捕获溶液所需的较少的节点需要更少的节点来改进我们提出的Spinn模型。阿斯平的解释性转化为对其重量和偏见的现成可视化,从而对训练有素的模型的性质有了更多的了解。反过来,这提供了一个系统的过程,可以根据计算解决方案的质量改进体系结构。因此,Aspinns是经典数值算法与基于现代DNN的方法之间的有效桥梁,以求解PDES。在此过程中,我们还将Aspinns的培训简化为更接近监督学习算法的形式。
translated by 谷歌翻译