Evaluating and comparing text-to-image models is a challenging problem. Significant advances in the field have recently been made, piquing interest of various industrial sectors. As a consequence, a gold standard in the field should cover a variety of tasks and application contexts. In this paper a novel evaluation approach is experimented, on the basis of: (i) a curated data set, made by high-quality royalty-free image-text pairs, divided into ten categories; (ii) a quantitative metric, the CLIP-score, (iii) a human evaluation task to distinguish, for a given text, the real and the generated images. The proposed method has been applied to the most recent models, i.e., DALLE2, Latent Diffusion, Stable Diffusion, GLIDE and Craiyon. Early experimental results show that the accuracy of the human judgement is fully coherent with the CLIP-score. The dataset has been made available to the public.
translated by 谷歌翻译
Soft actuators have attracted a great deal of interest in the context of rehabilitative and assistive robots for increasing safety and lowering costs as compared to rigid-body robotic systems. During actuation, soft actuators experience high levels of deformation, which can lead to microscale fractures in their elastomeric structure, which fatigues the system over time and eventually leads to macroscale damages and eventually failure. This paper reports finite element modeling (FEM) of pneu-nets at high angles, along with repetitive experimentation at high deformation rates, in order to study the effect and behavior of fatigue in soft robotic actuators, which would result in deviation from the ideal behavior. Comparing the FEM model and experimental data, we show that FEM can model the performance of the actuator before fatigue to a bending angle of 167 degrees with ~96% accuracy. We also show that the FEM model performance will drop to 80% due to fatigue after repetitive high-angle bending. The results of this paper objectively highlight the emergence of fatigue over cyclic activation of the system and the resulting deviation from the computational FEM model. Such behavior can be considered in future controllers to adapt the system with time-variable and non-autonomous response dynamics of soft robots.
translated by 谷歌翻译
In this paper, we propose the first-ever real benchmark thought for evaluating Neural Radiance Fields (NeRFs) and, in general, Neural Rendering (NR) frameworks. We design and implement an effective pipeline for scanning real objects in quantity and effortlessly. Our scan station is built with less than 500$ hardware budget and can collect roughly 4000 images of a scanned object in just 5 minutes. Such a platform is used to build ScanNeRF, a dataset characterized by several train/val/test splits aimed at benchmarking the performance of modern NeRF methods under different conditions. Accordingly, we evaluate three cutting-edge NeRF variants on it to highlight their strengths and weaknesses. The dataset is available on our project page, together with an online benchmark to foster the development of better and better NeRFs.
translated by 谷歌翻译
我们假设现有的句子级机器翻译(MT)指标在人类参考包含歧义时会效率降低。为了验证这一假设,我们提出了一种非常简单的方法,用于扩展预审计的指标以在文档级别合并上下文。我们将我们的方法应用于三个流行的指标,即Bertscore,Prism和Comet,以及无参考的公制Comet-QE。我们使用提供的MQM注释评估WMT 2021指标共享任务的扩展指标。我们的结果表明,扩展指标的表现在约85%的测试条件下优于其句子级别的级别,而在排除低质量人类参考的结果时。此外,我们表明我们的文档级扩展大大提高了其对话语现象任务的准确性,从而优于专用基线高达6.1%。我们的实验结果支持我们的初始假设,并表明对指标的简单扩展使他们能够利用上下文来解决参考中的歧义。
translated by 谷歌翻译
6多机器人抓钩是一个持久但未解决的问题。最近的方法利用强3D网络从深度传感器中提取几何抓握表示形式,表明对公共物体的准确性卓越,但对光度化挑战性物体(例如,透明或反射材料中的物体)进行不满意。瓶颈在于这些物体的表面由于光吸收或折射而无法反射准确的深度。在本文中,与利用不准确的深度数据相反,我们提出了第一个称为MonograspNet的只有RGB的6-DOF握把管道,该管道使用稳定的2D特征同时处理任意对象抓握,并克服由光学上具有挑战性挑战的对象引起的问题。 MonograspNet利用关键点热图和正常地图来恢复由我们的新型表示形式表示的6-DOF抓握姿势,该表示的2D键盘具有相应的深度,握把方向,抓握宽度和角度。在真实场景中进行的广泛实验表明,我们的方法可以通过在抓住光学方面挑战的对象方面抓住大量对象并超过基于深度的竞争者的竞争成果。为了进一步刺激机器人的操纵研究,我们还注释并开源一个多视图和多场景现实世界抓地数据集,其中包含120个具有20m精确握把标签的混合光度复杂性对象。
translated by 谷歌翻译
传统的自动门不能区分希望穿过门和经过门的人们,因此他们经常不必要地打开。这导致需要在商业和非商业环境中采用新系统:智能门。特别是,智能门系统根据周围环境的社会环境预测了门附近的人们的意图,然后就是否打开门做出合理的决定。这项工作提出了与智能门有关的第一张纸张,没有铃铛和哨子。我们首先指出,问题不仅涉及可靠性,气候控制,安全性和操作方式。的确,通过对近亲学和场景推理的复杂结合分析,一种预测门附近人们意图的系统还涉及对场景的社会背景的更深入了解。此外,我们对自动门进行了详尽的文献综述,提供了一种新型的系统配方。此外,我们对智能门的未来应用,道德缺陷的描述和立法问题进行了分析。
translated by 谷歌翻译
纳米四轮驱动器是小的,敏捷且廉价的平台,非常适合在狭窄,混乱的环境中部署。由于其有效载荷有限,这些车辆在处理能力方面受到了高度限制,从而使基于常规视觉的方法具有安全性和自主导航不兼容。最近的机器学习发展有望在低潜伏期处高性能感知,而专用的边缘计算硬件有可能增强这些有限设备的处理能力。在这项工作中,我们提出了Nanoflownet,这是一个轻巧的卷积神经网络,用于实时密集的光流估计,对边缘计算硬件。我们从最新的语义细分方面汲取灵感来设计该网络。此外,我们使用运动边界地面真实数据指导学习光流的学习,从而改善了性能而不会影响延迟。 MPI-SINTEL数据集的验证结果显示,鉴于其受限的体系结构,该网络的高性能。此外,我们通过将其部署在超低功率GAP8微处理器上,并将其应用于BitCraze Crazyflie,这是34 G纳米四轮摩托车的BitCraze Crazyflie,并将其应用于34 G Nano Quadcopter的BitCraze Crazyflie,从而成功地证明了纳米滚子的功能。
translated by 谷歌翻译
大型语言模型已经证明了能够在自然语言和编程语言文本上进行条件和生成的能力。这样的模型打开了多语言代码生成的可能性:代码生成模型是否可以将知识从一种语言推广到另一种语言?尽管当代代码生成模型可以生成语义上正确的Python代码,但对它们使用其他语言的能力知之甚少。我们通过提出Multipl-E来促进该主题的探索,这是自然语言到代码生成的第一个多语言平行基准。 Multipl-E扩展了HumaneVal基准(Chen等,2021),以支持另外18种编程语言,涵盖了一系列编程范式和受欢迎程度。我们在Multipl-E:Codex和Incoder上评估了两个最先进的代码生成模型。我们发现,在几种语言上,法典匹配,甚至超过了其在Python上的性能。在多型E中表示的编程语言范围使我们能够探索语言频率和语言功能对模型性能的影响。最后,将代码生成基准分配给新编程语言的多重方法既可扩展又可扩展。我们描述了一种通用方法,可以轻松地增加对新基准和语言的支持。
translated by 谷歌翻译
CT灌注(CTP)是一项体检,用于测量对比度溶液通过像素逐像素的大脑通过大脑的通过。目的是为缺血性病变迅速绘制“灌注图”(即脑血体积,脑血流量和峰值的时间),并能够区分核心和甲瘤区域。在缺血性中风的背景下,精确而快速的诊断可以确定脑组织的命运,并在紧急情况下指导干预和治疗。在这项工作中,我们介绍了UnitObrain数据集,这是CTP的第一个开源数据集。它包括一百多名患者的队列,并伴随着患者元数据和最新算法获得的地面真相图。我们还建议使用欧洲图书馆ECVL和EDDL进行图像处理和开发深度学习模型,提出了一种基于神经网络的新型算法。神经网络模型获得的结果与地面真相相匹配,并为所需数量的CT地图的潜在子采样开辟了道路,这对患者施加了重辐射剂量。
translated by 谷歌翻译
在这项工作中,我们为UNET体系结构引入了一个受生物学启发的远程跳过连接,该连接依赖于混合图像的感知幻觉,是同时编码两个图像的图像。早期编码器特征与更深的解码器的融合允许UNET模型产生更细粒度的密集预测。尽管在细分任务中经过证明,但由于这些远程跳过连接还会导致纹理转移伪像,因此网络的好处对于密集的回归任务进行了下降加权。特别是为了深度估计,这损害了光滑度,并引入了假正边,这是由于深度地图的平滑性质而对任务有害的。拟议的Hybridskip连接显示在平衡边缘保存之间的权衡方面的性能得到了改善,以及损害光滑度的纹理转移伪像的最小化。这是通过分别在高频和低频,编码器和解码器特征之间提供的信息的适当和平衡的信息来实现的。
translated by 谷歌翻译