事件摄像机由于其有益的特性,例如高时间分辨率,高带宽,几乎没有运动模糊和低功耗,因此在机器人技术和计算机视觉中变得越来越流行。但是,这些相机在市场上仍然昂贵且稀缺,使它们无法获得大多数。使用事件模拟器最大程度地减少了对真实事件摄像机开发新算法的需求。但是,由于模拟的计算复杂性,无法实时生成现有仿真器的事件流,而是必须从现有视频序列或预渲染中预先计算,然后从虚拟3D场景中进行模拟。尽管这些离线生成的事件流可以用作学习任务的培训数据,但所有响应时间的应用程序都无法从这些模拟器中受益,因为它们仍然需要实际的事件摄像头。这项工作提出了仿真方法,将事件模拟的性能提高了两个数量级(使其实时能够),同时在质量评估中保持竞争力。
translated by 谷歌翻译
深度学习可以大大提高高光谱成像(HSI)的分类精度。尽管如此,对大多数小型高光谱数据集的培训并不是微不足道的。两个关键的挑战是录音的大信道维度以及不同制造商的摄像机之间的不兼容。通过引入合适的模型偏置并连续定义通道维度,我们提出了针对高光谱成像的这些挑战进行优化的2D卷积。我们根据两个不同的高光谱应用(内联检查和遥感)评估该方法。除了显示模型的优势外,修改还增加了其他解释能力。此外,该模型以数据驱动的方式学习了必要的摄像机过滤器。基于这些相机过滤器,可以设计一个最佳摄像头。
translated by 谷歌翻译
对象检测管道包括一个捕获场景的相机和处理这些图像的对象检测器。图像的质量直接影响对象检测器的性能。如今,许多工作重点是改善图像质量或独立改善对象检测模型,但忽略了两个子系统联合优化的重要性。本文的目的是通过专注于优化针对对象检测器量身定制的输入图像来调整遥感方案中现有对象检测器的检测吞吐量和准确性。为了实现这一目标,我们经验分析了两个选择的摄像机校准参数(摄像机失真校正和伽马校正)和五个图像参数(量化,压缩,分辨率,颜色模型,其他通道)的影响。对于我们的实验,我们利用来自不同域中的三个无人机数据集,以及大小的最新对象检测器模型的混合物,可对管道参数的影响进行广泛的评估。最后,我们在嵌入式平台上实现了一个对象检测管道原型,以便根据我们的发现为构建对象检测管道提供最佳练习建议。我们表明,并非所有参数都对检测准确性和数据吞吐量都有平等的影响,并且通过在参数之间使用合适的折衷方案,我们能够为轻质对象检测模型实现更高的检测精度,同时保持相同的数据吞吐量。
translated by 谷歌翻译
我们呈现Fouriermask,它采用傅立叶系列与隐式的神经表示结合起来,以产生实例分段掩模。我们将傅里叶映射(FM)应用于坐标位置,并利用映射特征作为隐式表示的输入(基于坐标的多层Perceptron(MLP))。 FouriMASK学习为特定实例预测FM的系数,因此将FM适应特定对象。这允许Fouriermask广泛化以预测来自自然图像的实例分段掩模。由于隐式功能在输入坐标的域中是连续的,因此我们说明通过对输入像素坐标进行分采样,因此我们可以在推理期间生成更高的分辨率掩码。此外,我们在Fourimask的不确定预测上培训渲染器MLP(Fourrierrend),并说明它显着提高了面具的质量。与在相同输出分辨率的基线掩模R-CNN相比,Fourimask在MS Coco DataSet上显示竞争结果,并在更高分辨率上超越它。
translated by 谷歌翻译
获取数据以培训基于深入的学习的对象探测器(无人机)昂贵,耗时,甚至可以在特定环境中禁止。另一方面,合成数据快速且便宜。在这项工作中,我们探讨了在各种应用环境中从UVS探讨了对象检测中的合成数据。为此,我们将开源框架DeepGtav扩展到UAV方案的工作。我们在多个域中捕获各种大规模的高分辨率合成数据集,以通过分析多种型号的多种培训策略来展示它们在真实对象检测中的使用。此外,我们分析了几种不同的数据生成和采样参数,以提供可操作的工程建议,以获得进一步的科学研究。DeepGTAV框架可在https://git.io/jyf5j提供。
translated by 谷歌翻译
立体声Vision是一种有效的深度估算技术,具有广泛适用性在自主城市和公路驾驶中。虽然已经为立体声开发了各种基于深度学习的方法,但是具有固定基线的双目设置的输入数据受到限制。解决这样的问题,我们介绍了一个端到端网络,用于处理来自三曲面的数据,这是窄和宽立体对的组合。在这种设计中,用网络的共享权重和中间融合处理两对具有公共参考图像的双目数据。我们还提出了一种用于合并两个基线的4D数据的引导添加方法。此外,介绍了实际和合成数据集的迭代顺序自我监督和监督学习,使三曲系统的训练实用,无需实际数据集的地面真实数据。实验结果表明,三曲差距网络超越了个别对被馈送到类似架构中的场景。代码和数据集:https://github.com/cogsys-tuebingen/tristeReonet。
translated by 谷歌翻译
学习玩乒乓球是机器人的一个具有挑战性的任务,作为所需的各种笔画。最近的进展表明,深度加强学习(RL)能够在模拟环境中成功地学习最佳动作。然而,由于高勘探努力,RL在实际情况中的适用性仍然有限。在这项工作中,我们提出了一个现实的模拟环境,其中多种模型是为球的动态和机器人的运动学而建立的。代替训练端到端的RL模型,提出了一种具有TD3骨干的新的政策梯度方法,以基于击球时间基于球的预测状态来学习球拍笔划。在实验中,我们表明,所提出的方法显着优于仿真中现有的RL方法。此外,将域从仿真跨越现实,我们采用了一个有效的再培训方法,并在三种实际情况下测试。由此产生的成功率为98%,距离误差约为24.9厘米。总培训时间约为1.5小时。
translated by 谷歌翻译
隐式神经表示(INR)使用多层的感知来代表低维问题域中的高频函数。最近,这些表示在与复杂的3D对象和场景相关的任务上实现了最先进的结果。核心问题是高度详细信号的表示,其使用具有周期性激活功能(警报器)的网络来解决或将傅立叶映射应用于输入。这项工作分析了两种方法之间的连接,并表明傅里叶映射的Perceptron在结构上像一个隐藏层警报器。此外,我们确定先前提出的傅里叶映射与一般D维傅里叶系列之间的关系,导致整数晶格映射。此外,我们修改了渐进式培训策略,以便在任意傅里叶映射上工作,并表明它提高了插值任务的泛化。最后,我们比较图像回归和新颖观看综合任务的不同映射。我们确认前面发现映射性能的主要贡献者是其元素的嵌入和标准偏差的大小。
translated by 谷歌翻译
现代神经结构搜索方法对几个学科进行了多次破坏最先进的结果。超级网络,许多这样的方法的中心组件,可以快速估计搜索空间中的任何架构的准确性或损失统计数据。它们包含所有候选架构的网络权重,因此可以通过应用各个操作来近似特定的。但是,这种设计忽略了连续操作之间的潜在依赖关系。我们将超级网络扩展到有条件的权重,这些重量取决于选择的组合并分析它们的效果。NAS - 台凳201和基于NAS - 台型宏的搜索空间的实验显示了架构选择的改进,并且资源开销几乎可以忽略不计,以便顺序网络设计。
translated by 谷歌翻译
Coronary Computed Tomography Angiography (CCTA) provides information on the presence, extent, and severity of obstructive coronary artery disease. Large-scale clinical studies analyzing CCTA-derived metrics typically require ground-truth validation in the form of high-fidelity 3D intravascular imaging. However, manual rigid alignment of intravascular images to corresponding CCTA images is both time consuming and user-dependent. Moreover, intravascular modalities suffer from several non-rigid motion-induced distortions arising from distortions in the imaging catheter path. To address these issues, we here present a semi-automatic segmentation-based framework for both rigid and non-rigid matching of intravascular images to CCTA images. We formulate the problem in terms of finding the optimal \emph{virtual catheter path} that samples the CCTA data to recapitulate the coronary artery morphology found in the intravascular image. We validate our co-registration framework on a cohort of $n=40$ patients using bifurcation landmarks as ground truth for longitudinal and rotational registration. Our results indicate that our non-rigid registration significantly outperforms other co-registration approaches for luminal bifurcation alignment in both longitudinal (mean mismatch: 3.3 frames) and rotational directions (mean mismatch: 28.6 degrees). By providing a differentiable framework for automatic multi-modal intravascular data fusion, our developed co-registration modules significantly reduces the manual effort required to conduct large-scale multi-modal clinical studies while also providing a solid foundation for the development of machine learning-based co-registration approaches.
translated by 谷歌翻译