Deep learning has been widely used in the perception (e.g., 3D object detection) of intelligent vehicle driving. Due to the beneficial Vehicle-to-Vehicle (V2V) communication, the deep learning based features from other agents can be shared to the ego vehicle so as to improve the perception of the ego vehicle. It is named as Cooperative Perception in the V2V research, whose algorithms have been dramatically advanced recently. However, all the existing cooperative perception algorithms assume the ideal V2V communication without considering the possible lossy shared features because of the Lossy Communication (LC) which is common in the complex real-world driving scenarios. In this paper, we first study the side effect (e.g., detection performance drop) by the lossy communication in the V2V Cooperative Perception, and then we propose a novel intermediate LC-aware feature fusion method to relieve the side effect of lossy communication by a LC-aware Repair Network (LCRN) and enhance the interaction between the ego vehicle and other vehicles by a specially designed V2V Attention Module (V2VAM) including intra-vehicle attention of ego vehicle and uncertainty-aware inter-vehicle attention. The extensive experiment on the public cooperative perception dataset OPV2V (based on digital-twin CARLA simulator) demonstrates that the proposed method is quite effective for the cooperative point cloud based 3D object detection under lossy V2V communication.
translated by 谷歌翻译
Recently, Vehicle-to-Everything(V2X) cooperative perception has attracted increasing attention. Infrastructure sensors play a critical role in this research field, however, how to find the optimal placement of infrastructure sensors is rarely studied. In this paper, we investigate the problem of infrastructure sensor placement and propose a pipeline that can efficiently and effectively find optimal installation positions for infrastructure sensors in a realistic simulated environment. To better simulate and evaluate LiDAR placement, we establish a Realistic LiDAR Simulation library that can simulate the unique characteristics of different popular LiDARs and produce high-fidelity LiDAR point clouds in the CARLA simulator. Through simulating point cloud data in different LiDAR placements, we can evaluate the perception accuracy of these placements using multiple detection models. Then, we analyze the correlation between the point cloud distribution and perception accuracy by calculating the density and uniformity of regions of interest. Experiments show that the placement of infrastructure LiDAR can heavily affect the accuracy of perception. We also analyze the correlation between perception performance in the region of interest and LiDAR point cloud distribution and validate that density and uniformity can be indicators of performance.
translated by 谷歌翻译
Various depth estimation models are now widely used on many mobile and IoT devices for image segmentation, bokeh effect rendering, object tracking and many other mobile tasks. Thus, it is very crucial to have efficient and accurate depth estimation models that can run fast on low-power mobile chipsets. In this Mobile AI challenge, the target was to develop deep learning-based single image depth estimation solutions that can show a real-time performance on IoT platforms and smartphones. For this, the participants used a large-scale RGB-to-depth dataset that was collected with the ZED stereo camera capable to generated depth maps for objects located at up to 50 meters. The runtime of all models was evaluated on the Raspberry Pi 4 platform, where the developed solutions were able to generate VGA resolution depth maps at up to 27 FPS while achieving high fidelity results. All models developed in the challenge are also compatible with any Android or Linux-based mobile devices, their detailed description is provided in this paper.
translated by 谷歌翻译
神经表面重建旨在基于多视图图像重建准确的3D表面。基于神经量的先前方法主要训练完全隐式的模型,它们需要单个场景的数小时培训。最近的努力探讨了明确的体积表示,该表示通过记住可学习的素网格中的重要信息,从而大大加快了优化过程。但是,这些基于体素的方法通常在重建细粒几何形状方面遇到困难。通过实证研究,我们发现高质量的表面重建取决于两个关键因素:构建相干形状的能力和颜色几何依赖性的精确建模。特别是,后者是准确重建细节的关键。受这些发现的启发,我们开发了Voxurf,这是一种基于体素的方法,用于有效,准确的神经表面重建,该方法由两个阶段组成:1)利用可学习的特征网格来构建颜色场并获得连贯的粗糙形状,并且2)使用双色网络来完善详细的几何形状,可捕获精确的颜色几何依赖性。我们进一步引入了层次几何特征,以启用跨体素的信息共享。我们的实验表明,Voxurf同时达到了高效率和高质量。在DTU基准测试中,与最先进的方法相比,Voxurf获得了更高的重建质量,训练的加速度为20倍。
translated by 谷歌翻译
非接触式粒子操纵(NPM)技术将人类的分析能力大大扩展到了微观和纳米量表,这反过来又大大促进了材料科学和生命科学的发展。尽管从机器人的角度来看,通过电力,磁性和光场取得了巨大的成功,但它仍然是劳动密集型操作,因为在早期准备阶段,专业人力援助以某种方式是强制性的。因此,出现运动颗粒的自动非接触夹捕获是值得的,特别是对于粒子样品罕见,脆弱或接触敏感的应用。利用最新的动态声场调节技术,尤其是通过从微尺度到亚中心尺度的声学操纵的巨大可扩展性,我们提出了一个自动化的非接触式微粒诱捕,该非接触式捕获具有超声梯级系统和显微镜系统和显微镜系统的移动微粒本文的视觉。据我们所知,这项工作的主要贡献是首次通过诉诸机器人方法来实现声学NPM场中完全自动化的微颗粒捕获。简而言之,通过参考其计算和生成的声学陷阱区域来观察并通过双眼微观视觉系统观察并预测粒子的移动状态。在这项工作中,非连接机器人最终效应器的手眼关系问题也解决了。实验证明了这项工作的有效性。
translated by 谷歌翻译
随着深度学习模型和数据集的迅速扩展,网络培训非常耗时和资源成本。使用小型合成数据集学习并没有在整个数据集中进行培训,而是一种有效的解决方案。广泛的研究已在数据集凝结的方向上进行了探索,其中梯度匹配可以达到最先进的性能。梯度匹配方法在原始和合成数据集上训练时通过匹配梯度直接靶向训练动力学。但是,对该方法的原理和有效性进行了有限的深入研究。在这项工作中,我们从全面的角度深入研究了梯度匹配方法,并回答了什么,如何和何处的关键问题。我们建议将多级梯度匹配,以涉及类内和类间梯度信息。我们证明,距离函数应集中在角度上,考虑到同时延迟过度拟合的幅度。还提出了一种过度拟合的自适应学习步骤策略,以修剪不必要的优化步骤,以提高算法效率。消融和比较实验表明,与先前的工作相比,我们提出的方法具有优越的准确性,效率和概括性。
translated by 谷歌翻译
没有标签的预处理分子表示模型是各种应用的基础。常规方法主要是处理2D分子图,并仅专注于2D任务,使其预验证的模型无法表征3D几何形状,因此对于下游3D任务有缺陷。在这项工作中,我们从完整而新颖的意义上处理了3D分子预处理。特别是,我们首先提议采用基于能量的模型作为预处理的骨干,该模型具有实现3D空间对称性的优点。然后,我们为力预测开发了节点级预处理损失,在此过程中,我们进一步利用了Riemann-Gaussian分布,以确保损失为E(3) - 不变,从而实现了更多的稳健性。此外,还利用了图形噪声量表预测任务,以进一步促进最终的性能。我们评估了从两个具有挑战性的3D基准:MD17和QM9的大规模3D数据集GEOM-QM9预测的模型。实验结果支持我们方法对当前最新预处理方法的更好疗效,并验证我们设计的有效性。
translated by 谷歌翻译
模拟/混合信号电路设计是整个芯片设计过程中最复杂,最耗时的阶段之一。由于芯片制造的各种过程,电压和温度(PVT)变化,模拟电路不可避免地会遭受性能降解。尽管在典型条件下自动化模拟电路设计方面已经有很多工作,但在探索在真实且不可预测的硅变化下探索可靠设计的研究有限。针对变化的自动模拟设计需要过度的计算和时间成本。为了应对挑战,我们提出了RobustanAlog,这是一个强大的电路设计框架,涉及优化过程中的变化信息。具体而言,不同变化下的电路优化被认为是一组任务。任务之间的相似之处是杠杆作用,并且可以缓解竞争以实现样本效率高的多任务培训。此外,Robustanalog根据每次迭代中当前的性能来修剪任务空间,从而导致进一步的模拟成本降低。这样,鲁棒可以迅速产生一组电路参数,这些电路参数满足各种变化的各种约束(例如增益,带宽,噪声...)。我们将Robustanalog与贝叶斯优化,进化算法和深层确定性策略梯度(DDPG)进行了比较,并证明Robustanalog可以将所需的优化时间显着减少14-30次。因此,我们的研究提供了一种处理各种真实硅条件的可行方法。
translated by 谷歌翻译
尽管现有的机器阅读理解模型在许多数据集上取得了迅速的进展,但它们远非强劲。在本文中,我们提出了一个面向理解的机器阅读理解模型,以解决三种鲁棒性问题,这些问题过于敏感,稳定性和泛化。具体而言,我们首先使用自然语言推理模块来帮助模型了解输入问题的准确语义含义,以解决过度敏感性和稳定性的问题。然后,在机器阅读理解模块中,我们提出了一种记忆引导的多头注意方法,该方法可以进一步很好地理解输入问题和段落的语义含义。第三,我们提出了一种多语言学习机制来解决概括问题。最后,这些模块与基于多任务学习的方法集成在一起。我们在三个旨在衡量模型稳健性的基准数据集上评估了我们的模型,包括Dureader(健壮)和两个与小队相关的数据集。广泛的实验表明,我们的模型可以很好地解决上述三种鲁棒性问题。而且,即使在某些极端和不公平的评估下,它也比所有这些数据集中所有这些数据集的最先进模型的结果要好得多。我们工作的源代码可在以下网址获得:https://github.com/neukg/robustmrc。
translated by 谷歌翻译
通用事件边界检测(GEBD)是视频理解中的一项重要但挑战性的任务,该任务旨在检测人类自然感知事件边界的时刻。在本文中,我们为GEBD任务提供了本地上下文建模和全局边界解码方法。提出了局部上下文建模子网络来感知通用事件边界的各种模式,并生成强大的视频表示和可靠的边界信心。基于它们,全局边界解码子网络被利用为从全局视图解码事件边界。我们提出的方法在动力学-GEBD测试集上达到了85.13%的F1得分,与基线方法相比,它实现了22%以上的F1得分增强。该代码可从https://github.com/jackytown/gebd_challenge_cvpr2022获得。
translated by 谷歌翻译