立体声匹配是计算机愿景中的一个重要任务,这些任务是几十年来引起了巨大的研究。虽然在差距准确度,密度和数据大小方面,公共立体声数据集难以满足模型的要求。在本文中,我们的目标是解决数据集和模型之间的问题,并提出了一个具有高精度差异地面真理的大规模立体声数据集,名为Plantstereo。我们使用了半自动方式来构造数据集:在相机校准和图像配准后,可以从深度图像获得高精度视差图像。总共有812个图像对覆盖着多种植物套装:菠菜,番茄,胡椒和南瓜。我们首先在四种不同立体声匹配方法中评估了我们的Plandstereo数据集。不同模型和植物的广泛实验表明,与整数精度的基础事实相比,Plantstereo提供的高精度差异图像可以显着提高深度学习模型的培训效果。本文提供了一种可行和可靠的方法来实现植物表面密集的重建。 PlantSereo数据集和相对代码可用于:https://www.github.com/wangqingyu985/plantstereo
translated by 谷歌翻译
在图像美学质量评估的任务中,由于美学数据集的正常分布,难以达到高分区域和低得分面积。为了减少标签中的错误并解决正常数据分布的问题,我们提出了一个具有名为AMD-CR的分类和回归的新的美学混合数据集,我们培训了元重传网络以重新重量培训数据的损失不同。此外,我们还提供了一种基于二进制分类任务的伪标签的不同阶段的培训策略,然后我们将其用于审美培训,该课程涉及分类和回归任务的不同阶段。在网络结构的构造中,我们构建一种可以适应输入图像的任何大小的美学自适应块(AAB)结构。此外,我们还使用高效的通道注意力(ECA)来加强每个任务的特征提取能力。实验结果表明,与SROCC中的常规方法相比,我们的方法改善了0.1112。该方法还可以帮助找到无人驾驶飞行器(UAV)和车辆的最佳审美路径规划。
translated by 谷歌翻译
诸如BERT的预先接受的语言模型在各种自然语言处理任务中显示出显着的效果。但是,这些模型通常包含数百万个参数,这可以防止它们在资源受限设备上实际部署。已知知识蒸馏,重量修剪和量化是模型压缩中的主要方向。然而,通过知识蒸馏获得的紧凑型模型即使对于相对小的压缩比也可能遭受显着的精度下降。另一方面,只有少数量化尝试专门用于自然语言处理任务。它们患有小的压缩比或较大的错误率,因为需要对超参数的手动设置,并且不支持微粒子组 - 方向量化。在本文中,我们提出了一种自动混合精密量化框架,设计用于伯特,其可以同时在亚组 - 明智的水平中进行量化和修剪。具体而言,我们所提出的方法利用可微分的神经结构搜索,搜索自动地分配每个子组中的参数的比例和精度,同时捕获冗余参数组。对BERT下游任务的广泛评估揭示了我们所提出的方法通过提供相同的模型尺寸来实现相同的性能。我们还通过将我们的解决方案与Ottherbert等正交方法相结合来展示获得极其轻量级模型的可行性。
translated by 谷歌翻译
精确和实时轨道车辆本地化以及铁路环境监测对于铁路安全至关重要。在这封信中,我们提出了一种基于多激光器的同时定位和映射(SLAM)系统,用于铁路应用。我们的方法从测量开始预处理,以便去噪并同步多个LIDAR输入。根据LIDAR放置使用不同的帧到框架注册方法。此外,我们利用来自提取的轨道轨道的平面约束来提高系统精度。本地地图进一步与利用绝对位置测量的全局地图对齐。考虑到不可避免的金属磨损和螺杆松动,在手术期间唤醒了在线外在细化。在收集3000公里的数据集上广泛验证了所提出的方法。结果表明,所提出的系统与大规模环境的有效映射一起实现了精确且稳健的本地化。我们的系统已应用于运费交通铁路以监控任务。
translated by 谷歌翻译
在本文中,我们介绍了全球导航卫星系统(GNSS)辅助激光乐队 - 视觉惯性方案RAILTOMER-V,用于准确且坚固的铁路车辆本地化和映射。 Raillomer-V在因子图上制定,由两个子系统组成:辅助LiDar惯性系统(OLIS)和距离的内径综合视觉惯性系统(OVI)。两个子系统都利用了铁路上的典型几何结构。提取的轨道轨道的平面约束用于补充OLI中的旋转和垂直误差。此外,线特征和消失点被利用以限制卵巢中的旋转漂移。拟议的框架在800公里的数据集中广泛评估,聚集在一年以上的一般速度和高速铁路,日夜。利用各个传感器的所有测量的紧密耦合集成,我们的框架准确到了长期的任务,并且足够强大地避免了退行的情景(铁路隧道)。此外,可以使用车载计算机实现实时性能。
translated by 谷歌翻译
自然语言视频本地化(NLVL)是视觉语言理解区域的重要任务,该方面还要求深入了解单独的计算机视觉和自然语言侧,但更重要的是两侧之间的相互作用。对抗性脆弱性得到了很好的认可,作为深度神经网络模型的关键安全问题,需要谨慎调查。尽管在视频和语言任务中进行了广泛但分开的研究,但目前对NLVL等愿景联合任务的对抗鲁棒性的理解较少。因此,本文旨在通过检查攻击和防御方面的三个脆弱性,全面调查NLVL模型的对抗性鲁棒性。为了实现攻击目标,我们提出了一种新的对抗攻击范式,称为同义句子感知对抗对抗攻击对逆向(潜行),这捕获了视觉和语言侧面之间的跨模式相互作用。
translated by 谷歌翻译
基于智能体育场馆的各种无线指纹位置算法,提出了一种高精度和快速的室内位置算法改进了加权K-最近邻(I-WKNN)。为了满足体育场馆的复杂环境和高速抽样的需求,本文提出了用于离线和在线阶段的AP选择算法。基于智能场地信号强度分布的特性,提出了一种非对称高斯滤波器算法。本文介绍了定位算法在智能体育场系统中的应用,完成了体育场的数据采集和实时定位。与传统的WKNN和KNN算法相比,I-WKNN算法在指纹定位数据库处理中具有优势,环境噪声适应性,实时定位精度和定位速度等。实验结果表明,I-WKNN算法具有明显的优势定位复杂噪声环境中的精度和定位时间,并在智能体育场中具有明显的应用潜力。
translated by 谷歌翻译
脑电图(EEG)录音通常被伪影污染。已经开发了各种方法来消除或削弱伪影的影响。然而,大多数人都依赖于先前的分析经验。在这里,我们提出了一个深入的学习框架,以将神经信号和伪像在嵌入空间中分离并重建被称为DeepSeparator的去噪信号。 DeepSeparator采用编码器来提取和放大原始EEG中的特征,称为分解器的模块以提取趋势,检测和抑制伪像和解码器以重建去噪信号。此外,DeepSeparator可以提取伪像,这在很大程度上增加了模型解释性。通过半合成的EEG数据集和实际任务相关的EEG数据集进行了所提出的方法,建议DeepSepater在EoG和EMG伪像去除中占据了传统模型。 DeepSeparator可以扩展到多通道EEG和任何长度的数据。它可能激励深入学习的EEG去噪的未来发展和应用。 DeepSeparator的代码可在https://github.com/ncclabsustech/deepseparator上获得。
translated by 谷歌翻译
我们在本文中介绍Raillomer,实现实时准确和鲁棒的内径测量和轨道车辆的测绘。 Raillomer从两个Lidars,IMU,火车车程和全球导航卫星系统(GNSS)接收器接收测量。作为前端,来自IMU / Royomer缩放组的估计动作De-Skews DeSoised Point云并为框架到框架激光轨道测量产生初始猜测。作为后端,配制了基于滑动窗口的因子图以共同优化多模态信息。另外,我们利用来自提取的轨道轨道和结构外观描述符的平面约束,以进一步改善对重复结构的系统鲁棒性。为了确保全局常见和更少的模糊映射结果,我们开发了一种两级映射方法,首先以本地刻度执行扫描到地图,然后利用GNSS信息来注册模块。该方法在聚集的数据集上广泛评估了多次范围内的数据集,并且表明Raillomer即使在大或退化的环境中也能提供排入量级定位精度。我们还将Raillomer集成到互动列车状态和铁路监控系统原型设计中,已经部署到实验货量交通铁路。
translated by 谷歌翻译
不服从统计学习理论的古典智慧,即使它们通常包含数百万参数,现代深度神经网络也概括了井。最近,已经表明迭代优化算法的轨迹可以具有分形结构,并且它们的泛化误差可以与这种分形的复杂性正式连接。这种复杂性由分形的内在尺寸测量,通常比网络中的参数数量小得多。尽管这种透视提供了对为什么跨分层化的网络不会过度装备的解释,但计算内在尺寸(例如,在训练期间进行监测泛化)是一种臭名昭着的困难任务,即使在中等环境维度中,现有方法也通常失败。在这项研究中,我们考虑了从拓扑数据分析(TDA)的镜头上的这个问题,并开发了一个基于严格的数学基础的通用计算工具。通过在学习理论和TDA之间进行新的联系,我们首先说明了泛化误差可以在称为“持久同源维度”(PHD)的概念中,与先前工作相比,我们的方法不需要关于培训动态的任何额外几何或统计假设。然后,通过利用最近建立的理论结果和TDA工具,我们开发了一种高效的算法来估计现代深度神经网络的规模中的博士,并进一步提供可视化工具,以帮助理解深度学习中的概括。我们的实验表明,所提出的方法可以有效地计算网络的内在尺寸,这些设置在各种设置中,这是预测泛化误差的。
translated by 谷歌翻译