Due to their ability to offer more comprehensive information than data from a single view, multi-view (multi-source, multi-modal, multi-perspective, etc.) data are being used more frequently in remote sensing tasks. However, as the number of views grows, the issue of data quality becomes more apparent, limiting the potential benefits of multi-view data. Although recent deep neural network (DNN) based models can learn the weight of data adaptively, a lack of research on explicitly quantifying the data quality of each view when fusing them renders these models inexplicable, performing unsatisfactorily and inflexible in downstream remote sensing tasks. To fill this gap, in this paper, evidential deep learning is introduced to the task of aerial-ground dual-view remote sensing scene classification to model the credibility of each view. Specifically, the theory of evidence is used to calculate an uncertainty value which describes the decision-making risk of each view. Based on this uncertainty, a novel decision-level fusion strategy is proposed to ensure that the view with lower risk obtains more weight, making the classification more credible. On two well-known, publicly available datasets of aerial-ground dual-view remote sensing images, the proposed approach achieves state-of-the-art results, demonstrating its effectiveness. The code and datasets of this article are available at the following address: https://github.com/gaopiaoliang/Evidential.
translated by 谷歌翻译
The security of artificial intelligence (AI) is an important research area towards safe, reliable, and trustworthy AI systems. To accelerate the research on AI security, the Artificial Intelligence Security Competition (AISC) was organized by the Zhongguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, and RealAI as part of the Zhongguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en). The competition consists of three tracks, including Deepfake Security Competition, Autonomous Driving Security Competition, and Face Recognition Security Competition. This report will introduce the competition rules of these three tracks and the solutions of top-ranking teams in each track.
translated by 谷歌翻译
从单眼RGB图像中重建3D手网络,由于其在AR/VR领域的巨大潜在应用,引起了人们的注意力越来越多。大多数最先进的方法试图以匿名方式解决此任务。具体而言,即使在连续录制会话中用户没有变化的实际应用程序中实际上可用,因此忽略了该主题的身份。在本文中,我们提出了一个身份感知的手网格估计模型,该模型可以结合由受试者的内在形状参数表示的身份信息。我们通过将提出的身份感知模型与匿名对待主题的基线进行比较来证明身份信息的重要性。此外,为了处理未见测试对象的用例,我们提出了一条新型的个性化管道来校准固有的形状参数,仅使用该受试者的少数未标记的RGB图像。在两个大型公共数据集上进行的实验验证了我们提出的方法的最先进性能。
translated by 谷歌翻译
稀疏奖励学习通常在加强学习(RL)方面效率低下。 Hindsight Experience重播(她)已显示出一种有效的解决方案,可以处理低样本效率,这是由于目标重新标记而导致的稀疏奖励效率。但是,她仍然有一个隐含的虚拟阳性稀疏奖励问题,这是由于实现目标而引起的,尤其是对于机器人操纵任务而言。为了解决这个问题,我们提出了一种新型的无模型连续RL算法,称为Relay-HER(RHER)。提出的方法首先分解并重新布置原始的长马任务,以增量复杂性为新的子任务。随后,多任务网络旨在以复杂性的上升顺序学习子任务。为了解决虚拟阳性的稀疏奖励问题,我们提出了一种随机混合的探索策略(RME),在该策略中,在复杂性较低的人的指导下,较高复杂性的子任务的实现目标很快就会改变。实验结果表明,在五个典型的机器人操纵任务中,与香草盖相比,RHER样品效率的显着提高,包括Push,Pickandplace,抽屉,插入物和InstaclePush。提出的RHER方法还应用于从头开始的物理机器人上的接触式推送任务,成功率仅使用250集达到10/10。
translated by 谷歌翻译
机载激光扫描(ALS)点云的分类是遥感和摄影测量场的关键任务。尽管最近基于深度学习的方法取得了令人满意的表现,但他们忽略了接受场的统一性,这使得ALS点云分类对于区分具有复杂结构和极端规模变化的区域仍然具有挑战性。在本文中,为了配置多受感受性的场特征,我们提出了一个新型的接受场融合和分层网络(RFFS-NET)。以新颖的扩张图卷积(DGCONV)及其扩展环形扩张卷积(ADCONV)作为基本的构建块,使用扩张和环形图融合(Dagfusion)模块实现了接受场融合过程,该模块获得了多受感染的场特征代表通过捕获带有各种接收区域的扩张和环形图。随着计算碱基的计算基础,使用嵌套在RFFS-NET中的多级解码器进行的接收场的分层,并由多层接受场聚集损失(MRFALOSS)驱动,以驱动网络驱动网络以学习在具有不同分辨率的监督标签的方向。通过接受场融合和分层,RFFS-NET更适应大型ALS点云中具有复杂结构和极端尺度变化区域的分类。在ISPRS Vaihingen 3D数据集上进行了评估,我们的RFFS-NET显着优于MF1的基线方法5.3%,而MIOU的基线方法的总体准确性为82.1%,MF1的总准确度为71.6%,MIOU的MF1和MIOU为58.2%。此外,LASDU数据集和2019 IEEE-GRSS数据融合竞赛数据集的实验显示,RFFS-NET可以实现新的最新分类性能。
translated by 谷歌翻译
利用上下文信息是提高对话自动语音识别(ASR)的性能的直观想法。以前的作品通常采用公认的历史话语假设作为前面的背景,这可能会偏向于由于不可避免的历史认可错误而导致的当前公认假设。为了避免此问题,我们提出了一个音频文本跨模式表示器,以直接从先前的语音中学习上下文表示。具体而言,它由两个与模态相关的编码器组成,从语音和相应的文本中提取高级潜在特征,以及一个跨模式编码器,旨在学习语音和文本之间的相关性。我们随机掩盖每种模式的一些输入令牌和输入序列。然后,在交叉模式编码器上使用模态级别的CTC损失进行令牌错失或模态失误预测。因此,该模型不仅捕获了特定模式中的双向上下文依赖性,还捕获了不同模态之间的关系。然后,在训练对话ASR系统的训练期间,提取器将被冻结以提取上述语音的文本表示,而该表示形式则用作通过注意机制将其作为供应给ASR解码器的上下文。拟议方法的有效性在几个普通话对话中得到了验证,并且在MagicData数据集中,达到了最高的字符错误率(CER)最高16%。
translated by 谷歌翻译
移动对象(DATMO)的检测和跟踪是自动驾驶环境感知的重要组成部分。虽然使用环绕视图摄像机的3D检测器只是蓬勃发展,但越来越多的趋势是使用不同的基于变压器的方法从透视图的2D特征图中学习3D空间中的查询。本文提出了稀疏的R-CNN 3D(SRCN3D),这是一种新颖的两阶段全横向卷积映射管道,用于环绕视图摄像机检测和跟踪。 SRCN3D采用了级联结构,具有固定数量的提案盒和提案潜在功能的双轨更新。预计提案框可以透视视图,以汇总感兴趣的区域(ROI)本地特征。基于此,提案功能通过动态实例交互式头部进行完善,然后生成分类,并应用于原始边界框。与先前的艺术相比,我们的稀疏功能采样模块仅利用本地2D功能来调整每个相应的3D提案盒,从而导致完整的稀疏范式。提案功能和外观特征均在数据关联过程中采用多刺激性3D多对象跟踪方法。 Nuscenes数据集的广泛实验证明了我们提出的SRCN3D检测器和跟踪器的有效性。代码可在https://github.com/synsin0/srcn3d上找到。
translated by 谷歌翻译
虽然注释大量的数据以满足复杂的学习模型,但对于许多现实世界中的应用程序可能会过于良好。主动学习(AL)和半监督学习(SSL)是两个有效但经常被隔离的方法,可以减轻渴望数据的问题。最近的一些研究探索了将AL和SSL相结合以更好地探测未标记数据的潜力。但是,几乎所有这些当代的SSL-AL作品都采用了简单的组合策略,忽略了SSL和AL的固有关系。此外,在处理大规模,高维数据集时,其他方法则遭受高计算成本。通过标记数据的行业实践的激励,我们提出了一种基于创新的基于不一致的虚拟对抗性积极学习(理想)算法,以进一步研究SSL-AL的潜在优势,并实现Al和SSL的相互增强,即SSL,即SSL宣传标签信息,以使标签信息无标记的样本信息并为Al提供平滑的嵌入,而AL排除了具有不一致的预测和相当不确定性的样品。我们通过不同粒度的增强策略(包括细粒度的连续扰动探索和粗粒数据转换)来估计未标记的样品的不一致。在文本和图像域中,广泛的实验验证了所提出的算法的有效性,并将其与最先进的基线进行了比较。两项实际案例研究可视化应用和部署所提出的数据采样算法的实际工业价值。
translated by 谷歌翻译
图像注册广泛用于医学图像分析中,以提供两个图像之间的空间对应关系。最近提出了利用卷积神经网络(CNN)的基于学习的方法来解决图像注册问题。基于学习的方法往往比基于传统优化的方法快得多,但是从复杂的CNN方法中获得的准确性提高是适度的。在这里,我们介绍了一个新的基于深神经的图像注册框架,名为\ textbf {mirnf},该框架代表通过通过神经字段实现的连续函数的对应映射。 MIRNF输出的变形矢量或速度向量给定3D坐标为输入。为了确保映射是差异的,使用神经ODE求解器集成了MiRNF的速度矢量输出,以得出两个图像之间的对应关系。此外,我们提出了一个混合坐标采样器以及级联的体系结构,以实现高相似性映射性能和低距离变形场。我们对两个3D MR脑扫描数据集进行了实验,这表明我们提出的框架提供了最新的注册性能,同时保持了可比的优化时间。
translated by 谷歌翻译
点云的语义分割通过密集预测每个点的类别来产生对场景的全面理解。由于接收场的一致性,点云的语义分割对于多受感受性场特征的表达仍然具有挑战性,这会导致对具有相似空间结构的实例的错误分类。在本文中,我们提出了一个植根于扩张图特征聚集(DGFA)的图形卷积网络DGFA-NET,该图由通过金字塔解码器计算出的多基质聚集损失(Maloss)引导。为了配置多受感受性字段特征,将建议的扩张图卷积(DGCONV)作为其基本构建块,旨在通过捕获带有各种接收区域的扩张图来汇总多尺度特征表示。通过同时考虑用不同分辨率的点集作为计算碱基的点集惩罚接收场信息,我们引入了由Maloss驱动的金字塔解码器,以了解接受田间的多样性。结合这两个方面,DGFA-NET显着提高了具有相似空间结构的实例的分割性能。 S3DIS,ShapenetPart和Toronto-3D的实验表明,DGFA-NET优于基线方法,实现了新的最新细分性能。
translated by 谷歌翻译