预测道路代理的未来行为是自动驾驶的关键任务。尽管现有模型在预测边际代理的未来行为方面取得了巨大的成功,但有效预测多种代理的一致的关节行为仍然是一个挑战。最近,提出了占用场的占用场表示,以通过占用网格和流量的结合来代表公路代理的联合未来状态,从而支持有效且一致的关节预测。在这项工作中,我们提出了一个新颖的占用流场预测因子,以产生准确的占用和流动预测,通过结合图像编码器的功能,该图像编码器从栅格化的流量图像中学习特征和矢量编码器,以捕获连续代理轨迹和地图状态的信息。在生成最终预测之前,这两个编码的功能由多个注意模块融合。我们的简单但有效的模型排在Waymo Open数据集占用和流预测挑战中,并在封闭的占用和流动预测任务中取得了最佳性能。
translated by 谷歌翻译
现有的自动驾驶管道将感知模块与预测模块分开。这两个模块通过手工挑选的功能(例如代理框和轨迹)作为接口进行通信。由于这种分离,预测模块仅从感知模块接收部分信息。更糟糕的是,感知模块的错误会传播和积累,从而对预测结果产生不利影响。在这项工作中,我们提出了VIP3D,这是一种视觉轨迹预测管道,利用原始视频的丰富信息来预测场景中代理的未来轨迹。VIP3D在整个管道中采用稀疏的代理查询,使其完全可区分和可解释。此外,我们为这项新型的端到端视觉轨迹预测任务提出了评估度量。Nuscenes数据集的广泛实验结果表明,VIP3D在传统管道和以前的端到端模型上的强劲性能。
translated by 谷歌翻译
由于人类行为的瞬极性,预测道路代理的未来轨迹是对自动驾驶的挑战。最近,证明基于目标的多轨道预测方法是有效的,在那里他们首先将过度采样的目标候选者进行得分,然后从它们中选择最终集合。然而,这些方法通常涉及基于稀疏预定锚和启发式目标选择算法的目标预测。在这项工作中,我们提出了一种名为Densetnt的无锚和端到端轨迹预测模型,它直接从密集的目标候选者输出一组轨迹。此外,我们介绍了基于离线优化的技术,为我们的最终在线模型提供多重伪标签。实验表明,Densetnt实现了最先进的性能,在协会运动预测基准中排名第一,并成为2021 Waymo开放数据集运动预测挑战的第一名获胜者。
translated by 谷歌翻译
应用于物理工程系统的纯粹数据驱动的深神经网络(DNN)可以推断出违反物理定律的关系,从而导致意外后果。为了应对这一挑战,我们提出了一个基于物理模型的DNN框架,即Phy-Taylor,该框架以物理知识加速了学习合规的表示。 Phy-Taylor框架做出了两个关键的贡献。它引入了一个新的建筑物理兼容神经网络(PHN),并具有新颖的合规机制,我们称{\ em物理学引导的神经网络编辑\/}。 PHN的目的是直接捕获受物质量的启发的非线性,例如动能,势能,电力和空气动力阻力。为此,PHN增强了具有两个关键组成部分的神经网络层:(i)泰勒级数序列扩展的非线性功能捕获物理知识的扩展,以及(ii)缓解噪声影响的抑制器。神经网络编辑机制进一步修改了网络链接和激活功能与物理知识一致。作为扩展,我们还提出了一个自我校正的Phy-Taylor框架,该框架介绍了两个其他功能:(i)基于物理模型的安全关系学习,以及(ii)在违反安全性的情况下自动输出校正。通过实验,我们表明(通过直接表达难以学习的非线性并通过限制依赖性)Phy-Taylor的特征较少的参数和明显加速的训练过程,同时提供增强的模型稳健性和准确性。
translated by 谷歌翻译
自我监督的学习(SSL)通过大量未标记的数据的先知,在各种医学成像任务上取得了出色的性能。但是,对于特定的下游任务,仍然缺乏有关如何选择合适的借口任务和实现细节的指令书。在这项工作中,我们首先回顾了医学成像分析领域中自我监督方法的最新应用。然后,我们进行了广泛的实验,以探索SSL中的四个重要问题用于医学成像,包括(1)自我监督预处理对不平衡数据集的影响,(2)网络体系结构,(3)上游任务对下游任务和下游任务和下游任务的适用性(4)SSL和常用政策用于深度学习的堆叠效果,包括数据重新采样和增强。根据实验结果,提出了潜在的指南,以在医学成像中进行自我监督预处理。最后,我们讨论未来的研究方向并提出问题,以了解新的SSL方法和范式时要注意。
translated by 谷歌翻译
光学计算是一种新兴技术,用于下一代高效人工智能(AI),其速度和效率超高。电磁场模拟对于光子设备和电路的设计,优化和验证至关重要。但是,昂贵的数值模拟显着阻碍了光子电路设计循环中的可扩展性和转环。最近,已经提出了物理信息的神经网络来预测具有预定义参数的部分微分方程(PDE)的单个实例的光场解。它们复杂的PDE公式和缺乏有效的参数化机制限制了其在实际模拟方案中的灵活性和概括。在这项工作中,首次提出了一个被称为Neurolight的物理敏捷神经操作员框架,以学习一个频率域的麦克斯韦PDE家族,以进行超快速的参数光子设备模拟。我们通过几种新技术来平衡神经照明的效率和概括。具体而言,我们将不同的设备离散到统一域中,代表具有紧凑型波的参数PDE,并通过掩盖的源建模编码入射光。我们使用参数效率高的跨形神经块设计模型,并采用基于叠加的增强来进行数据效率学习。通过这些协同方法,神经亮像可以概括为大量的看不见的模拟设置,比数值求解器显示了2个磁性的模拟速度,并且比先前的神经网络模型优于降低54%的预测误差,而降低了约44%的参数。 。我们的代码可在https://github.com/jeremiemelo/neurolight上找到。
translated by 谷歌翻译
详细的肺气道分割是支撑周围肺癌病变的支撑室干预和治疗的临床重要任务。卷积神经网络(CNN)是医学图像分析的有前途的工具,但对于出现不平衡功能分布的情况,案件的性能较差,这对于气道数据是正确的,因为气管和主要支气管在大部分voxels中占主导支气管和远端节段支气管仅占用一小部分。在本文中,我们提出了一个可区分的拓扑保存距离变换(DTPDT)框架,以提高气道分割的性能。首先提出了拓扑保存的替代(TPS)学习策略,以均衡课堂分布的培训进度。此外,卷积距离变换(CDT)旨在识别具有提高灵敏度的破裂现象,从而最大程度地减少了预测和地面真实之间距离图的变化。提出的方法已通过公开可用的参考气道细分数据集进行验证。
translated by 谷歌翻译
文档级信息提取(IE)任务最近开始使用端到端的神经网络技术对其句子级别的IE同行进行认真重新审视。但是,对方法的评估在许多维度上受到限制。特别是,Precision/Recell/F1分数通常报道,几乎没有关于模型造成的错误范围的见解。我们基于Kummerfeld和Klein(2013)的工作,为基于转换的框架提出了用于文档级事件和(N- ARY)关系提取的自动化错误分析的框架。我们采用我们的框架来比较来自三个域的数据集上的两种最先进的文档级模板填充方法;然后,为了衡量IE自30年前成立以来的进展,与MUC-4(1992)评估的四个系统相比。
translated by 谷歌翻译
随着移动平台上对计算摄影和成像的需求不断增长,在相机系统中开发和集成了高级图像传感器与新型算法的发展。但是,缺乏用于研究的高质量数据以及从行业和学术界进行深入交流的难得的机会限制了移动智能摄影和成像(MIPI)的发展。为了弥合差距,我们介绍了第一个MIPI挑战,包括五个曲目,这些曲目着重于新型图像传感器和成像算法。在本文中,引入了RGBW关节Remosaic和Denoise,这是五个曲目之一,在全面分辨率上进行了RGBW CFA插值的插值。为参与者提供了一个新的数据集,其中包括70(培训)和15个(验证)高质量RGBW和拜耳对的场景。此外,对于每个场景,在0dB,24dB和42dB上提供了不同噪声水平的RGBW。所有数据均在室外和室内条件下使用RGBW传感器捕获。最终结果是使用PSNR,SSIM,LPIPS和KLD在内的客观指标评估的。本文提供了此挑战中所有模型的详细描述。有关此挑战的更多详细信息以及数据集的链接,请访问https://github.com/mipi-challenge/mipi2022。
translated by 谷歌翻译
随着移动平台上对计算摄影和成像的需求不断增长,在相机系统中开发和集成了高级图像传感器与新型算法的发展。但是,缺乏用于研究的高质量数据以及从行业和学术界进行深入交流的难得的机会限制了移动智能摄影和成像(MIPI)的发展。为了弥合差距,我们引入了第一个MIPI挑战,其中包括五个专注于新型图像传感器和成像算法的曲目。在本文中,引入了RGBW关节融合和Denoise,这是五个曲目之一,其中一条致力于将Binning模式RGBW融合到拜耳。为参与者提供了一个新的数据集,其中包括70(培训)和15个(验证)高质量RGBW和拜耳对的场景。此外,对于每个场景,在24dB和42dB处提供不同噪声水平的RGBW。所有数据均在室外和室内条件下使用RGBW传感器捕获。最终结果使用客观指标,包括PSNR,SSIM},LPIPS和KLD评估。本文提供了此挑战中所有模型的详细描述。有关此挑战的更多详细信息以及数据集的链接,请访问https://github.com/mipi-challenge/mipi2022。
translated by 谷歌翻译