增加片上光子神经网络(PNN)的层数对于改善其模型性能至关重要。但是,网络隐藏层的连续级联导致更大的集成光子芯片区域。为了解决此问题,我们提出了光学神经常规微分方程(ON-ON-ON-OD-ON-OD-ON-OD-ON-OD-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ODINE),该架构用光ODE求解器参数化了隐藏层的连续动力学。 On-Ode包括PNN,然后是光子积分器和光反馈回路,可以配置为代表残留的神经网络(RESNET)和复发性神经网络,并有效地降低了芯片面积占用率。对于基于干扰的光电非线性隐藏层,数值实验表明,单个隐藏层ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ONE表示与图像分类任务中的两层光学重新系统大致相同。此外,Onode提高了基于衍射的全光线性隐藏层的模型分类精度。 On-Eod的时间依赖性动力学属性进一步应用于高精度的轨迹预测。
translated by 谷歌翻译
预测道路代理的未来行为是自动驾驶的关键任务。尽管现有模型在预测边际代理的未来行为方面取得了巨大的成功,但有效预测多种代理的一致的关节行为仍然是一个挑战。最近,提出了占用场的占用场表示,以通过占用网格和流量的结合来代表公路代理的联合未来状态,从而支持有效且一致的关节预测。在这项工作中,我们提出了一个新颖的占用流场预测因子,以产生准确的占用和流动预测,通过结合图像编码器的功能,该图像编码器从栅格化的流量图像中学习特征和矢量编码器,以捕获连续代理轨迹和地图状态的信息。在生成最终预测之前,这两个编码的功能由多个注意模块融合。我们的简单但有效的模型排在Waymo Open数据集占用和流预测挑战中,并在封闭的占用和流动预测任务中取得了最佳性能。
translated by 谷歌翻译
深度学习的成功以巨大的计算和能源成本,而训练大规模过度参数的神经网络的可伸缩性正成为AI进步的真正障碍。尽管传统反向传播通过梯度不错的传统反向传播的流行和低成本,但在理论和实践中,SGD在非凸面设置中具有高度的收敛速度。为了减轻这一成本,最近的工作提议采用替代性(牛顿型)培训方法,但收敛速度更快,尽管其每题成本更高。对于具有$ m = \ mathrm {poly}(n)$参数的典型神经网络,$ n $ datapoints in $ \ mathbb {r}^d $ of $ n $ datapoints的输入批次, Weinstein,ITCS'2021]需要$ \ sim mnd + n^3 $每次迭代。在本文中,我们提出了一种新颖的培训方法,它仅需要$ m^{1- \ alpha} n d + n^3 $摊销时间在同一过度叠加机制中,其中$ \ alpha \ in(0.01,1)$是某些固定常数。此方法依赖于神经网络的新替代视图,作为一组二进制搜索树,每个迭代都对应于修改树中节点的一小部分。我们认为,这种观点将在DNN的设计和分析中进一步应用。
translated by 谷歌翻译
在线二手匹配是在线算法中的一个基本问题。目的是匹配两组顶点,以最大化边缘权重的总和,在该顶点中,对于一组顶点,每个顶点及其相应的边缘重量以序列形式出现。当前,在实际的建议系统或搜索引擎中,权重是由用户的深度表示与项目深度表示之间的内部产品决定的。标准的在线匹配需要支付$ nd $的时间来线性扫描所有$ n $项目,计算重量(假设每个表示向量都有长度$ d $),然后根据权重决定匹配。但是,实际上,$ n $可能很大,例如在在线电子商务平台中。因此,改善计算权重的时间是一个实践意义的问题。在这项工作中,我们为大约计算权重的理论基础提供了基础。我们表明,借助我们提出的随机数据结构,可以在额定时间内计算权重,同时仍保留匹配算法的竞争比率。
translated by 谷歌翻译
现有的自动驾驶管道将感知模块与预测模块分开。这两个模块通过手工挑选的功能(例如代理框和轨迹)作为接口进行通信。由于这种分离,预测模块仅从感知模块接收部分信息。更糟糕的是,感知模块的错误会传播和积累,从而对预测结果产生不利影响。在这项工作中,我们提出了VIP3D,这是一种视觉轨迹预测管道,利用原始视频的丰富信息来预测场景中代理的未来轨迹。VIP3D在整个管道中采用稀疏的代理查询,使其完全可区分和可解释。此外,我们为这项新型的端到端视觉轨迹预测任务提出了评估度量。Nuscenes数据集的广泛实验结果表明,VIP3D在传统管道和以前的端到端模型上的强劲性能。
translated by 谷歌翻译
尽管令人鼓舞的是深泡检测的进展,但由于训练过程中探索的伪造线索有限,对未见伪造类型的概括仍然是一个重大挑战。相比之下,我们注意到Deepfake中的一种常见现象:虚假的视频创建不可避免地破坏了原始视频中的统计规律性。受到这一观察的启发,我们建议通过区分实际视频中没有出现的“规律性中断”来增强深层检测的概括。具体而言,通过仔细检查空间和时间属性,我们建议通过伪捕获生成器破坏真实的视频,并创建各种伪造视频以供培训。这种做法使我们能够在不使用虚假视频的情况下实现深泡沫检测,并以简单有效的方式提高概括能力。为了共同捕获空间和时间上的破坏,我们提出了一个时空增强块,以了解我们自我创建的视频之间的规律性破坏。通过全面的实验,我们的方法在几个数据集上表现出色。
translated by 谷歌翻译
车道检测是许多实际自治系统的重要组成部分。尽管已经提出了各种各样的车道检测方法,但随着时间的推移报告了基准的稳定改善,但车道检测仍然是一个未解决的问题。这是因为大多数现有的车道检测方法要么将车道检测视为密集的预测或检测任务,因此很少有人考虑泳道标记的独特拓扑(Y形,叉形,几乎是水平的车道),该拓扑标记物是该标记的。导致亚最佳溶液。在本文中,我们提出了一种基于继电器链预测的新方法检测。具体而言,我们的模型预测了分割图以对前景和背景区域进行分类。对于前景区域中的每个像素点,我们穿过前向分支和后向分支以恢复整个车道。每个分支都会解码传输图和距离图,以产生移动到下一个点的方向,以及逐步预测继电器站的步骤(下一个点)。因此,我们的模型能够沿车道捕获关键点。尽管它很简单,但我们的策略使我们能够在包括Tusimple,Culane,Curvelanes和Llamas在内的四个主要基准上建立新的最先进。
translated by 谷歌翻译
面部伪造技术的最新进展几乎可以产生视觉上无法追踪的深冰录视频,这些视频可以通过恶意意图来利用。结果,研究人员致力于深泡检测。先前的研究已经确定了局部低级提示和时间信息在追求跨层次方法中概括的重要性,但是,它们仍然遭受鲁棒性问题的影响。在这项工作中,我们提出了基于本地和时间感知的变压器的DeepFake检测(LTTD)框架,该框架采用了局部到全球学习协议,特别关注本地序列中有价值的时间信息。具体而言,我们提出了一个局部序列变压器(LST),该局部序列变压器(LST)对限制空间区域的序列进行了时间一致性,其中低级信息通过学习的3D滤波器的浅层层增强。基于局部时间嵌入,我们然后以全球对比的方式实现最终分类。对流行数据集进行的广泛实验验证了我们的方法有效地发现了本地伪造线索并实现最先进的表现。
translated by 谷歌翻译
本文着重于使用回声和RGB图像来感知和导航3D环境。特别是,我们通过将RGB图像与回声融合来执行深度估计,并从多个方向收到。与以前的作品不同,我们超越了RGB的视野,并估算了大量较大环境的密集深度图。我们表明,回声提供了有关补充RGB图像的3D结构的整体且廉价的信息。此外,我们研究了如何在机器人导航中使用回声和广泛的视野深度图。我们使用两组具有挑战性的现实3D环境(副本和Matterport3D)将提出的方法与最近的基线进行比较。将公开提供实施和预培训模型。
translated by 谷歌翻译
在本文中,提出了一种新型的数据驱动方法,称为“增强图像缺陷”,用于飞机空气数据传感器(AD)的故障检测(FD)。典范飞机空气数据传感器的FD问题,开发了基于深神经网络(DNN)的边缘设备上的在线FD方案。首先,将飞机惯性参考单元测量作为等效输入,可扩展到不同的飞机/飞行案件。收集了与6种不同的飞机/飞行条件相关的数据,以在培训/测试数据库中提供多样性(可伸缩性)。然后提出了基于DNN的飞行条件预测的增强图像缺乏。原始数据被重塑为用于卷积操作的灰度图像,并分析并指出了增强的必要性。讨论了不同种类的增强方法,即翻转,重复,瓷砖及其组合,结果表明,在图像矩阵的两个轴上的所有重复操作都会导致DNN的最佳性能。基于GRAD-CAM研究了DNN的可解释性,这提供了更好的理解并进一步巩固DNN的鲁棒性。接下来,DNN型号,具有增强图像缺陷数据的VGG-16将针对移动硬件部署进行了优化。修剪DNN后,具有高精度(略微上升0.27%)的轻质模型(比原始VGG-16小98.79%),并获得了快速速度(时间延迟减少87.54%)。并实施了基于TPE的DNN的超参数优化,并确定了超参数的最佳组合(学习速率0.001,迭代时期600和批次尺寸100的最高精度为0.987)。最后,开发了基于Edge设备Jetson Nano的在线FD部署,并实现了飞机的实时监控。我们认为,这种方法是针对解决其他类似领域的FD问题的启发性。
translated by 谷歌翻译