随着深度学习生成模型的最新进展,它在时间序列领域的出色表现并没有花费很长时间。用于与时间序列合作的深度神经网络在很大程度上取决于培训中使用的数据集的广度和一致性。这些类型的特征通常在现实世界中不丰富,在现实世界中,它们通常受到限制,并且通常具有必须保证的隐私限制。因此,一种有效的方法是通过添加噪声或排列并生成新的合成数据来使用\ gls {da}技术增加数据数。它正在系统地审查该领域的当前最新技术,以概述所有可用的算法,并提出对最相关研究的分类法。将评估不同变体的效率;作为过程的重要组成部分,将分析评估性能的不同指标以及有关每个模型的主要问题。这项研究的最终目的是摘要摘要,这些领域的进化和性能会产生更好的结果,以指导该领域的未来研究人员。
translated by 谷歌翻译
通过时间(BPTT)的反向传播是训练复发性神经网络(RNN)的事实上的标准,但它是非毒性和非局部性的。实时复发性学习是一种因果替代方法,但效率很低。最近,E-Prop被提出为这些算法的因果,局部和有效的实用替代方法,通过从根本上修剪随时间携带的经常性依赖性来提供确切梯度的近似值。在这里,我们使用详细的符号从BPTT得出RTRL,从而为它们的连接方式带来了直觉和澄清。此外,我们在图片中内部构图E-Prop,使其近似。最后,我们得出了一种特殊案例的算法系列。
translated by 谷歌翻译
事件摄像机是由生物启发的传感器,比传统摄像机具有优势。它们不同步,用微秒的分辨率对场景进行采样,并产生亮度变化。这种非常规的输出引发了新型的计算机视觉方法,以释放相机的潜力。我们解决了SLAM的基于事件的立体3D重建问题。大多数基于事件的立体声方法都试图利用相机跨相机的高时间分辨率和事件同时性,以建立匹配和估计深度。相比之下,我们研究了如何通过融合有效的单眼方法来融合差异空间图像(DSIS)来估计深度。我们开发融合理论,并将其应用于设计产生最先进结果的多相机3D重建算法,正如我们通过与四种基线方法进行比较并在各种可用数据集上进行测试的确认。
translated by 谷歌翻译
事件摄像机对场景动态做出响应,并提供了估计运动的优势。遵循最近基于图像的深度学习成就,事件摄像机的光流估计方法急于将基于图像的方法与事件数据相结合。但是,由于它们具有截然不同的属性,因此需要几个改编(数据转换,损失功能等)。我们开发了一种原则性的方法来扩展对比度最大化框架以估算仅事件的光流。我们研究关键要素:如何设计目标函数以防止过度拟合,如何扭曲事件以更好地处理遮挡,以及如何改善与多规模原始事件的收敛性。有了这些关键要素,我们的方法在MVSEC基准的无监督方法中排名第一,并且在DSEC基准上具有竞争力。此外,我们的方法使我们能够在这些基准测试中揭露地面真相流的问题,并在将其转移到无监督的学习环境中时会产生出色的结果。我们的代码可在https://github.com/tub-rip/event_based_optility_flow上找到
translated by 谷歌翻译
上下文最大化(CMAX)是一个框架,可在几个基于事件的计算机视觉任务(例如自我移动或光流估计)上提供最新结果。但是,它可能会遇到一个称为事件崩溃的问题,这是一种不希望的解决方案,其中事件被扭曲成太少的像素。由于先前的工作在很大程度上忽略了这个问题或提议的解决方法,因此必须详细分析这种现象。我们的工作证明了事件以最简单的形式崩溃,并通过使用基于差异几何和物理学的时空变形的第一原理提出了崩溃指标。我们通过实验表明,公开可用的数据集表明,拟议的指标减轻了事件崩溃,并且不会损害良好的扭曲。据我们所知,与其他方法相比,基于提议的指标的正规化器是唯一有效的解决方案,可以防止在考虑的实验环境中发生事件崩溃。我们希望这项工作激发了进一步的研究,以应对更复杂的翘曲模型。
translated by 谷歌翻译
在这项工作中,我们介绍了我们的实时自我分割算法。由于我们在Thundernet的架构中灵感的浅网络,我们的算法对于640x480的输入分辨率达到了66 fps的帧速率。此外,我们非常重视培训数据的可变性。更具体地说,我们描述了我们的自我中心物体(Egobodies)数据集的创建过程,该数据集由来自三个数据集的近10,000张图像组成,这些图像既来自综合方法和真实捕获。我们进行实验以了解各个数据集的贡献;比较用自行车训练的Thundernet模型,并以更简单,更复杂的先前方法进行比较,并在分段质量和推理时间上以现实生活设置进行了相应的性能。所描述的经过训练的语义分割算法已经集成到混合现实的端到端系统中,使用户有可能在沉浸在MR场景中时看到自己的身体。
translated by 谷歌翻译
在几乎不可预测且通常严重的主题运动的情况下获得的多个MR Slices的胎儿大脑的体积重建是一项具有挑战性的任务,对切片转换的初始化非常敏感。我们建议使用经过合成转换数据训练的变压器提出了一种新型的切片到体积的注册方法,该数据将MR Slices的多个堆栈模拟为序列。通过注意机制,我们的模型会自动检测切片之间的相关性,并使用来自其他切片的信息预测一个切片的转换。我们还估计了基础3D卷,以帮助切片到体积的注册,并交替更新音量和转换以提高准确性。合成数据的结果表明,与现有的最新方法相比,我们的方法可实现较低的注册误差和更好的重建质量。还进行了使用现实世界中MRI数据的实验,以证明该模型在严重的胎儿运动下提高3D重建质量的能力。
translated by 谷歌翻译
尽管在构建强大的神经网络方面具有明显的计算优势,但使用单步方法的对抗训练(AT)是不稳定的,因为它遭受了灾难性的过度拟合(CO):网络在对抗性训练的第一阶段获得了非平凡的鲁棒性,但突然达到了一个阶段在几次迭代中,他们很快失去了所有鲁棒性。尽管有些作品成功地预防了CO,但导致这种显着失败模式的不同机制仍然很少理解。但是,在这项工作中,我们发现数据结构与AT动力学之间的相互作用在CO中起着基本作用。特别是,通过对自然图像的典型数据集进行主动干预,我们建立了一个因果关系。在方法上单步中的数据和CO的发作。这种新的观点提供了对导致CO的机制的重要见解,并为更好地理解强大模型构建的一般动态铺平了道路。可以在https://github.com/gortizji/co_features上找到复制本文实验的代码。
translated by 谷歌翻译
非正交多访问(NOMA)是一项有趣的技术,可以根据未来的5G和6G网络的要求实现大规模连通性。尽管纯线性处理已经在NOMA系统中达到了良好的性能,但在某些情况下,非线性处理是必须的,以确保可接受的性能。在本文中,我们提出了一个神经网络体系结构,该架构结合了线性和非线性处理的优势。在图形处理单元(GPU)上的高效实现证明了其实时检测性能。使用实验室环境中的实际测量值,我们显示了方法比常规方法的优越性。
translated by 谷歌翻译
人类从对象及其之间的关系方面感知世界。实际上,对于任何给定的对象,都有无数的关系适用于它们。认知系统如何学习哪些关系对于表征手头的任务有用?以及如何使用这些表示形式来构建关系政策以有效地与环境互动?在本文中,我们建议可以通过称为关系增强学习(RRL)的符号机器学习的子场的镜头来理解这个问题。为了证明我们的方法的潜力,我们基于在RRL中开发的近似函数建立了一个简单的关系政策学习模型。我们在三场Atari游戏中训练和测试了我们的模型,这些游戏需要考虑越来越多的潜在关系:突破,乒乓球和恶魔攻击。在每个游戏中,我们的模型都能够选择足够的关系表示并逐步构建关系策略。我们讨论了我们的模型与关系和类似推理的模型之间的关系,以及其局限性和未来研究方向。
translated by 谷歌翻译