在本文中,我们使用两个无监督的学习算法的组合介绍了路边激光雷达物体检测的解决方案。 3D点云数据首先将球形坐标转换成球形坐标并使用散列函数填充到方位角网格矩阵中。之后,RAW LIDAR数据被重新排列成空间 - 时间数据结构,以存储范围,方位角和强度的信息。基于强度信道模式识别,应用动态模式分解方法将点云数据分解成低级背景和稀疏前景。三角算法根据范围信息,自动发现分割值以将移动目标与静态背景分开。在强度和范围背景减法之后,将使用基于密度的检测器检测到前景移动物体,并编码到状态空间模型中以进行跟踪。所提出的模型的输出包括车辆轨迹,可以实现许多移动性和安全应用。该方法针对商业流量数据收集平台进行了验证,并证明了对基础设施激光雷达对象检测的高效可靠的解决方案。与之前的方法相比,该方法直接处理散射和离散点云,所提出的方法可以建立3D测量数据的复杂线性关系较小,这捕获了我们经常需要的空间时间结构。
translated by 谷歌翻译
本文提出了一种机器学习增强的纵向扫描线方法,用于从大角度交通摄像机中提取车辆轨迹。通过将空间颞映射(STMAP)分解到稀疏前景和低秩背景,应用动态模式分解(DMD)方法来提取车辆股线。通过调整两个普遍的深度学习架构,设计了一个名为Res-Unet +的深神经网络。 RES-UNET +神经网络显着提高了基于STMAP的车辆检测的性能,DMD模型提供了许多有趣的见解,了解由Stmap保留的潜在空间结构的演变。与先前的图像处理模型和主流语义分割深神经网络进行比较模型输出。经过彻底的评估后,证明该模型对许多具有挑战性的因素来说是准确和强大的。最后但并非最不重要的是,本文从根本上解决了NGSIM轨迹数据中发现了许多质量问题。清除清洁的高质量轨迹数据,以支持交通流量和微观车辆控制的未来理论和建模研究。该方法是用于基于视频的轨迹提取的可靠解决方案,并且具有广泛的适用性。
translated by 谷歌翻译
本文为表格马尔可夫决策过程(MDP)提供了第一种多项式时间算法,该算法享受了遗憾的界限\ emph {独立于计划范围}。具体来说,我们考虑具有$ S $州的表格MDP,$ A $ ACTICY,计划范围$ h $,总奖励为$ 1 $,代理商播放$ K $ evipodes。我们设计了一种实现$ o \ left(\ mathrm {poly}(s,a,a,\ log k)\ sqrt {k} \ right)$遗憾的算法(\ mathrm {poly}(s,a,a,\ log k)polylog}(h)$依赖项〜\ citep {zhang2020 reininforcement}或对$ s $〜\ citep {li2021settling}具有指数依赖关系。我们的结果依赖于一系列新的结构引理,从而建立了固定策略的近似能力,稳定性和浓度特性,这些策略可以在与马尔可夫链有关的其他问题中应用。
translated by 谷歌翻译
我们开发了一个概率框架,用于分析基于模型的加强学习在整个概念环境中。然后,我们将其应用于使用线性动力学但未知的系数和凸起的有限时间地平线随机控制问题,但可能是不规则的,客观的函数。使用概率表示,我们研究相关成本函数的规律性,并建立精确估计,用于应用估计和真实模型参数的最佳反馈控制之间的性能差距。我们确定这种性能差距是二次,提高近期工作的线性性能差距的条件[X.郭,A. Hu和Y. Zhang,Arxiv预印,arxiv:2104.09311,(2021)],它与随机线性二次问题获得的结果相匹配。接下来,我们提出了一种基于阶段的学习算法,我们展示了如何优化探索剥削权衡,并在高概率和期望中实现索布林遗憾。当对二次性能间隙保持所需的假设时,该算法在一般情况下实现了订单$ \ mathcal {o}(\ sqrt {n \ ln n)$高概率后悔,以及订单$ \ mathcal {o} ((\ ln n)^ 2)$预期遗憾,在自我探索案例中,超过$ n $剧集,匹配文献中的最佳结果。分析需要新的浓度不等式,用于相关的连续时间观察,我们得出。
translated by 谷歌翻译
自我关注已成为最近网络架构的一个组成部分,例如,统治主要图像和视频基准的变压器。这是因为自我关注可以灵活地模拟远程信息。出于同样的原因,研究人员最近使尝试恢复多层Perceptron(MLP)并提出一些类似MLP的架构,显示出极大的潜力。然而,当前的MLP样架构不擅长捕获本地细节并缺乏对图像和/或视频中的核心细节的逐步了解。为了克服这个问题,我们提出了一种新颖的Morphmlp架构,该架构专注于在低级层处捕获本地细节,同时逐渐改变,以专注于高级层的长期建模。具体地,我们设计一个完全连接的层,称为Morphfc,两个可变过滤器,其沿着高度和宽度尺寸逐渐地发展其接收领域。更有趣的是,我们建议灵活地调整视频域中的Morphfc层。为了我们最好的知识,我们是第一个创建类似MLP骨干的用于学习视频表示的骨干。最后,我们对图像分类,语义分割和视频分类进行了广泛的实验。我们的Morphmlp,如此自我关注的自由骨干,可以与基于自我关注的型号一样强大。
translated by 谷歌翻译
Terahertz频段(0.1---10 THZ)中的无线通信被视为未来第六代(6G)无线通信系统的关键促进技术之一,超出了大量多重输入多重输出(大量MIMO)技术。但是,THZ频率的非常高的传播衰减和分子吸收通常限制了信号传输距离和覆盖范围。从最近在可重构智能表面(RIS)上实现智能无线电传播环境的突破,我们为多跳RIS RIS辅助通信网络提供了一种新型的混合波束形成方案,以改善THZ波段频率的覆盖范围。特别是,部署了多个被动和可控的RIS,以协助基站(BS)和多个单人体用户之间的传输。我们通过利用最新的深钢筋学习(DRL)来应对传播损失的最新进展,研究了BS在BS和RISS上的模拟光束矩阵的联合设计。为了改善拟议的基于DRL的算法的收敛性,然后设计了两种算法,以初始化数字波束形成和使用交替优化技术的模拟波束形成矩阵。仿真结果表明,与基准相比,我们提出的方案能够改善50 \%的THZ通信范围。此外,还表明,我们提出的基于DRL的方法是解决NP-固定光束形成问题的最先进方法,尤其是当RIS辅助THZ通信网络的信号经历多个啤酒花时。
translated by 谷歌翻译
深度学习已被广​​泛用于医学图像细分和其他方面。但是,现有的医学图像分割模型的性能受到获得足够数量的高质量数据的挑战的限制。为了克服限制,我们提出了一个新的视觉医学图像分割模型LVIT(语言符合视觉变压器)。在我们的模型中,引入了医学文本注释,以弥补图像数据的质量缺陷。此外,文本信息可以在一定程度上指导伪标签的产生,并进一步保证半监督学习中伪标签的质量。我们还提出了指数伪标签迭代机制(EPI),以帮助扩展LVIT和像素级注意模块(PLAM)的半监督版本,以保留图像的局部特征。在我们的模型中,LV(语言视觉)损失旨在直接使用文本信息监督未标记图像的培训。为了验证LVIT的性能,我们构建了包含病理图像,X射线等的多模式医学分割数据集(图像 +文本)。实验结果表明,我们提出的LVIT在完全和半监督条件下具有更好的分割性能。代码和数据集可在https://github.com/huanglizi/lvit上找到。
translated by 谷歌翻译
本文介绍了Thuee团队的语音识别系统,用于IARPA Open自动语音识别挑战(OpenASR21),并进行了进一步的实验探索。我们在受限和受约束的训练条件下取得了出色的成果。对于受限的训练条件,我们基于标准混合体系结构构建基本ASR系统。为了减轻摄影库(OOV)的问题,我们使用针对OOV和潜在的新单词的素式至phoneme(G2P)技术扩展了发音词典。采用了标准的声学模型结构,例如CNN-TDNN-F和CNN-TDNN-F-A。此外,还应用了多种数据增强技术。对于约束训练条件,我们使用自我监督的学习框架WAV2VEC2.0。我们在公开可用的预训练XLSR-53的基础上使用连接式时间分类(CTC)标准进行各种微调技术。我们发现,在将WAV2VEC2.0预训练的模型应用于基于编码器的CTC/CTC/COATION ASR体系结构时,前端特征提取器在将WAV2VEC2.0预训练的模型应用时起着重要作用。通过将目标语言用作为前端功能提取器使用的CTC模型填充可以实现额外的改进。
translated by 谷歌翻译
它在智能代理系统中起着核心作用,以模拟代理的认知状态及其变化。为此,已经提出了一些正式系统。其中,认知逻辑侧重于不同认知属性(例如知识,信仰,常识等)和认知行动(例如,公开公告,私人公告,异步公告等)的逻辑定律。所有这些系统都不涉及代理与其环境之间的交互行为。通过丰富众所周知的$ \ pi $ -calculus,本文介绍了电子库,该论文提供了一个概念框架,以模拟代理人与认知状态的认知相互作用。与通常的过程演算不同,始终安排电子库中的所有系统以在认知状态下运行。为了抽象地形式化认知状态,提出了一群假设。此外,基于这些假设,电子钙的行为理论是在两个不同的观点中开发的。
translated by 谷歌翻译
在本报告中,我们介绍了2022年的Epic-kitchens-100多实体检索挑战的方法。我们首先将句子分解为与动词和名词相对应的语义角色。然后,利用自我攻击来利用语义角色上下文化的视频特征以及通过多个嵌入空间中的三胞胎损失的文本功能。我们的方法在归一化折扣累积增益(NDCG)中覆盖了强大的基线,这对于语义相似性更有价值。我们的提交为NDCG排名第三,地图排名第四。
translated by 谷歌翻译