本文为表格马尔可夫决策过程(MDP)提供了第一种多项式时间算法,该算法享受了遗憾的界限\ emph {独立于计划范围}。具体来说,我们考虑具有$ S $州的表格MDP,$ A $ ACTICY,计划范围$ h $,总奖励为$ 1 $,代理商播放$ K $ evipodes。我们设计了一种实现$ o \ left(\ mathrm {poly}(s,a,a,\ log k)\ sqrt {k} \ right)$遗憾的算法(\ mathrm {poly}(s,a,a,\ log k)polylog}(h)$依赖项〜\ citep {zhang2020 reininforcement}或对$ s $〜\ citep {li2021settling}具有指数依赖关系。我们的结果依赖于一系列新的结构引理,从而建立了固定策略的近似能力,稳定性和浓度特性,这些策略可以在与马尔可夫链有关的其他问题中应用。
translated by 谷歌翻译
本地化和导航是基本的机器人任务,需要准确,最新的地图才能完成这些任务,众包数据可检测地图更改,提出了吸引人的解决方案。收集和处理众包数据需要低成本的传感器和算法,但是现有的方法依赖于昂贵的传感器或计算昂贵的算法。此外,没有现有数据集来评估点云更改检测。因此,本文提出了一个使用低成本传感器(如立体声摄像机和IMU)来检测点云图中的变化的新型框架。此外,我们创建了一个数据集和相应的指标,借助高保真模拟器虚幻引擎4.实验表明,我们的视觉框架可以有效地检测数据集中的变化。
translated by 谷歌翻译
精神分裂症是一种慢性神经精神疾病,会引起大脑内部的不同结构改变。我们假设将深度学习应用于结构性神经影像学数据集可以检测到与疾病相关的改变,并提高分类和诊断准确性。我们使用单一可用的,常规的T1加权MRI扫描测试了这一假设,我们使用标准后处理方法从中提取了3D全脑结构。然后在三个开放数据集上开发,优化和评估了一个深度学习模型,并对精神分裂症患者进行T1加权MRI扫描。我们提出的模型优于基准模型,该模型还使用3D CNN体系结构对结构MR图像进行了训练。我们的模型几乎能够完美地(ROC曲线下的区域= 0.987),将精神分裂症患者与看不见的结构MRI扫描中的健康对照区分开。区域分析将皮质下区域和心室局部作为最预测的大脑区域。皮层结构在人类的认知,情感和社会功能中起关键作用,这些区域的结构异常与精神分裂症有关。我们的发现证实了精神分裂症与皮质下大脑结构的广泛改变有关,皮层结构信息在诊断分类中提供了突出的特征。总之,这些结果进一步证明了深度学习的潜力,以改善精神分裂症的诊断,并从单个标准的T1加权脑MRI中确定其结构性神经影像学特征。
translated by 谷歌翻译
Twitter机器人检测已成为打击错误信息,促进社交媒体节制并保持在线话语的完整性的越来越重要的任务。最先进的机器人检测方法通常利用Twitter网络的图形结构,在面对传统方法无法检测到的新型Twitter机器人时,它们表现出令人鼓舞的性能。但是,现有的Twitter机器人检测数据集很少是基于图形的,即使这些基于图形的数据集也遭受有限的数据集量表,不完整的图形结构以及低注释质量。实际上,缺乏解决这些问题的大规模基于图的Twitter机器人检测基准,严重阻碍了基于图形的机器人检测方法的开发和评估。在本文中,我们提出了Twibot-22,这是一个综合基于图的Twitter机器人检测基准,它显示了迄今为止最大的数据集,在Twitter网络上提供了多元化的实体和关系,并且与现有数据集相比具有更好的注释质量。此外,我们重新实施35代表性的Twitter机器人检测基线,并在包括Twibot-22在内的9个数据集上进行评估,以促进对模型性能和对研究进度的整体了解的公平比较。为了促进进一步的研究,我们将所有实施的代码和数据集巩固到Twibot-22评估框架中,研究人员可以在其中始终如一地评估新的模型和数据集。 Twibot-22 Twitter机器人检测基准和评估框架可在https://twibot22.github.io/上公开获得。
translated by 谷歌翻译
在以前的作品中广泛讨论了句子语义相似性的原始伯特的表现不佳。我们发现不满意的性能主要是由于静态令牌嵌入偏差和无效的伯特层,而不是姓氏的高余弦相似性。为此,我们提出了一个迅速的句子嵌入方法,可以减少令牌嵌入偏差,使原始伯特层更有效。通过将句子嵌入式任务重新塑造为填充空白问题,我们的方法显着提高了原始伯特的性能。我们讨论了两个提示符,表示基于及时的句子嵌入的三个提示搜索方法。此外,我们提出了一种通过模板去噪技术的新型无监督培训目标,这大大缩短了监督和无人监督的环境之间的性能差距。对于实验,我们评估我们在非微调和微调的设置上的方法。即使是非微调方法也可以优于STS任务上的无监督服务器等微调的方法。我们的微调方法在无监督和监督设置中优于最先进的方法SIMCSE。与SIMCSE相比,我们分别在无监督环境下实现了2.29和2.58点的伯特和罗伯塔的改进。
translated by 谷歌翻译
社交网络对齐旨在将人身份对齐,跨社交网络。已经显示基于嵌入的模型对于通常采用模型训练通常采用结构接近保持目标的对准有效。在观察中,“过度关闭”用户嵌入对造成对齐不准确的这种模型是不可避免的,我们提出了一种新颖的学习框架,该框架试图通过引入仔细植入的伪伪植入用户在用户中更广泛地分开。锚。我们进一步提出了一种元学习算法,用于指导在学习过程中更新伪锚嵌入。通过使用伪锚和元学习的建议干预允许学习框架适用于广泛的网络对准方法。我们已将建议的学习框架纳入了几种最先进的模型。我们的实验结果表明了其植入伪锚的方法可以通过相当大的余量而没有伪锚的,特别是当仅存在非常少数标记的锚点时,其有效性可能会优于没有伪锚定的对应物。
translated by 谷歌翻译
我们研究了批量线性上下文匪徒的最佳批量遗憾权衡。对于任何批次数$ M $,操作次数$ k $,时间范围$ t $和维度$ d $,我们提供了一种算法,并证明了其遗憾的保证,这是由于技术原因,具有两阶段表达作为时间的时间$ t $ grose。我们还证明了一个令人奇迹的定理,令人惊讶地显示了在问题参数的“问题参数”中的两相遗憾(最高〜对数因子)的最优性,因此建立了确切的批量后悔权衡。与最近的工作\ citep {ruan2020linear}相比,这表明$ m = o(\ log \ log t)$批次实现无需批处理限制的渐近最佳遗憾的渐近最佳遗憾,我们的算法更简单,更易于实际实现。此外,我们的算法实现了所有$ t \ geq d $的最佳遗憾,而\ citep {ruan2020linear}要求$ t $大于$ d $的不切实际的大多项式。沿着我们的分析,我们还证明了一种新的矩阵集中不平等,依赖于他们的动态上限,这是我们的知识,这是其文学中的第一个和独立兴趣。
translated by 谷歌翻译
Web搜索是人类获取信息的重要方法,但是对于了解网页内容的机器仍然是一个巨大的挑战。在本文中,我们介绍了对网上结构阅读理解(SRC)的任务。鉴于网页和关于它的问题,任务是从网页找到答案。此任务要求系统不仅要了解文本的语义,还需要了解文本的语义,还需要网页的结构。此外,我们提出了一种新的基于Web的结构阅读理解数据集。 WebSRC由400K问答对组成,从6.4K网页收集。与QA对一起,我们的数据集还提供了相应的HTML源代码,屏幕截图和元数据。 WebSRC中的每个问题都需要对网页的某种结构理解来回答,并且答案是网页或是/否的文本跨度。我们评估我们数据集的各种基线,以显示我们的任务难度。我们还研究了结构信息和视觉功能的有用性。我们的数据集和基线已在HTTPS://x-lance.github.io/websrc/上公开提供。
translated by 谷歌翻译
我们开发了一个概率框架,用于分析基于模型的加强学习在整个概念环境中。然后,我们将其应用于使用线性动力学但未知的系数和凸起的有限时间地平线随机控制问题,但可能是不规则的,客观的函数。使用概率表示,我们研究相关成本函数的规律性,并建立精确估计,用于应用估计和真实模型参数的最佳反馈控制之间的性能差距。我们确定这种性能差距是二次,提高近期工作的线性性能差距的条件[X.郭,A. Hu和Y. Zhang,Arxiv预印,arxiv:2104.09311,(2021)],它与随机线性二次问题获得的结果相匹配。接下来,我们提出了一种基于阶段的学习算法,我们展示了如何优化探索剥削权衡,并在高概率和期望中实现索布林遗憾。当对二次性能间隙保持所需的假设时,该算法在一般情况下实现了订单$ \ mathcal {o}(\ sqrt {n \ ln n)$高概率后悔,以及订单$ \ mathcal {o} ((\ ln n)^ 2)$预期遗憾,在自我探索案例中,超过$ n $剧集,匹配文献中的最佳结果。分析需要新的浓度不等式,用于相关的连续时间观察,我们得出。
translated by 谷歌翻译
交通参与者的运动预测对于安全和强大的自动化驾驶系统至关重要,特别是在杂乱的城市环境中。然而,由于复杂的道路拓扑以及其他代理的不确定意图,这是强大的挑战。在本文中,我们介绍了一种基于图形的轨迹预测网络,其命名为双级预测器(DSP),其以分层方式编码静态和动态驾驶环境。与基于光栅状地图或稀疏车道图的方法不同,我们将驾驶环境视为具有两层的图形,专注于几何和拓扑功能。图形神经网络(GNNS)应用于提取具有不同粒度级别的特征,随后通过基于关注的层间网络聚合,实现更好的本地全局特征融合。在最近的目标驱动的轨迹预测管道之后,提取了目标代理的高可能性的目标候选者,并在这些目标上产生预测的轨迹。由于提出的双尺度上下文融合网络,我们的DSP能够产生准确和人类的多模态轨迹。我们评估了大规模协会运动预测基准测试的提出方法,实现了有希望的结果,优于最近的最先进的方法。
translated by 谷歌翻译