基于变压器的模型已经证明了它们在自动语音识别(ASR)任务中的有效性,甚至比常规混合框架表现出卓越的性能。变形金刚的主要思想是通过自我发挥层来捕捉话语中的远程全球背景。但是,对于诸如对话演讲之类的场景,这种话语级建模将忽略跨越话语的上下文依赖性。在本文中,我们建议在基于变压器的端到端体系结构中明确模拟索语中的索引信息,以进行对话性语音识别。具体而言,对于编码器网络,我们捕获了先前语音的上下文,并将此类历史信息纳入了通过上下文感知的残余注意机制中的当前输入。对于解码器而言,当前话语的预测还可以通过有条件的解码器框架在历史性的语言信息上进行条件。我们展示了我们提出的方法在几个开源对话中心的有效性,而拟议的方法始终提高了基于话语级变压器的ASR模型的性能。
translated by 谷歌翻译
自主驾驶的典型轨迹计划通常依赖于预测周围障碍的未来行为。近年来,由于其令人印象深刻的性能,基于深度学习的预测模型已被广泛使用。但是,最近的研究表明,在长尾驾驶场景分布之后,在数据集上训练的深度学习模型将遭受“尾巴”的大量预测错误,这可能会导致计划者的失败。为此,这项工作定义了预测模型不确定性的概念,以量化由于数据稀疏而导致的高错误。此外,这项工作提出了一个轨迹规划师,以考虑对更安全性能的这种预测不确定性。首先,由于培训数据不足而导致的预测模型的不确定性是由集成网络结构估算的。然后,轨迹规划师的设计目的是考虑预测不确定性引起的最坏情况。结果表明,在数据不足引起的预测不确定性下,提出的方法可以提高轨迹计划的安全性。同时,使用足够的数据,该框架不会导致过度保守的结果。这项技术有助于在现实世界的长尾数据分布下提高自动驾驶汽车的安全性和可靠性。
translated by 谷歌翻译
移动对象(DATMO)的检测和跟踪是自动驾驶环境感知的重要组成部分。虽然使用环绕视图摄像机的3D检测器只是蓬勃发展,但越来越多的趋势是使用不同的基于变压器的方法从透视图的2D特征图中学习3D空间中的查询。本文提出了稀疏的R-CNN 3D(SRCN3D),这是一种新颖的两阶段全横向卷积映射管道,用于环绕视图摄像机检测和跟踪。 SRCN3D采用了级联结构,具有固定数量的提案盒和提案潜在功能的双轨更新。预计提案框可以透视视图,以汇总感兴趣的区域(ROI)本地特征。基于此,提案功能通过动态实例交互式头部进行完善,然后生成分类,并应用于原始边界框。与先前的艺术相比,我们的稀疏功能采样模块仅利用本地2D功能来调整每个相应的3D提案盒,从而导致完整的稀疏范式。提案功能和外观特征均在数据关联过程中采用多刺激性3D多对象跟踪方法。 Nuscenes数据集的广泛实验证明了我们提出的SRCN3D检测器和跟踪器的有效性。代码可在https://github.com/synsin0/srcn3d上找到。
translated by 谷歌翻译
局部表示学习是促进组织病理学整体幻灯片图像分析的性能的关键挑战。先前的表示学习方法遵循监督学习范式。但是,大规模WSIS的手动注释是耗时且劳动力密集的。因此,自我监督的对比学习最近引起了密集的关注。目前的对比学习方法将每个样本视为一个类别,这遭受了类碰撞问题,尤其是在组织病理学图像分析的领域。在本文中,我们提出了一个新颖的对比表示学习框架,称为病变感染对比学习(LACL),用于组织病理学整个幻灯片图像分析。我们基于内存库结构建立了病变队列,以存储不同类别WSIS的表示形式,这使对比模型可以在训练过程中选择性定义负面对。此外,我们设计了一个队列改进策略,以净化病变队列中存储的表示形式。实验结果表明,LACL在不同数据集上学习在组织病理学图像表示学习中的最佳性能,并且在不同的WSI分类基准下的最先进方法优于最先进的方法。该代码可在https://github.com/junl21/lacl上获得。
translated by 谷歌翻译
会话推荐系统(CRS)旨在通过自然语言对话推荐给用户的合适项目。对于开发有效的CRSS,主​​要技术问题是如何准确地推断用户偏好从非常有限的对话环境。为了解决问题,有希望的解决方案是纳入外部数据以丰富上下文信息。然而,先前的研究主要集中在针对某些特定类型的外部数据量身定制的融合模型,这是不普遍的模型,并利用多型外部数据。为了有效利用多型外部数据,我们提出了一种新型粗对对比学习框架,以改善CRS的数据语义融合。在我们的方法中,我们首先从不同的数据信号中提取并代表多粒度语义单元,然后以粗略的方式对齐相关的多型语义单元。为了实现这一框架,我们设计了用于建模用户偏好的粗粒细粒和细粒度的程序,前者侧重于更通用,粗粒粗粒语义融合,后者侧重于更具体,细粒度的语义融合。可以扩展这样的方法以包含更多种类的外部数据。两个公共CRS数据集的大量实验已经证明了我们在两种建议和对话任务中的方法的有效性。
translated by 谷歌翻译
自动驾驶技术的加速开发对获得大量高质量数据的需求更大。标签,现实世界数据代表性是培训深度学习网络的燃料,对于改善自动驾驶感知算法至关重要。在本文中,我们介绍了PANDASET,由完整的高精度自动车辆传感器套件生产的第一个数据集,具有无需成本商业许可证。使用一个360 {\ DEG}机械纺丝利达,一个前置,远程LIDAR和6个摄像机收集数据集。DataSet包含100多个场景,每个场景为8秒,为目标分类提供28种类型的标签和37种类型的语义分割标签。我们提供仅限LIDAR 3D对象检测的基线,LIDAR-Camera Fusion 3D对象检测和LIDAR点云分割。有关Pandaset和开发套件的更多详细信息,请参阅https://scale.com/open-datasets/pandaset。
translated by 谷歌翻译
我们考虑单个图像超分辨率(SISR)问题,其中基于低分辨率(LR)输入产生高分辨率(HR)图像。最近,生成的对抗性网络(GANS)变得幻觉细节。大多数沿着这条线的方法依赖于预定义的单个LR-intle-hr映射,这对于SISR任务来说是足够灵活的。此外,GaN生成的假细节可能经常破坏整个图像的现实主义。我们通过为Rich-Detail SISR提出最好的伙伴GANS(Beby-GaN)来解决这些问题。放松不变的一对一的约束,我们允许估计的贴片在培训期间动态寻求最佳监督,这有利于产生更合理的细节。此外,我们提出了一种区域感知的对抗性学习策略,指导我们的模型专注于自适应地为纹理区域发电细节。广泛的实验证明了我们方法的有效性。还构建了超高分辨率4K数据集以促进未来的超分辨率研究。
translated by 谷歌翻译
无监督的摘要方法通过纳入预训练的语言模型的表示形式来取得了显着的结果。但是,当输入文档非常长的同时,现有方法无法考虑效率和有效性。为了解决这个问题,在本文中,我们提出了一个基于语义块的无监督长期文档摘要,提议有效的粗到1个方面的排名(C2F-FAR)框架。语义块是指描述相同方面的文档中的连续句子。具体而言,我们通过将一步排名方法转换为层次多范围两阶段排名来解决此问题。在粗级阶段,我们提出了一种新的段算法,将文档拆分为相关的语义块,然后过滤量微不足道的块。在精细阶段,我们在每个块中选择显着句子,然后从选定的句子中提取最终摘要。我们在四个长文档摘要数据集上评估了我们的框架:Gov-Report,Billsum,Arxiv和PubMed。我们的C2F-FAR可以在Gov-Report和Billsum上实现新的无监督摘要结果。此外,我们的方法比以前的方法高4-28倍。
translated by 谷歌翻译
机器学习辅助建模的原子势能表面(PES)正在彻底改变分子模拟的领域。随着高质量电子结构数据的积累,可以在所有可用数据上鉴定的模型,并在下游任务上以较小的额外努力进行填充,这将使该领域进入新阶段。在这里,我们提出了DPA-1,这是一种具有新颖的注意机制的深层潜在模型,该模型非常有效地表示原子系统的构象和化学空间并学习PES。我们在许多系统上测试了DPA-1,并且与现有基准相比,观察到了卓越的性能。当在包含56个元素的大规模数据集上进行预估计时,DPA-1可以成功应用于各种下游任务,并有很大的提高样品效率。令人惊讶的是,对于不同的元素,学习的类型嵌入参数在潜在空间中形成$螺旋$,并具有自然对应的元素性表位,显示了预审预周化的DPA-1模型的有趣解释性。
translated by 谷歌翻译
面部表达识别(FER)是一个具有挑战性的问题,因为表达成分始终与其他无关的因素(例如身份和头部姿势)纠缠在一起。在这项工作中,我们提出了一个身份,并构成了分离的面部表达识别(IPD-fer)模型,以了解更多的判别特征表示。我们认为整体面部表征是身份,姿势和表达的组合。这三个组件用不同的编码器编码。对于身份编码器,在培训期间使用和固定了一个经过良好训练的面部识别模型,这可以减轻对先前工作中对特定表达训练数据的限制,并使野外数据集的分离可行。同时,用相应的标签优化了姿势和表达编码器。结合身份和姿势特征,解码器应生成输入个体的中性面。添加表达功能时,应重建输入图像。通过比较同一个体的合成中性图像和表达图像之间的差异,表达成分与身份和姿势进一步分离。实验结果验证了我们方法对实验室控制和野外数据库的有效性,并实现了最新的识别性能。
translated by 谷歌翻译