鉴于最近深度学习的发展激增,本文提供了对音频信号处理的最新深度学习技术的回顾。语音,音乐和环境声音处理被并排考虑,以指出领域之间的相似点和不同点,突出一般方法,问题,关键参考和区域之间相互交流的可能性。回顾了主要特征表示(特别是log-mel光谱和原始波形)和deeplearning模型,包括卷积神经网络,长期短期记忆体系结构的变体,以及更多音频特定的神经网络模型。随后,涵盖了突出的深度学习应用领域,即音频识别(自动语音识别,音乐信息检索,环境声音检测,定位和跟踪)和合成与转换(源分离,音频增强,语音,声音和音乐合成的生成模型)。最后,确定了应用于音频信号处理的深度学习的关键问题和未来问题。
translated by 谷歌翻译
直接预测输入语音的输出字符序列的端到端(E2E)模型是用于设备上语音识别的良好候选者。然而,E2E模型提出了许多挑战:为了真正有用,这些模型必须实时地以流方式解码语音话语;它们对用例的长尾必须是健壮的;他们必须能够利用特定于用户的上下文(例如,联系人列表);最重要的是,它们必须非常准确。在这项工作中,我们描述了我们使用递归神经网络传感器构建E2Espeech识别器的努力。在实验评估中,我们发现在许多评估类别中,所提出的方法在延迟和准确性方面都优于传统的基于CTC的模型。
translated by 谷歌翻译
我们提出了一个新的CogQA框架,用于多跳问题回答inweb-scale文档。受认知科学中的双重过程理论的启发,该框架通过协调隐式提取模块(系统1)和显式推理模块(系统2)逐步在迭代过程中构建\ textit {认知图}。在给出准确答案的同时,我们的框架进一步提供了可解释的推理路径。具体而言,基于BERT和图形神经网络的实现有效处理了HotpotQAfullwiki数据集中的多跳推理问题的数百万个文档,在排行榜上获得了34.9的联合$ F_1 $得分,而最佳竞争对手的得分为23.6。
translated by 谷歌翻译
交通信号控制是一种新兴的应用场景,用于加强学习。除了作为影响人们通勤日常生活的重要问题之外,交通信号控制在适应动态交通环境和协调包括车辆和行人在内的数千名代理人方面对于强化学习提出了独特的挑战。现代强化学习成功的关键因素依赖于商品模拟器来生成大量用于学习的数据样本。然而,最常用的开源流量模拟器SUMO不能扩展到大型公路网和大流量,这阻碍了对交通场景的强化学习的研究。这促使我们创建一个新的流量模拟器CityFlow,它具有基本优化的数据结构和高效的算法。 CityFlow可以根据合成和真实数据支持灵活的道路网络和交通流量定义。它还提供了用户友好的强化学习界面。最重要的是,CityFlow比SUMO快20多倍,并且能够通过交互式渲染形式监控来支持全市范围的交通模拟。除了交通信号控制,CityFlow还可以作为其他交通研究的基础,并为智能交通领域的测试机器学习方法创造新的可能性。
translated by 谷歌翻译
研究人员经常通过他们的应用程序编程接口(API)查询在线社交平台,以找到目标人群,例如人类患有疾病的人[\ cite {De-Choudhury2017}和jazzmusicians~ \ cite {heckathorn2001finding}。这些目标群体的实体满足通常使用oracle(人类或预先训练的分类器)识别的属性。当目标实体的属性不能通过API直接查询时,我们将属性称为“隐藏”,将人口称为隐藏群体。在社交网络上查找属于这些人群的人很难,因为他们是不可查询的,并且采样器必须从有限预算限制内的组合查询空间进行探索。通过利用可查询属性和感兴趣的人口之间的相关性以及通过对查询空间进行分层排序,我们提出了一个基于决策树的Thompson采样器(\ texttt {DT-TMP}),可以有效地发现要查询的正确属性组合。我们提出的采样器在在线实验中的表现优于最先进的采样器,例如推特上的54%。当离线实验中已知查询的匹配程度数时,\ texttt {DT-TMP}在基线采样器上的执行速度比0.9-1.5 $ \ times $好。在未来,我们希望通过制定更复杂的查询来探索寻找隐藏人口的选择。
translated by 谷歌翻译
视频编码是所有流行视频流方法中的关键步骤。在视频质量,压缩和计算效率方面取得了很大进展。最近,人们一直希望找到从机器学习的快速发展领域应用技术的方法,以进一步改进视频编码。我们提出了一种使用卷积神经网络来帮助改进各种标准编码方法输出的方法。我们的方法的新颖性是训练多组不同的网络参数,每组都对应于特定的短视频段。网络参数集数组动态扩展以匹配任何长度的视频。我们证明了我们的方法可以提高标准视频编码的质量和压缩效率。
translated by 谷歌翻译
来自2D图像的多人姿势估计具有挑战性,因为它不仅需要关键点定位而且还需要人类检测。最先进的自上而下方法,多尺度信息是准确姿态估计的关键因素,因为它包含关键点的本地信息和整个人的全局信息。尽管多尺度信息允许这些方法实现最先进的性能,但自上而下的方法仍然需要大量的计算,因为他们需要使用额外的人体检测器来将裁剪的人体图像馈送到他们的姿势估计模型。为了有效地利用较小计算的多尺度信息,我们提出了多尺度聚合R-CNN(MSA R-CNN)。它由多尺度RoIAlign块(MS-RoIAlign)和多尺度关键点头网络(MS-KpsNet)组成,旨在有效利用多尺度信息。此外,与先前的自上而下方法相比,MSA R-CNN在单个模型中执行人体检测和关键点定位,这导致计算减少。所提出的模型在基于单个模型的方法中实现了最佳性能,并且其结果与基于模型的分离方法的结果相比,在公共可用的2D多人关键点定位数据集上具有较少量的计算。
translated by 谷歌翻译
有限混合模型是聚类方法的重要分支,可以应用于混合类型变量的数据集。但是,其应用存在挑战。首先,它通常依赖于EM算法,该算法可能对初始值的选择敏感。其次,在临床数据中遇到常见的检测限(LOD)生物标志物,其将检验变量转化为有限混合模型。此外,由于可用于聚类的变量数量增加,研究人员最近对变量重要性越来越感兴趣。为了解决这些挑战,我们提出了贝叶斯有限混合模型,同时进行变量选择,考虑生物标志物LOD并获得聚类结果。我们采用贝叶斯方法来获得参数估计和聚类成员资格,以绕过EM算法的限制。为了支持LOD,我们在Gibbs采样中再添加一步,以迭代填充低于或高于LOD的生物标记值。另外,我们在每个变量上放置一个先前的spike-and-slabtype来获得变量重要性。在各种情况下进行模拟以检查该方法的性能。还进行了电子健康记录的实际数据应用。
translated by 谷歌翻译
极端多标签分类(XMC)旨在将来自巨大标签集的标签的相关子集分配给实例。由于现代化应用导致大量标签集,XMC的可扩展性引起了学术界和工业界最近的关注。在本文中,我们建立了一个有效解决XMC的三阶段框架,包括1)索引标签,2)将实例与相关指标匹配,3)对相关指标的标签进行排序。该框架统一了许多现有的XMC方法。基于此框架,我们提出了模块化的深度学习方法SLINMER:语义标签索引,神经匹配和高效排名。 SLINMER的标签索引阶段可​​以采用不同的语义标签表示,导致SLINMER的不同配置。实际上,我们证明了SLINMER的几个单独配置比最先进的XMC方法在几个基准数据集上的优越性能。此外,通过集成这些配置,SLINMER可以实现更好的结果。特别是,在具有0.5百万个标签的Wiki数据集上,精度@ 1从61%增加到67%。
translated by 谷歌翻译
聚类是发现数据模式的基本技术。多年来数据量和复杂性的不断增加导致了新聚类算法的改进和发展。然而,尽管具有混合类型的数据丰富,特别是在医学领域,但是可以使用混合变量类型(连续和分类)聚类数据的算法仍然是有限的。在现有的混合数据方法中,一些不可验证的分布假设或不同变量类型的贡献不能很好地平衡。我们提出了一种基于混合密度和分区的两步算法(HyDaP),它可以在变量选择后检测聚类。第一步涉及基于密度和基于分区的算法,以识别由连续变量形成的数据结构,并识别聚类的重要变量;第二步涉及基于分区的算法以及我们为混合数据设计的新的相异度度量,以获得聚类结果。我们进行了各种场景和数据结构的模拟,以检验HyDaP算法与同时使用的方法相比的性能。我们还将HyDaP算法应用于电子健康记录,以识别败血症表型。
translated by 谷歌翻译