诸如Alexa自动语音识别(ASR)系统的大规模机器学习(ML)系统随着手动转录的训练数据量的增加而不断改进。我们利用半监督学习(SSL)从大量未转录的音频数据中学习声学模型(AM),而不是将手动转录缩放到不实际的水平。从100万小时的音频中学习AM会带来独特的ML和系统设计挑战。我们为AM提供高度可扩展且资源效率高的SSL系统的设计和评估。使用学生/教师学习范例,我们专注于学生学习子系统:一个可扩展且强大的数据管道,可以从原始音频生成特征和目标,以及一个有效的模型管道,包括构建学生模型的分布式培训师。 Ourevaluations表明,即使没有广泛的超参数调整,我们也可以在10到20美元的范围内获得相对准确度的提升,同时具有更高的收益条件。此SSL系统的端到端处理时间为12天,此系统中的多个组件可以通过更多计算资源进行线性扩展。
translated by 谷歌翻译
这是我们从100万小时无标签语音建立声学模型的经验教训的报告,而标记语音限制在7,000小时。我们对未标记数据进行学生/教师培训,与基于置信度模型的方法相比,帮助扩展目标生成,这需要解码器和置信度模型。为了优化存储并使目标生成并行化,我们存储了来自教师模型的高价值logits。介绍了预定学习的概念,我们在未标记和标记数据上交错学习。为了在大量GPU上扩展分布式训练,我们使用具有64个GPU的BMUF,同时仅使用16个GPU对具有梯度阈值压缩SGD的标记数据执行序列训练。 Ourexperiments表明,极其庞大的数据确实很有用;通过小参数调整,我们可以在10%到20%的范围内获得相对的WER改善,在噪声较大的条件下获得更高的增益。
translated by 谷歌翻译
对于真实世界的语音识别应用,噪声稳健性仍然是一个挑战。在这项工作中,我们采用师生(T / S)学习技术,使用并行干净和嘈杂的语料库来改善多媒体噪声下的自动语音识别(ASR)性能。最重要的是,我们应用logits选择方法,该方法仅保留k个最高值,以防止教师错误地强调知识并减少传输数据所需的带宽。我们整合了长达8000小时的未转录数据,并且除了受过交叉熵训练的模型之外,还在序列训练模型上呈现我们的结果。与训练有序的教师相比,最佳序列训练的学生模型分别对我们的清洁,模拟噪声和真实测试集产生约10.1%,28.7%和19.6%的相关误差率(WER)减少。
translated by 谷歌翻译
与历史上的任何时间相比,个人今天创造和消费更多关于他们自己的数据。这些数据的来源包括可穿戴设备,图像,社交媒体,地理空间信息等。跨模式数据分析的巨大机会在于利用现有的领域知识方法来理解和指导人类健康。特别是在慢性病中,目前的医疗实践使用基于稀疏医院的生物测量学(血液测试,昂贵的成像等)的组合来理解个体的进化健康状况。未来的卫生系统必须整合在个人层面进行数据处理,以便更好地了解健康状况,特别是在控制论框架中。在这项工作中,我们融合了多个用户创建和开源数据流以及已建立的生物医学知识,以提供两种类型的心血管健康定量状态估计。首先,我们使用可穿戴设备来计算心肺健康(CRF),这是一种已知的心脏病定量预测因子,在临床环境中未经常收集。其次,我们从不同的数据集中估计了固有的遗传因素,生活环境风险,昼夜节律和生物指标。我们对24个科目的实验结果证明了多模态数据如何提供个性化的健康洞察力。了解健康状况的动态性质将为更好的基于健康的推荐引擎,更好的临床决策和积极的生活方式改变铺平道路。
translated by 谷歌翻译
研究人员经常通过他们的应用程序编程接口(API)查询在线社交平台,以找到目标人群,例如人类患有疾病的人[\ cite {De-Choudhury2017}和jazzmusicians~ \ cite {heckathorn2001finding}。这些目标群体的实体满足通常使用oracle(人类或预先训练的分类器)识别的属性。当目标实体的属性不能通过API直接查询时,我们将属性称为“隐藏”,将人口称为隐藏群体。在社交网络上查找属于这些人群的人很难,因为他们是不可查询的,并且采样器必须从有限预算限制内的组合查询空间进行探索。通过利用可查询属性和感兴趣的人口之间的相关性以及通过对查询空间进行分层排序,我们提出了一个基于决策树的Thompson采样器(\ texttt {DT-TMP}),可以有效地发现要查询的正确属性组合。我们提出的采样器在在线实验中的表现优于最先进的采样器,例如推特上的54%。当离线实验中已知查询的匹配程度数时,\ texttt {DT-TMP}在基线采样器上的执行速度比0.9-1.5 $ \ times $好。在未来,我们希望通过制定更复杂的查询来探索寻找隐藏人口的选择。
translated by 谷歌翻译
选择性估计长期以来用于密度估计的统计工具。为了捕获关系表的丰富多变量分布,我们建议使用一种新型的高容量统计模型:深度似然模型。然而,这些模型的直接应用导致有限的估计器,其对于范围和通配符谓词的评估来说过于昂贵。为了制作真正可用的估算器,我们在可能性模型之上开发了蒙特卡罗集成方案,该方案可以使用数十个或更多过滤器来有效地处理范围查询。像经典概要一样,我们的估算器在没有监督的情况下总结了数据。与以前的解决方案不同,我们的估算器近似于联合数据分布,没有任何独立性假设。当在真实世界数据集上进行评估并与实际系统和主要技术家族进行比较时,我们的基于似然模型的估计器在尾部实现了单位数乘法误差,比第二种最佳方法提高了40-200 $ \次精度,并且是空间和运行时间效率高达。
translated by 谷歌翻译
来自EEG的癫痫发作检测是一个具有挑战性且耗时的临床问题,其将受益于自动算法的开发。 EEGs可以被视为结构时间序列,因为它们是多变量时间序列,其中导线在患者头皮上的放置提供了关于相互作用结构的预先信息。通常用于时间序列的深度学习模型不提供利用结构信息的方法,但这在结构时间序列的模型中是期望的。为了应对这一挑战,我们提出了时间图卷积网络(TGCN),利用结构信息并且参数相对较少的模型.TGCN应用了在时间和空间上定位和共享的特征提取操作,从而在任务中提供有用的归纳偏差。期望类似的特征在不同的序列中具有辨别力。在我们的实验中,我们关注最重要的检测方法,并证明TGCN与其他任务中已经证明是最先进的相关模型的性能相匹配。此外,我们通过探索帮助临床医生的方法来研究TGCN的可解释性优势。确定何时发生精确癫痫发作,以及大多数参与的大脑部位。
translated by 谷歌翻译
零射击学习(ZSL)旨在通过利用已见和未看到的类之间的语义关系来识别看不见的类。 ZSL算法面临的两个主要问题是中心问题和对看到的类的偏见。现有的ZSL方法仅关注常规和通用ZSL设置中的这些问题之一。在这项工作中,我们提出了一个novelapproach,语义对齐偏差减少(SABR)ZSL,重点解决这两个问题。它通过学习在保留标签之间的语义关系的同时空间来克服集线器问题,同时编码关于类的区分信息。此外,我们还提出了通过归纳设置中的简单交叉验证过程和转换设置中的新的弱转移约束来减少所见类别的偏差的方法。对三基准数据集的大量实验表明,在传统的ZSL设置中,所提出的模型明显优于现有技术,在传统的ZSL设置中优于大约1.5-9%,在广义ZSL中,对于归纳和转换设置,显着优于约2-14%。
translated by 谷歌翻译
这项工作解决了从未标记的语音记录中学习一组语言特定的声学单元的问题,给出了一组来自其他语言的标记记录。我们的方法可以通过以下两个步骤来描述:首先,模型从标记的数据中学习声学单元的概念,然后模型使用其知识在目标语言中找到新的声学单元。我们用贝叶斯子空间隐马尔可夫模型(SHMM)实现这个过程,这是一个类似于子空间高斯混合模型(SGMM)的模型,其中每个低维嵌入代表一个声学单元,而不仅仅是HMM的状态。子空间使用全球电话语料库(德语,波兰语和西班牙语)的3种语言进行训练,并在TIMIT语料库中发现AU。以等效电话错误率测量的结果表明,该方法明显优于以前基于HMM的声学单元发现系统,并且与变分自动编码器-HMM相比具有优势。
translated by 谷歌翻译
提出了一种新的多Agent系统分散轨迹生成算法。多机器人系统具有改变各种领域生活的能力。但是,多机器人系统的轨迹生成仍处于初期阶段,仅限于严格控制的环境。为此,提出了一种在给定初始状态和期望结果姿势时为机器人生成无碰撞轨迹的在线轨迹优化算法。它利用一种简单的障碍物检测方法,基于局部形状的障碍物地图和机器人当前状态的通信。使用当地地图,制定安全区域。基于通信数据,预测其他机器人的轨迹,并通过调整机器人可以在没有碰撞的自由空间区域的大小来结合以避免碰撞。然后优化轨迹,使机器人保持在安全区域内,其中轨迹由按时间参数化的分段多项式表示。该算法使用后退时域原理实现。所提出的算法是在结构化和结构化环境中使用具有四阶差分平面空中机器人和非完整二阶轮式机器人的ROS对Gazebo的广泛测试的模拟。
translated by 谷歌翻译