这是我们从100万小时无标签语音建立声学模型的经验教训的报告,而标记语音限制在7,000小时。我们对未标记数据进行学生/教师培训,与基于置信度模型的方法相比,帮助扩展目标生成,这需要解码器和置信度模型。为了优化存储并使目标生成并行化,我们存储了来自教师模型的高价值logits。介绍了预定学习的概念,我们在未标记和标记数据上交错学习。为了在大量GPU上扩展分布式训练,我们使用具有64个GPU的BMUF,同时仅使用16个GPU对具有梯度阈值压缩SGD的标记数据执行序列训练。 Ourexperiments表明,极其庞大的数据确实很有用;通过小参数调整,我们可以在10%到20%的范围内获得相对的WER改善,在噪声较大的条件下获得更高的增益。
translated by 谷歌翻译
对于真实世界的语音识别应用,噪声稳健性仍然是一个挑战。在这项工作中,我们采用师生(T / S)学习技术,使用并行干净和嘈杂的语料库来改善多媒体噪声下的自动语音识别(ASR)性能。最重要的是,我们应用logits选择方法,该方法仅保留k个最高值,以防止教师错误地强调知识并减少传输数据所需的带宽。我们整合了长达8000小时的未转录数据,并且除了受过交叉熵训练的模型之外,还在序列训练模型上呈现我们的结果。与训练有序的教师相比,最佳序列训练的学生模型分别对我们的清洁,模拟噪声和真实测试集产生约10.1%,28.7%和19.6%的相关误差率(WER)减少。
translated by 谷歌翻译
与历史上的任何时间相比,个人今天创造和消费更多关于他们自己的数据。这些数据的来源包括可穿戴设备,图像,社交媒体,地理空间信息等。跨模式数据分析的巨大机会在于利用现有的领域知识方法来理解和指导人类健康。特别是在慢性病中,目前的医疗实践使用基于稀疏医院的生物测量学(血液测试,昂贵的成像等)的组合来理解个体的进化健康状况。未来的卫生系统必须整合在个人层面进行数据处理,以便更好地了解健康状况,特别是在控制论框架中。在这项工作中,我们融合了多个用户创建和开源数据流以及已建立的生物医学知识,以提供两种类型的心血管健康定量状态估计。首先,我们使用可穿戴设备来计算心肺健康(CRF),这是一种已知的心脏病定量预测因子,在临床环境中未经常收集。其次,我们从不同的数据集中估计了固有的遗传因素,生活环境风险,昼夜节律和生物指标。我们对24个科目的实验结果证明了多模态数据如何提供个性化的健康洞察力。了解健康状况的动态性质将为更好的基于健康的推荐引擎,更好的临床决策和积极的生活方式改变铺平道路。
translated by 谷歌翻译
这项工作解决了从未标记的语音记录中学习一组语言特定的声学单元的问题,给出了一组来自其他语言的标记记录。我们的方法可以通过以下两个步骤来描述:首先,模型从标记的数据中学习声学单元的概念,然后模型使用其知识在目标语言中找到新的声学单元。我们用贝叶斯子空间隐马尔可夫模型(SHMM)实现这个过程,这是一个类似于子空间高斯混合模型(SGMM)的模型,其中每个低维嵌入代表一个声学单元,而不仅仅是HMM的状态。子空间使用全球电话语料库(德语,波兰语和西班牙语)的3种语言进行训练,并在TIMIT语料库中发现AU。以等效电话错误率测量的结果表明,该方法明显优于以前基于HMM的声学单元发现系统,并且与变分自动编码器-HMM相比具有优势。
translated by 谷歌翻译
提出了一种新的多Agent系统分散轨迹生成算法。多机器人系统具有改变各种领域生活的能力。但是,多机器人系统的轨迹生成仍处于初期阶段,仅限于严格控制的环境。为此,提出了一种在给定初始状态和期望结果姿势时为机器人生成无碰撞轨迹的在线轨迹优化算法。它利用一种简单的障碍物检测方法,基于局部形状的障碍物地图和机器人当前状态的通信。使用当地地图,制定安全区域。基于通信数据,预测其他机器人的轨迹,并通过调整机器人可以在没有碰撞的自由空间区域的大小来结合以避免碰撞。然后优化轨迹,使机器人保持在安全区域内,其中轨迹由按时间参数化的分段多项式表示。该算法使用后退时域原理实现。所提出的算法是在结构化和结构化环境中使用具有四阶差分平面空中机器人和非完整二阶轮式机器人的ROS对Gazebo的广泛测试的模拟。
translated by 谷歌翻译
最近的一篇论文[arXiv:1609.00344]声称对使用EEG测量的观察ImageNet刺激的受试者的脑部处理进行分类,并使用从该处理得到的表示来创建新的对象分类器。该论文连同一系列后续论文[8,15,17,20,21,30,35]声称通过在若干计算机视觉任务上取得极为成功的结果,包括对象分类,转移学习和生成,彻底改变了这一领域。描绘人类感知和思想的图像使用通过EG测量的脑衍生表征。我们的新颖实验和分析表明,他们的结果在很大程度上取决于他们使用的区块设计,其中agiven类的所有刺激都呈现在一起,并且通过快速事件设计失败,不同类别的轮廓随机混合。块设计基于块级时间相关性导致任意脑状态的分类,所述块级时间相关性倾向于存在于所有EEG数据中,而不是与刺激相关的活动中。因为他们的测试集中的每个试验都来自与相应训练集中相同的试验块,所以它们的块设计因此导致在测试集上进行秘密训练。这使得在多个已发表的论文中对此数据执行的所有后续分析无效,并且要求所有声称的结果都要求。我们进一步表明,用随机码本构造的新的对象分类器与利用从EEG数据中提取的表示构造的新的对象分类器一样或更好,这表明用从EEG数据中提取的表示构建的分类器的性能根本不会从中受益。大脑衍生的表示。我们的结果校准了所涉及的任务的潜在难度,并警告反对耸人听闻和过于乐观但是错误的声称。
translated by 谷歌翻译
多机器人系统具有在各种应用中使用的潜力。在大多数先前的工作中,轨迹生成多机器人系统在已知环境中实现。为了克服这一点,我们提出了一种在线轨迹优化算法,该算法利用机器人当前状态的通信来考虑其他机器人,同时使用基于局部对象的地图来识别障碍物。基于这些数据,我们预测机器人预期要经过的轨迹,并通过制定机器人无需与其他机器人和障碍物碰撞的自由空间区域来利用这些轨迹来避免碰撞。优化轨迹以使机器人保持在该区域内。所提出的方法在使用ROS的Gazebo模拟中进行测试。
translated by 谷歌翻译
深度神经网络(DNN)为多种应用提供最先进的结果,但DNN用于多模式视听应用仍然是一个未解决的问题。结合视听信息的当前方法不考虑固有的不确定性或利用与最终决策中的每种模态相关的真实分类置信度。我们在这项工作中的贡献是将贝叶斯变分推理应用于DNN用于视听活动识别并量化模型不确定性以及原则置信度。我们提出了一种新方法,它结合了确定性和变分层来估计模型不确定性和原则性置信度。我们对从时间瞬间(MiT)数据集的子集中选择的分布内和样本外样本的实验显示,与非贝叶斯基线相比,更可靠的信心度量。我们还证明了从该框架获得的不确定性估计可以识别UCF101和MiT数据集上的分布数据。在多模式设置中,与非贝叶斯基线相比,所提出的框架将MiT数据集的子集的精确回忆AUC提高了14.4%。
translated by 谷歌翻译
将操纵技能推广到新情况需要从演示中提取不同的模式。例如,机器人需要在更高层次上理解示范,同时对物体的外观,物体的几何方面(例如观察者在演示中的位置,大小,方向和视点)不变。在本文中,我们提出了一种算法,该算法利用隐藏半马尔可夫模型的不变公式来提取示范的联合概率密度函数,以提取不变段(也称为子目标或选项),并通过线性四边形跟踪平滑地遵循生成的状态序列。控制器。该算法将关于描述虚拟地标或感兴趣对象的不同坐标系的演示与任务参数化公式作为输入,并且以系统方式根据环境变化调整分段。我们在潜在空间中给出了该算法的变量,它具有低秩协方差分解,半连接协方差,以及小方差渐近下的模型参数的非参数在线估计;获得相当低的样本和模型复杂性以获得新的操作技能。该算法允许Baxter机器人学习拾取和放置任务,同时基于仅4次动觉演示避免可移动障碍。
translated by 谷歌翻译
在电子商务中,产品目录的内容质量起着关键作用,为客户提供令人满意的体验。特别是,产品图像等视觉内容会影响客户的参与度和购买决策。随着电子商务的快速发展和人工智能的出现,传统的内容管理系统正在让位于自动化的可扩展系统。在本文中,我们提出了一个机器学习驱动的视觉内容管理系统,用于超大型电子商务目录。对于agiven产品,系统汇总来自不同供应商的图像,理解并分析它们以产生具有最佳图像数量和质量的优质图像集,并根据客户的需求安排它们。该系统利用一系列技术,从深度学习到传统计算机视觉,在不同的分析阶段。在本文中,我们概述了系统的工作原理,并讨论了将机器学习技术应用于现实数据商业领域所面临的独特挑战。我们强调如何调整最先进的图像分类技术,以开发为大规模,多样化和不断发展的产品目录定制的解决方案。我们还提供了有关如何衡量系统对各种客户参与度量的影响的详细信息。
translated by 谷歌翻译