对于真实世界的语音识别应用,噪声稳健性仍然是一个挑战。在这项工作中,我们采用师生(T / S)学习技术,使用并行干净和嘈杂的语料库来改善多媒体噪声下的自动语音识别(ASR)性能。最重要的是,我们应用logits选择方法,该方法仅保留k个最高值,以防止教师错误地强调知识并减少传输数据所需的带宽。我们整合了长达8000小时的未转录数据,并且除了受过交叉熵训练的模型之外,还在序列训练模型上呈现我们的结果。与训练有序的教师相比,最佳序列训练的学生模型分别对我们的清洁,模拟噪声和真实测试集产生约10.1%,28.7%和19.6%的相关误差率(WER)减少。
translated by 谷歌翻译
与历史上的任何时间相比,个人今天创造和消费更多关于他们自己的数据。这些数据的来源包括可穿戴设备,图像,社交媒体,地理空间信息等。跨模式数据分析的巨大机会在于利用现有的领域知识方法来理解和指导人类健康。特别是在慢性病中,目前的医疗实践使用基于稀疏医院的生物测量学(血液测试,昂贵的成像等)的组合来理解个体的进化健康状况。未来的卫生系统必须整合在个人层面进行数据处理,以便更好地了解健康状况,特别是在控制论框架中。在这项工作中,我们融合了多个用户创建和开源数据流以及已建立的生物医学知识,以提供两种类型的心血管健康定量状态估计。首先,我们使用可穿戴设备来计算心肺健康(CRF),这是一种已知的心脏病定量预测因子,在临床环境中未经常收集。其次,我们从不同的数据集中估计了固有的遗传因素,生活环境风险,昼夜节律和生物指标。我们对24个科目的实验结果证明了多模态数据如何提供个性化的健康洞察力。了解健康状况的动态性质将为更好的基于健康的推荐引擎,更好的临床决策和积极的生活方式改变铺平道路。
translated by 谷歌翻译
提出了一种新的多Agent系统分散轨迹生成算法。多机器人系统具有改变各种领域生活的能力。但是,多机器人系统的轨迹生成仍处于初期阶段,仅限于严格控制的环境。为此,提出了一种在给定初始状态和期望结果姿势时为机器人生成无碰撞轨迹的在线轨迹优化算法。它利用一种简单的障碍物检测方法,基于局部形状的障碍物地图和机器人当前状态的通信。使用当地地图,制定安全区域。基于通信数据,预测其他机器人的轨迹,并通过调整机器人可以在没有碰撞的自由空间区域的大小来结合以避免碰撞。然后优化轨迹,使机器人保持在安全区域内,其中轨迹由按时间参数化的分段多项式表示。该算法使用后退时域原理实现。所提出的算法是在结构化和结构化环境中使用具有四阶差分平面空中机器人和非完整二阶轮式机器人的ROS对Gazebo的广泛测试的模拟。
translated by 谷歌翻译
最近的一篇论文[arXiv:1609.00344]声称对使用EEG测量的观察ImageNet刺激的受试者的脑部处理进行分类,并使用从该处理得到的表示来创建新的对象分类器。该论文连同一系列后续论文[8,15,17,20,21,30,35]声称通过在若干计算机视觉任务上取得极为成功的结果,包括对象分类,转移学习和生成,彻底改变了这一领域。描绘人类感知和思想的图像使用通过EG测量的脑衍生表征。我们的新颖实验和分析表明,他们的结果在很大程度上取决于他们使用的区块设计,其中agiven类的所有刺激都呈现在一起,并且通过快速事件设计失败,不同类别的轮廓随机混合。块设计基于块级时间相关性导致任意脑状态的分类,所述块级时间相关性倾向于存在于所有EEG数据中,而不是与刺激相关的活动中。因为他们的测试集中的每个试验都来自与相应训练集中相同的试验块,所以它们的块设计因此导致在测试集上进行秘密训练。这使得在多个已发表的论文中对此数据执行的所有后续分析无效,并且要求所有声称的结果都要求。我们进一步表明,用随机码本构造的新的对象分类器与利用从EEG数据中提取的表示构造的新的对象分类器一样或更好,这表明用从EEG数据中提取的表示构建的分类器的性能根本不会从中受益。大脑衍生的表示。我们的结果校准了所涉及的任务的潜在难度,并警告反对耸人听闻和过于乐观但是错误的声称。
translated by 谷歌翻译
多机器人系统具有在各种应用中使用的潜力。在大多数先前的工作中,轨迹生成多机器人系统在已知环境中实现。为了克服这一点,我们提出了一种在线轨迹优化算法,该算法利用机器人当前状态的通信来考虑其他机器人,同时使用基于局部对象的地图来识别障碍物。基于这些数据,我们预测机器人预期要经过的轨迹,并通过制定机器人无需与其他机器人和障碍物碰撞的自由空间区域来利用这些轨迹来避免碰撞。优化轨迹以使机器人保持在该区域内。所提出的方法在使用ROS的Gazebo模拟中进行测试。
translated by 谷歌翻译
深度神经网络(DNN)为多种应用提供最先进的结果,但DNN用于多模式视听应用仍然是一个未解决的问题。结合视听信息的当前方法不考虑固有的不确定性或利用与最终决策中的每种模态相关的真实分类置信度。我们在这项工作中的贡献是将贝叶斯变分推理应用于DNN用于视听活动识别并量化模型不确定性以及原则置信度。我们提出了一种新方法,它结合了确定性和变分层来估计模型不确定性和原则性置信度。我们对从时间瞬间(MiT)数据集的子集中选择的分布内和样本外样本的实验显示,与非贝叶斯基线相比,更可靠的信心度量。我们还证明了从该框架获得的不确定性估计可以识别UCF101和MiT数据集上的分布数据。在多模式设置中,与非贝叶斯基线相比,所提出的框架将MiT数据集的子集的精确回忆AUC提高了14.4%。
translated by 谷歌翻译
将操纵技能推广到新情况需要从演示中提取不同的模式。例如,机器人需要在更高层次上理解示范,同时对物体的外观,物体的几何方面(例如观察者在演示中的位置,大小,方向和视点)不变。在本文中,我们提出了一种算法,该算法利用隐藏半马尔可夫模型的不变公式来提取示范的联合概率密度函数,以提取不变段(也称为子目标或选项),并通过线性四边形跟踪平滑地遵循生成的状态序列。控制器。该算法将关于描述虚拟地标或感兴趣对象的不同坐标系的演示与任务参数化公式作为输入,并且以系统方式根据环境变化调整分段。我们在潜在空间中给出了该算法的变量,它具有低秩协方差分解,半连接协方差,以及小方差渐近下的模型参数的非参数在线估计;获得相当低的样本和模型复杂性以获得新的操作技能。该算法允许Baxter机器人学习拾取和放置任务,同时基于仅4次动觉演示避免可移动障碍。
translated by 谷歌翻译
在电子商务中,产品目录的内容质量起着关键作用,为客户提供令人满意的体验。特别是,产品图像等视觉内容会影响客户的参与度和购买决策。随着电子商务的快速发展和人工智能的出现,传统的内容管理系统正在让位于自动化的可扩展系统。在本文中,我们提出了一个机器学习驱动的视觉内容管理系统,用于超大型电子商务目录。对于agiven产品,系统汇总来自不同供应商的图像,理解并分析它们以产生具有最佳图像数量和质量的优质图像集,并根据客户的需求安排它们。该系统利用一系列技术,从深度学习到传统计算机视觉,在不同的分析阶段。在本文中,我们概述了系统的工作原理,并讨论了将机器学习技术应用于现实数据商业领域所面临的独特挑战。我们强调如何调整最先进的图像分类技术,以开发为大规模,多样化和不断发展的产品目录定制的解决方案。我们还提供了有关如何衡量系统对各种客户参与度量的影响的详细信息。
translated by 谷歌翻译
深度神经网络中的不确定性估计对于设计可靠且稳健的AI系统至关重要。用于识别可疑活动的视频监控等应用程序采用深度神经网络(DNN)设计,但DNN不提供不确定性估计。在安全和安全关键应用程序中捕获可靠的不确定性估计将有助于建立对AI系统的信任。我们的贡献是将贝叶斯深度学习框架应用于视觉活动识别应用和量化模型的不确定性以及原则信心。我们利用变分推理技术训练贝叶斯DNN,推断模型参数周围的近似分布,并在模型参数的后验进行蒙特卡罗采样,以获得预测分布。通过与传统DNN相比,应用于DNN的贝叶斯推断为视觉活动识别任务提供了可靠的置信度测量。我们还表明,与非贝叶斯基线相比,我们的方法将视觉活动识别精度 - 回忆得分提高了6%。我们通过选择分布式视频样本和分布式视频样本的子集来评估我们的Moments-In-Time(MiT)活动识别数据集的模型。
translated by 谷歌翻译
当前的会话系统可以遵循简单的命令并回答基本问题,但是他们难以保持关于特定主题的连贯和开放式对话。正在组织ConversationalIntelligence(ConvAI)挑战等竞赛,以推动研究发展朝着这一目标迈进。本文详细介绍了参加2017年ConvAI挑战的RLLChatbott。这项研究的目标是更好地理解当前深度学习和强化学习工具如何用于构建一个健壮而灵活的开放域会话代理。我们提供了一个详尽的描述,说明如何使用集合模型从大多数公共领域数据集构建和训练对话系统。除了新颖的消息排名和选择方法之外,这项工作的第一个贡献是对不同文本生成模型的详细描述和分析。此外,还提供了一个新的开源会话数据集。与我们负责选择每次交互返回的消息的基线模型相比,对这些数据的培训显着提高了排名和选择机制的Recall @ k得分。
translated by 谷歌翻译