我们考虑从嘈杂的观察矩阵中恢复低秩矩阵的问题。以前的工作表明,最佳的恢复方法主要取决于损失函数的选择。我们使用一系列加权损失函数,这些函数在许多设置中自然出现,例如异方差噪声和缺失数据。加权损失函数难以分析,因为它们不是正交不变的。我们推导出这些加权损失函数的最佳光谱消噪器。通过组合不同的权重,我们然后使用这些最佳降噪器构建一个新的降噪器,利用信号矩阵中的异质性,以便在未加权损失的情况下进行更准确的恢复。
translated by 谷歌翻译
我们描述了一种系统,该系统使用虚拟麦克风阵列,一组空间分布的异步记录设备(如笔记本电脑和移动电话),生成会话的带注释的会议记录。该系统由连续音频流对齐,盲波束成形,语音识别,使用先前说话者信息的扬声器二值化和系统组合组成。通过七个输入音频流,我们的系统实现了22.3%的字误差率(WER),并且在非重叠语音段上的近距离麦克风WER的3%以内。扬声器归因于WER(SAWER)为26.7%。对于三个,五个和七个麦克风,单个设备系统的SAWER相对增益分别为14.8%,20.3%和22.4%。当10%的语音转换包含多个扬声器时,所提出的系统实现了13.6%的二值化错误率。还研究了每个组件对整体性能的贡献。
translated by 谷歌翻译
针对可编程物质中的一个基本问题,我们提出了第一个确定性算法,在连接机器人系统中选择一个独特的领导者,假设只有amoebots最初是签约的。以前的算法要么使用随机化,要么做出各种假设(带有无孔的形状,或者已知的共享手性),或者在某些情况下选出几个共同领导者。我们在构建算法时引入的一些构建块本身就很有趣,特别是我们提出的用于在amoebots中达到共同手性的程序。鉴于领导者选举和手性协议构建块,已知可以执行或改进可编程物质中的各种任务。新算法的主要思想是使用amoebots移动的能力,以前的领导者选举算法没有使用。
translated by 谷歌翻译
我们提出了一种预测密集深度的方法,在这种情况下,双眼相机和场景中的人都可以自由移动。从单眼视频中恢复动态非刚性物体的深度的现有方法对物体的运动进行了强有力的假设,并且可能仅恢复稀疏深度。在这篇论文中,我们采用数据驱动的方法,从新的数据来源中学习人类深度先验:成千上万的互联网视频,模仿人体模型,即冻结各种自然姿势,同时手持摄影现场。由于人是静止的,因此可以使用多视图立体重建来生成训练数据。在推理时,我们的方法使用来自场景的静态区域的运动视差线索来指导深度预测。我们通过移动手持摄像机捕获的复杂人类活动的真实世界序列展示了我们的方法,显示了改进的超现代单眼深度预测方法,并显示了使用我们预测的深度产生的各种3D效果。
translated by 谷歌翻译
It is now common to process volumetric biomedical images using 3D Convolutional Networks (ConvNets). This can be challenging for the teravoxel and even petavoxel images that are being acquired today by light or electron microscopy. Here we introduce chunkflow, a software framework for distributing ConvNet processing over local and cloud GPUs and CPUs. The image volume is divided into overlapping chunks, each chunk is processed by a ConvNet, and the results are blended together to yield the output image. The frontend submits ConvNet tasks to a cloud queue. The tasks are executed by local and cloud GPUs and CPUs. Thanks to the fault-tolerant architecture of Chunkflow, cost can be greatly reduced by utilizing cheap unstable cloud instances. Chunkflow currently supports PyTorch for GPUs and PZnet for CPUs. To illustrate its usage, a large 3D brain image from serial section electron microscopy was processed by a 3D ConvNet with a U-Net style architecture. Chunkflow provides some chunk operations for general use, and the operations can be composed flexibly in a command line interface.
translated by 谷歌翻译
在过去的几十年中,一类重要的数学结果需要不断增加的人类努力才能实现。对某些人来说,计算机的帮助现在是不可或缺的。我们分析了这种趋势对“大数学”的影响,它与人类认知的关系,以及对大数学的组织支持。这种定位论文的核心贡献是“做数学”的信息模型,它假定人类非常有效地整合四个方面:推理,计算,制表和围绕数学知识组织良好的核心的叙述。数学软件系统面临的挑战是这些方面也需要集成。我们简要地调查了最新技术。
translated by 谷歌翻译
虽然深层强化学习已经在许多困难领域取得了突破,但这些成功需要不断增加的样本数量。最先进的强化学习(RL)系统需要指数增加的样本数量,它们的开发仅限于AI社区的不断缩小的部分。同样,许多这些系统无法应用于环境样本昂贵的现实问题。这些限制的解决需要新的,样本有效的方法。为了促进这方面的研究,我们引入了MineRL比赛,使用人类先驱进行样本高效强化学习。该竞赛的主要目标是促进算法的开发,这些算法可以有效地利用人类演示来大幅减少解决复杂,分层和稀疏环境所需的样本数量。为此,我们介绍:(1)Minecraft ObtainDiamond任务,一个需要长期规划,分层控制和有效勘探方法的顺序决策环境; (2)MineRL-v0dataset,一个超过6000万个状态动作对的人类示范的大规模集合,可以重新模仿体现的轨迹,随意改变游戏状态和视觉效果。参与者将竞争开发使用来自环境模拟器Malmo的有限数量的样本来解决ObtainDiamondtask的系统。竞赛分为两轮,其中竞争者提供数据集的几个配对版本和具有不同游戏结构的环境。在每轮结束时,竞争对手将提交他们的学习算法的容器化转换,然后他们将在保留的数据集 - 环境对上从头开始训练/评估,在预先指定的硬件平台上总共4天。
translated by 谷歌翻译
我们考虑开放域查询答案(QA),其中从语料库,知识库(KB)或这两者的组合中得出答案。我们专注于一个设置,在这个环境中,语料库补充了大量但不完整的KB,以及需要非平凡(例如,“多跳”)推理的问题。我们描述了PullNet,这是一个集成框架,用于(1)学习检索什么(从KB和/或语料库中)和(2)使用这种异构信息进行推理以找到最佳答案。 PullNet使用{迭代}过程来构建一个特定于问题的子图,其中包含与问题相关的信息。在每次迭代中,图形卷积网络(图形CNN)用于识别应该使用语料库和/或KB上的检索(或“拉”)操作来扩展的子图节点。在完成subgraphis之后,使用类似的图CNN从子图中提取答案。这个检索和推理过程允许我们使用大型KB和语料库来回答多跳问题。 PullNet受到弱监督,需要问题 - 答案对而不是黄金推理路径。实验性地提高了先前技术水平,并且在语料库使用不完整KB的环境中,这些改进通常是戏剧性的。 PullNet在仅KB设置或纯文本设置中也优于以前的系统。
translated by 谷歌翻译
来自结构化数据或知识的自然语言生成(NLG)对于许多NLP研究领域是必不可少的。虽然以前基于神经的端到端方法在几个基准测试中取得了重大进展,但它们的数据饥饿性使得它们很难被广泛用于实际应用。因此,在这项工作中,我们提出了少量自然语言生成的新任务。受人类倾向于总结表格数据的启发,我们提出了一种简单而有效的方法,并表明它不仅表现出强大的性能,而且还提供了跨域的良好概括。模型体系结构的设计基于两个方面:内容选择/从输入数据复制,以及语言建模以组成连贯的句子,可以从先前的知识中获取。因此,我们使用经过预先训练的与领域无关的语言模型作为先验,而内容选择/复制只需要少数域内培训实例即可学习,从而实现少数几个学习目标。为了证明我们的方法跨域推广,我们从多个域中策划了表到文本的数据。在所有领域中,只有200个训练样本,平均超过8.0 BLEUpoints,超过最强基线。我们将公开提供代码和数据。
translated by 谷歌翻译
我们提出了SpecAugment,一种用于语音识别的简单数据增强方法。 SpecAugment直接应用于神经网络的特征输入(即滤波器组系数)。增强策略包括扭曲特征,屏蔽频率通道块和屏蔽时间步长块。我们将SpecAugment应用于侦听,参与和拼写网络的前端语音识别任务。我们在LibriSpeech 960h和Swichboard 300h任务上实现了最先进的性能,优于之前的所有工作。在LibriSpeech上,我们在没有使用语言模型的情况下在测试中实现了6.8%的WER,并且使用浅层融合实现了5.8%的WER语言模型。这与先前7.5%WER的先进混合系统相比。对于Switchboard,Hub5'00测试装置的Switchboard / CallHome部分不使用语言模型的比例为7.2%/ 14.6%,浅融合的6.8%/ 14.1%,与先前的先进技术相比较混合系统的WER为8.3%/ 17.3%。
translated by 谷歌翻译