我们在深度学习框架中解决了声源分离的问题,我们将其称为“深度聚类”。我们不是直接估计信号或掩模函数,而是训练深度网络以产生对于训练数据中给出的分区标签具有辨别力的频谱图嵌入。以前的深度网络方法在学习功率和速度方面提供了很大的优势,但以前不清楚如何使用它们以与类无关的方式分离信号。相比之下,频谱聚类方法相对于要分割的项目的类别和数量而言是灵活的,但是如何利用深度网络的学习能力和速度尚不清楚。为了获得两全其美,我们使用一个目标函数来训练嵌入,这种嵌入产生一个理想的成对亲和矩阵的低秩近似,与类无关。这避免了光谱分解的高成本,而是产生了适合于简单聚类方法的紧凑集群。因此,分段在嵌入中被隐式编码,并且可以通过聚类来“解码”。初步实验表明,所提出的方法可以分离语音:当对包含两个扬声器的混合物的谱图特征进行训练,并且在保持的一组扬声器的混合物上进行测试时,它可以推断出掩蔽函数,使信号质量提高大约6dB。我们证明该模型可以推广三种说话者混合物,尽管只对双扬声器混合物进行了训练。框架可以在没有类标签的情况下使用,因此有可能在不同的声音类型上进行训练,并推广到新的声源。我们希望未来的工作将导致任意声音的分割,同时也可以使用麦克风阵列方法。作为图像分割和其他域。
translated by 谷歌翻译
近年来,异构系统在HPC系统中变得越来越普遍,TOP500中的100多台超级计算机采用了GPU或其他加速器。这些硬件平台具有不同的性能特征和优化要求。为了充分利用多个加速器,开发人员必须提供针对每个设备调整的算法的实现。硬件供应商提供专门针对其设备的库,这些库提供了良好的性能,但经常具有不同的API设计,从而妨碍了可移植性。 SYCL编程模型允许用户使用完全标准的C ++编写异构程序,因此开发人员在开发计算内核时可以访问C ++模板的强大功能。在本文中,我们展示了为矩阵乘法和卷积提取高度参数化的内核,使得性能与不同体系结构中的供应商实现相竞争。此外,调整新设备相当于选择在硬件上性能最佳的内核参数的组合。
translated by 谷歌翻译
草绘和自然语言是交互式应用的有效通信媒体。我们介绍Sketchforme,这是第一个基于网络的神经系统,可以根据用户指定的文本描述生成草图。 Sketchforme能够获得对多对象草绘场景的高水平低级理解,而无需在使用文本描述注释的草绘场景数据集上进行训练。由Sketchforme组成的剪贴画具有表现力和现实性:我们在用户研究中表明,这些草图在多种情况下比人类生成的草图更能传达描述,36.5%的草图被认为是人类生成的。我们使用这些生成的草图开发了多个交互式应用程序,并表明Sketchforme可以显着改进语言学习应用程序并支持基于智能语言的草图提供者。
translated by 谷歌翻译
在过去的几年里,机器学习引起了新的兴趣,之前有许多研究表明神经网络在一系列任务中的有效性,而这些任务以前被认为是非常难以理解的。神经网络在图像识别和自然语言处理领域的有效性主要源于公司和研究人员可用的大量数据,以及现代加速器(如GPU,FPGA和ASIC)中可用的大量计算能力。开发人员可以使用的方法来利用SYGP,OpenCL和CUDA等GPGPU技术,但是许多应用程序需要相同的低级数学例程。致力于加速这些通用例程的库允许开发人员轻松地充分利用可用的硬件,而不需要对硬件本身的低级知识,但是这些库通常由硬件制造商提供特定的硬件,例如用于Nvidia硬件的cuDNN或用于AMD硬件的MIOpen。 SYCL-DNN是一个新的开源库,专门为神经网络操作提供加速程序,这些程序是硬件和供应商无关的。建立在SYCL开放标准之上,完全用标准C ++编写,SYCL-DNN允许用户轻松加速神经使用现代C ++接口的各种硬件的网络代码。该库在用于GPU的AMD'sOpenCL,用于CPU和GPU的Intel的OpenCL,用于Mali GPU的ARM的OpenCL以及用于R-Car CV引擎和主机CPU的ComputeAorta的OpenCL上进行了测试。在本次演讲中,我们将介绍SYCL-DNN在这一系列硬件上的性能数据,并讨论如何在具有这些不同硬件功能的各种加速器上实现高性能。
translated by 谷歌翻译
诸如ELMo(Peters等人,2018)和BERT(Devlin等人,2018)之类的语境词嵌入模型在最近几个月中已经显着改善了许多自然语言处理(NLP)任务的性能。然而,这些模型已经在专业语料库中进行了最低限度的探索,例如临床文本;此外,在临床领域,没有公开可用的预训练BERT模型。在这项工作中,我们通过探索和发布临床文本的BERT模型来满足这一需求:一个用于通用临床文本,另一个用于特定的放电摘要。我们证明,与非特定嵌入相比,使用特定于域的模型可以在三个常见的临床NLP任务上获得性能提升。这些特定领域的模型在两个临床去识别任务上并不是非常有效,并且认为这是去识别源文本和合成非去识别任务文本之间差异的解剖结果。
translated by 谷歌翻译
工业,汽车和服务机器人不断增长的需求在隐私性,安全性,延迟,带宽和可靠性方面对集中式Cloud Robotics模型提出了挑战。在本文中,我们提出了一种深度机器人学习的“FogRobotics”方法,以联合方式在云和Edge之间分配计算,存储和网络资源。深度模型在云中训练非私人(公共)合成图像;模型适用于Edgewith在可信网络中的环境的私有真实图像,随后被部署为服务,用于网络中其他机器人的低延迟和安全推断/预测。我们将这种方法应用于表面整理,其中移动机器人通过学习深度对象识别和掌握计划模型来从杂乱的地板中拾取和分类对象。实验表明,与专门使用Cloud或Edge资源相比,Fog Robotics可以通过sim-to-real域自适应来提高性能,同时将推理周期时间减少4倍,成功地将超过213次尝试的86%的对象整理。
translated by 谷歌翻译
本研究使用新颖的统一光谱分析工作流程,对非侵入性传感器进行了比较评估,以评估绿叶蔬菜的微生物污染和货架时间(即储存时间)。在本研究的背景下使用了两个新鲜的即食绿色沙拉,目的是评估所提出的工作流程的效率和实际应用:火箭和婴儿菠菜沙拉。所采用的分析工作流程包括强大的数据归一化,基于随机森林回归的强大特征选择,以及通过在解释的方差图上估计拐点来选择训练过程中的偏最小二乘回归系数。培养过程基于在等温条件(4,8和12C)下储存绿色沙拉样品期间得到的微生物和光谱数据,而在动态温度条件下(模拟食品供应链中的实际温度波动)对数据存储进行测试。由于近年来在食品质量评估中使用非侵入性传感器的兴趣日益增加,因此通过基于有限尺寸特征集的创建/使用而在其中描述的统一光谱分析工作流程在食品中非常有用 - 具体的低成本传感器开发。
translated by 谷歌翻译
在大规模运行的实时对话系统中,在系统性能,训练收敛所花费的时间和执行推理所花费的时间之间存在权衡。在这项工作中,我们研究建模权衡意图分类(IC)和槽标记(SL),重点关注非循环模型。我们为联合IC + SL提出了一个简单的,模块化的神经架构系列。使用这个框架,我们探索一个数字自我关注,卷积和复现模型,对两个数据集中的IC + SL建模范例进行了大规模分析。同时,我们讨论了一类“标签 - 循环”模型,提出了具有标签历史的10维表示的非复现模型提供了多点SL改进。作为我们分析的结果,我们提出了一类准确的标签 - 递归,扩张,卷积IC + SL系统,与Snips数据集上的最先进性能相比,SL的误差减少了30%。同样快速,2倍的推理和相当的复发模型的2/3到1/2的训练时间。
translated by 谷歌翻译
我们引入了计算机和机器人视觉的新挑战,第一个ACRVR机器人视觉挑战,概率物体检测。概率物体检测是传统物体检测任务的一种新变种,是对空间和语义不确定性的必然考虑。我们扩展了对象检测的传统边界框格式,以使用盒角的高斯分布来表达空间不确定性。挑战引入了一个新的视频序列测试数据集,旨在更加类似于机器人系统可用的数据。我们使用新的基于概率的检测质量(PDQ)测量来评估概率检测。创造这一挑战的目的是将计算机和机器人视觉社区结合起来,为实际的机器人应用应用物体检测解决方案。
translated by 谷歌翻译
最大的k-plex问题是一个计算复杂的问题,它来自图论的社会网络研究。本文提出了有效的混合局部搜索,用于解决最近提出的突破局部搜索算法与强化学习策略的最大k-plex问题。所提出的方法包括区分特征,例如:基于交换操作符的统一邻域搜索,针对动作的距离和质量奖励以及基于强化学习的新参数控制机制。对来自第二次DIMACS挑战的80个基准实例的最大k-问题(k = 2,3,4,5)的广泛实验表明,所提出的方法可以与除了四个问题实例之外的所有文献中的最佳已知结果相匹配。此外,所提出的算法能够找到32个新的最佳解决方案。
translated by 谷歌翻译