成立I4U联盟是为了促进联合进入NISTspeaker识别评估(SRE)。这种关节提交的最新版本在SRE 2018中,其中I4U提交是最佳表现系统之一。 SRE'18也标志着I4Uconsortium进入NIST SRE系列评估10周年。本文的主要目的是总结基于提交给SRE'18的各子系统及其融合的结果和经验教训。我们也有意提出一个共同观点,即我们在过去十年中从SRE'08到SRE'18见证了SRE参与者的进步,进展和主要范式转变。在这方面,除其他外,我们已经看到从超向量表示到深度说话人嵌入的范例转换,以及从信道补偿到领域适应的研究挑战的转变。
translated by 谷歌翻译
Machine learning (ML) techniques are enjoying rapidly increasing adoption. However, designing and implementing the systems that support ML models in real-world deployments remains a significant obstacle, in large part due to the radically different development and deployment profile of modern ML methods, and the range of practical concerns that come with broader adoption. We propose to foster a new systems machine learning research community at the intersection of the traditional systems and ML communities, focused on topics such as hardware systems for ML, software systems for ML, and ML optimized for metrics beyond predictive accuracy. To do this, we describe a new conference, SysML, that explicitly targets research at the intersection of systems and machine learning with a program committee split evenly between experts in systems and ML, and an explicit focus on topics at the intersection of the two.
translated by 谷歌翻译
在本文中,我们提出了一种新颖的结构感知3D沙漏网络,用于从单个深度图像进行姿态估计,从而实现MSRA和NYU数据集的最新结果。与执行图像到协调回归的现有工作相比,我们的网络将3D体素作为输入并直接回归每个关节的3D热图。具体而言,我们使用沙漏网络作为我们的骨干网络并将其修改为3D形式。我们明确地将类似于树的类型的指骨进入网络以及以端到端的方式在损失函数中进行模拟,以便采用骨架约束进行整合。然后可以通过简单的后处理从体素密度图容易地获得最终估计。实验结果表明,所提出的结构感知三维沙漏网络能够分别在MSRA和NYU数据集中实现7.4 mm的平均关节误差和8.9 mm。
translated by 谷歌翻译
颈椎病(CS)是一种常见的慢性疾病,影响了三分之二的人口并对个人和社会造成严重负担。早期鉴定对提高治愈率和降低成本具有重要意义。然而,病理复杂,轻度症状增加了诊断的难度,特别是在早期阶段。此外,医院医疗服务的耗时和成本降低了对CS识别的关注。因此,需要一种方便的,低成本的智能CS识别方法。在本文中,我们提出了一种基于深度学习的智能方法来识别CS,使用表面肌电图(sEMG)信号。面对sEMG信号的复杂性,高维性和弱可用性,我们提出并开发了一种基于卷积神经网络的多通道EasiCSDeep算法,该算法由特征提取,空间关系表示和分类算法组成。据我们所知,这个EasiCSDeep是第一个使用深度学习和sEMG数据来识别CS的努力。与先前最先进的算法相比,我们的算法实现了显着的改进。
translated by 谷歌翻译
用于单个图像雨滴移除的现有方法具有较差的鲁棒性或遭受参数负担。在本文中,我们提出了一种新的相邻聚合网络(A ^ 2Net),它具有轻量级架构,可以从单个图像中去除下降。我们设计了一个相邻的聚合架构,而不是直接级联卷积层,以便更好地融合功能,从而实现丰富的表示生成,从而实现高质量的图像重构。为了进一步简化学习过程,我们利用特定于问题的知识迫使网络专注于YUV色彩空间中的亮度通道,而不是所有RGB通道。通过将相邻聚集操作与颜色空间转换相结合,所提出的A ^ 2Net可以在降低显着参数的情况下实现最先进的雨滴去除性能。
translated by 谷歌翻译
在社交媒体平台(如Facebook和Instagram)上共享的大量图像包含各种形式的文本。对于不良行为者来说,分享错误信息,仇恨言论或其他有害内容越来越普遍,因为文本覆盖在这些平台上的图像上。因此,Ascene-text理解系统应该能够处理对手可能使用的各种方向的文本。而且,这种系统可以被合并到用于帮助视障人士的屏幕阅读器中。在这项工作中,我们扩展了Facebook,Rosetta的场景文本提取系统,以便有效地处理各种方向的文本。具体来说,我们将旋转区域提议网络(RRPN)纳入我们的文本提取管道,并为构建和部署模型以提供有效检测和识别任意方向的文本提供了实用的建议。实验结果显示了检测旋转文本的显着改进。
translated by 谷歌翻译
知识图嵌入一直是知识库完成的一个活跃的研究课题,从最初的TransE,TransH,DistMult等人到目前最先进的ConvE的逐步改进。 ConvE使用2D卷积转换嵌入和多层非线性特征来建模知识图。该模型可以有效地训练并可扩展到大型知识图。但是,在ConvE的嵌入空间中没有结构实施。最近的图卷积网络(GCN)提供了另一种通过成功利用图形连接结构来学习图形节点嵌入的方法。在这项工作中,我们提出了一种新颖的端到端结构 - 感知卷积网络(SACN),它将GCN和ConvE结合在一起.SACN由加权图卷积网络(WGCN)的编码器和一个解码器组成。卷积网络称为Conv-TransE。 WGCN利用知识图节点结构,节点属性和关系类型。它具有可更新的权重,可从邻近节点节点收集自适应数量的信息,从而实现更精确的图节点嵌入。此外,节点属性被添加为节点并且易于集成到WWG中。解码器Conv-TransE将最先进的ConvE扩展到实体和关系之间的翻译,同时保持最先进的性能为ConvE。我们证明了我们提出的SACN模型在标准FB15k-237和WN18RR数据集上的有效性,并且在HITS @ 1,HITS @ 3和HITS @ 10方面提供了相对于最先进的ConvE的10%的相对改进。
translated by 谷歌翻译
通道修剪是深度模型压缩的主要方法之一。现有的修剪方法或者从头开始训练,在通道上进行稀疏约束,或者最小化预先训练的特征图和压缩的特征图之间的重建误差。这两种策略都受到一些限制:前者的计算成本高且难以收集,而后者则优化重建误差但忽略了信道的判别力。为了克服这些缺点,我们研究了一种简单但有效的方法,称为区分识别信道修正,以选择真正有助于判别力量的那些渠道。为此,我们在网络中引入额外的损耗以增加中间层的判别能力,然后通过考虑额外的损耗和重建误差为每层选择最多的判别信道。最后,我们提出了一种贪婪的算法,以迭代的方式进行信道选择和参数优化。广泛的实验证明了我们的方法的有效性。例如,onILSVRC-12,我们修剪过的ResNet-50减少了30%的通道,甚至比原来的模型在前1精度方面优于0.39%。
translated by 谷歌翻译
对于现代电子商务平台(例如淘宝)来说,开发有效且高效的推荐方法是非常具有挑战性的。在本文中,我们通过提出多级深层级树(ldcTree)来解决这个问题,这是一种新颖的决策树集合方法。它利用深度级联结构,通过堆积梯度提升决策树(GBDT)来有效地学习特征表示。另外,我们建议利用前面GBDT的每一个中的交叉熵作为下一级GBDT的输入特征表示,这有明确的解释,即在下一级从根到叶节点的遍历GBDT对应于组合前面的GBDT中的某些遍历。深级联结构和组合规则使得所提出的ldcTree具有更强的分布式特征可表示性。此外,我们提出了一个集合ldcTree来充分利用弱和强相关特征。离线数据集和在线部署的实验结果证明了所提方法的有效性。
translated by 谷歌翻译
The training phases of Deep neural network (DNN) consumes enormous processing time and energy. Compression techniques utilizing the sparsity of DNNs can effectively accelerate the inference phase of DNNs. However, it can be hardly used in the training phase because the training phase involves dense matrix-multiplication using General Purpose Computation on Graphics Processors (GPGPU), which endorse regular and structural data layout. In this paper, we propose the Approximate Random Dropout that replaces the conventional random dropout of neurons and synapses with a regular and predefined patterns to eliminate the unnecessary computation and data access. To compensate the potential performance loss we develop a SGD-based Search Algorithm to produce the distribution of dropout patterns. We prove our approach is statistically equivalent to the previous dropout method. Experiments results on MLP and LSTM using well-known benchmarks show that the proposed Approximate Random Dropout can reduce the training time by 20%-77% (19%-60%) when dropout rate is 0.3-0.7 on MLP (LSTM) with marginal accuracy drop.
translated by 谷歌翻译