我们探索了知识蒸馏(KD)的使用来学习紧凑和准确的模型,这些模型可以从可穿戴设备上的加速度计算数据中分类动物行为。为此,我们采用了一个深厚而复杂的卷积神经网络,称为残留神经网络(RESNET)作为教师模型。 RESNET专为多元时间序列分类而设计。我们使用Resnet将动物行为分类数据集的知识歪曲到软标签中,其中由每个数据点的每个类别的伪概率组成。然后,我们使用软标签来训练我们的复杂学生模型,这些模型基于门控复发单元(GRU)和多层感知器(MLP)。使用两个现实世界动物行为分类数据集的评估结果表明,学生GRU-MLP模型的分类准确性通过KD明显改善,接近教师Resnet模型的分类精度。为了进一步减少使用KD训练的学生模型执行推理的计算和记忆要求,我们通过适当修改模型的计算图来利用动态定量量化。我们在我们专门构建的衣领的嵌入式系统和耳牌设备的嵌入式系统上实施了未量化和量化的版本,以实时和实时对动物行为进行分类。结果证实了KD和量化在分类准确性以及计算和记忆效率方面提高推理性能的有效性。
translated by 谷歌翻译
Optimal Transport (OT) provides a useful geometric framework to estimate the permutation matrix under unsupervised cross-lingual word embedding (CLWE) models that pose the alignment task as a Wasserstein-Procrustes problem. However, linear programming algorithms and approximate OT solvers via Sinkhorn for computing the permutation matrix come with a significant computational burden since they scale cubically and quadratically, respectively, in the input size. This makes it slow and infeasible to compute OT distances exactly for a larger input size, resulting in a poor approximation quality of the permutation matrix and subsequently a less robust learned transfer function or mapper. This paper proposes an unsupervised projection-based CLWE model called quantized Wasserstein Procrustes (qWP). qWP relies on a quantization step of both the source and target monolingual embedding space to estimate the permutation matrix given a cheap sampling procedure. This approach substantially improves the approximation quality of empirical OT solvers given fixed computational cost. We demonstrate that qWP achieves state-of-the-art results on the Bilingual lexicon Induction (BLI) task.
translated by 谷歌翻译
Context-sensitive two-point layer 5 pyramidal cells (L5PCs) were discovered as long ago as 1999. However, the potential of this discovery to provide useful neural computation has yet to be demonstrated. Here we show for the first time how a transformative L5PCs-driven deep neural network (DNN), termed the multisensory cooperative computing (MCC) architecture, can effectively process large amounts of heterogeneous real-world audio-visual (AV) data, using far less energy compared to best available 'point' neuron-driven DNNs. A novel highly-distributed parallel implementation on a Xilinx UltraScale+ MPSoC device estimates energy savings up to 245759 $ \times $ 50000 $\mu$J (i.e., 62% less than the baseline model in a semi-supervised learning setup) where a single synapse consumes $8e^{-5}\mu$J. In a supervised learning setup, the energy-saving can potentially reach up to 1250x less (per feedforward transmission) than the baseline model. The significantly reduced neural activity in MCC leads to inherently fast learning and resilience against sudden neural damage. This remarkable performance in pilot experiments demonstrates the embodied neuromorphic intelligence of our proposed cooperative L5PC that receives input from diverse neighbouring neurons as context to amplify the transmission of most salient and relevant information for onward transmission, from overwhelmingly large multimodal information utilised at the early stages of on-chip training. Our proposed approach opens new cross-disciplinary avenues for future on-chip DNN training implementations and posits a radical shift in current neuromorphic computing paradigms.
translated by 谷歌翻译
事实证明,基于得分的生成建模(SGM)是对有限维空间建模密度的非常有效的方法。在这项工作中,我们建议将这种方法扩展到在功能空间上学习生成模型。为此,我们代表光谱空间中的功能数据,以将过程的随机部分与其时空部分解离。然后,我们使用有限尺寸SGM从其随机组件中采样了尺寸降低技术。我们证明了我们的方法对各种多模式数据集进行建模的有效性。
translated by 谷歌翻译
全球金融危机和共同衰退已重新讨论有关宏观经济数据中趋势周期发现的讨论,而Boosting最近将流行的HP过滤器升级为适合数据丰富和快速计算环境的现代机器学习设备。本文阐明了其在趋势周期测定中的多功能性,以简单的方式解释了HP滤波器平滑性和通过增强一般趋势检测而提供的一致性。应用于FRED数据库中的时间序列的宇宙,在及时捕获随后的危机和恢复局的衰退中提高其他方法的表现。凭借其广泛的适用性,增强的HP过滤器是宏观经济学工具包的有用的自动化机器学习。
translated by 谷歌翻译
对于工业规模的广告系统,对广告点击率(CTR)的预测是一个核心问题。广告点击构成了一类重要的用户参与,通常用作广告对用户有用的主要信号。此外,在每次点击收费的广告系统中,单击费用期望值直接输入价值估计。因此,对于大多数互联网广告公司而言,CTR模型开发是一项重大投资。此类问题的工程需要许多适合在线学习的机器学习(ML)技术,这些技术远远超出了传统的准确性改进,尤其是有关效率,可重复性,校准,信用归因。我们介绍了Google搜索广告CTR模型中部署的实用技术的案例研究。本文提供了一项行业案例研究,该研究强调了当前的ML研究的重要领域,并说明了如何评估有影响力的新ML方法并在大型工业环境中有用。
translated by 谷歌翻译
我们提供了有关如何仅使用其空间表示形式对轨迹进行分类的首次综合研究,该研究以5个现实世界数据集进行了测量。我们的比较考虑了20个不同的分类器,它们是流行距离的KNN分类器,或使用每个轨迹的矢量化表示形式作为更通用的分类器。我们还开发了如何通过数据驱动的方法矢量化轨迹以选择相关地标的新方法,这些方法证明是我们研究中最有效的方法之一。这些矢量化方法简单而有效,并且还可以在已建立的运输模式分类任务上提供最先进的准确性。总的来说,这项研究为如何对轨迹进行分类设定了标准,包括引入新的简单技术来实现这些结果,并为不可避免的未来对该主题的研究设定了严格的标准。
translated by 谷歌翻译
基于变压器的模型的出现,机器翻译已经快速发展。这些模型没有内置的明确的语言结构,但是它们仍然可以通过参与相关令牌隐式学习结构化的关系。我们假设通过明确赋予变形金刚具有结构性偏见,可以使这种结构学习变得更加健壮,我们研究了两种在这种偏见中构建的方法。一种方法,即TP变换器,可以增强传统的变压器体系结构,包括代表结构的附加组件。第二种方法通过将数据分割为形态令牌化来灌输数据级别的结构。我们测试了这些方法从英语翻译成土耳其语和Inuktitut的形态丰富的语言,并考虑自动指标和人类评估。我们发现,这两种方法中每种方法都允许网络实现更好的性能,但是此改进取决于数据集的大小。总而言之,结构编码方法使变压器更具样本效率,从而使它们能够从少量数据中表现得更好。
translated by 谷歌翻译
面部识别网络通常展示相对于性别,Skintone等的敏感属性,适用于性别和Skintone,我们观察到网络的面积,网络参加属性的类别。这可能有助于偏见。在这种直觉上建立一种新的基于蒸馏的方法,称为蒸馏和去偏置(D&D),以实施网络以寻求类似的面部区域,而不管属性类别如何。在D&D中,我们从一个属性中培训一类图像的教师网络;例如轻的Skintone。然后从教师蒸馏信息,我们在剩余类别的图像上培训学生网络;例如,黑暗的skintone。特征级蒸馏损失约束学生网络以生成类似教师的表示。这允许学生网络参加所有属性类别的类似面部区域,并使其能够减少偏差。我们还提出了D&D的顶部的第二蒸馏步骤,称为D&D ++。对于D&D ++网络,我们将D&D网络的“未偏见”蒸馏成新的学生网络,D&D ++网络。我们在所有属性类别上培训新网络;例如,光明和黑暗的碳酸根。这有助于我们培训对属性偏差的网络,同时获得比D&D更高的面部验证性能。我们展示D&D ++优于在IJB-C数据集上减少性别和Skintone偏置的现有基线,同时获得比现有的对抗偏置方法更高的面部验证性能。我们评估我们所提出的方法对两个最先进的面部识别网络的有效性:Crystalface和Arcface。
translated by 谷歌翻译
高保真,基于AI的模拟课堂系统使教师能够排练有效的教学策略。但是,对话导向的开放式对话,例如教学关于规模因素的教学可能难以模仿。本文建立了一个基于文本的互动会话代理,以帮助教师根据着名的教学质量评估来练习数学质疑技能。我们采取了一种以人为本的设计来设计我们的系统,依靠深度学习,不确定量化和自然语言处理的进步,同时承认对会话代理的局限性进行特定的教学需求。在模拟期间直接使用专家输入,我们展示了如何实现谈话成功率和高用户满意度。
translated by 谷歌翻译