最近表明,在光滑状态下,可以通过吸引统计误差上限可以有效地计算两个分布之间的平方Wasserstein距离。然而,而不是距离本身,生成建模等应用的感兴趣对象是底层的最佳运输地图。因此,需要为估计的地图本身获得计算和统计保证。在本文中,我们提出了第一种统计$ L ^ 2 $错误的第一批量算法几乎匹配了现有的最低限度用于平滑地图估计。我们的方法是基于解决具有无限尺寸的平方和重构的最佳运输的半双向配方,并导致样品数量的无尺寸多项式速率的算法,具有潜在指数的维度依赖性常数。
translated by 谷歌翻译
对于函数的矩阵或凸起的正半明确度(PSD)的形状约束在机器学习和科学的许多应用中起着核心作用,包括公制学习,最佳运输和经济学。然而,存在很少的功能模型,以良好的经验性能和理论担保来强制执行PSD-NESS或凸起。在本文中,我们介绍了用于在PSD锥中的值的函数的内核平方模型,其扩展了最近建议编码非负标量函数的内核平方型号。我们为这类PSD函数提供了一个代表性定理,表明它构成了PSD函数的普遍近似器,并在限定的平等约束的情况下导出特征值界限。然后,我们将结果应用于建模凸起函数,通过执行其Hessian的核心量子表示,并表明可以因此表示任何平滑且强凸的功能。最后,我们说明了我们在PSD矩阵值回归任务中的方法以及标准值凸起回归。
translated by 谷歌翻译
由于数据的注释可以在大规模的实际问题中稀缺,利用未标记的示例是机器学习中最重要的方面之一。这是半监督学习的目的。从访问未标记数据的访问中受益,它很自然地弥漫将标记数据平稳地知识到未标记的数据。这诱导了Laplacian正规化的使用。然而,Laplacian正则化的当前实施遭受了几种缺点,特别是众所周知的维度诅咒。在本文中,我们提供了统计分析以克服这些问题,并揭示了具有所需行为的大型光谱滤波方法。它们通过(再现)内核方法来实现,我们提供了现实的计算指南,以使我们的方法可用于大量数据。
translated by 谷歌翻译
我们提供一种新型计算机辅助技术,用于系统地分析一阶方法进行优化。与以前的作品相比,该方法特别适用于处理汇总收敛速率和随机岩岩。该技术依赖于SEMIDEFINITE编程和潜在功能。它允许同时获得对这些算法的行为的最坏情况保证,并协助选择适当的参数来调整其最坏情况的性能。该技术也有益于舒适的紧密性保证,这意味着只有通过改变设置,才能提高不令人满意的结果。我们利用了在随机噪声性质的不同假设下分析了确定性和随机第一阶方法的方法。其中,我们对具有有界方差的非结构化噪声,在过度参数期预期最小化问题中产生的不同噪声模型,以及随机块坐标性下降方案。
translated by 谷歌翻译
随着近期智能手机或平板电脑的移动设备的爆炸性增长,保证了所有环境的一致网页外观已成为一个重大问题。这只是因为很难跟踪不同大小和渲染网页的设备类型的网络外观。因此,修复网页的不一致外观可能是困难的,并且所产生的成本可能是巨大的,例如,由于它的用户体验和财务损失差。最近,已经提出了自动化的Web修复技术来自动解决不一致的网页外观,专注于提高可用性。然而,生成的补丁倾向于破坏网页的布局,使修复的网页呈现美学令人难以释放,例如扭曲的图像或组件的未对准。在本文中,我们提出了一种基于Meta-heuristic算法的网页自动修复方法,可以保证可用性和美学。赋予我们方法的关键新颖性是一种新颖的健身功能,使我们能够乐观地发展错误的网页,以查找同时优化可用性和美学的最佳解决方案。实证评估表明,我们的方法能够在94%的评估科目中成功解决移动友好问题,在可用性和美学方面显着优于最先进的基线技术。
translated by 谷歌翻译
学习了解连接自然语言的基础语言,是一个关键的研究区域。在接地语言习得中的事先工作主要集中在文本输入上。在这项工作中,我们展示了对配对的视觉感知和原始语音输入进行接地语言习得的可行性。这将允许从最终用户学习新的任务和环境的语言,从而减少对文本输入的依赖性,并且可能减轻广泛可用语音识别系统中发现的人口统计偏差的影响。我们利用最近在自我监督的语言表演模型中的工作,并表明学习的言论表示可以使语言接地系统更加包容,同时保持甚至增加一般性。
translated by 谷歌翻译
最近,多模态命名实体识别(MNER)引起了很多关注。大多数工作通过从预训练对象检测器获得的区域级视觉表示使用图像信息,并依赖于注意力机制来模拟图像和文本表示之间的交互。然而,难以模拟这种交互,因为图像和文本表示分别在其各自的模态的数据上训练,并且在相同的空间中不对齐。由于文本表示在MNER中取得最重要的作用,在本文中,我们提出了{\ bf i} mage - {\ bf t} ext {\ bf a} lignments(ita)将图像特征对准到文本空间中,这样可以更好地利用基于变压器的预磨削文本嵌入的注意机制。 ITA首先在本地和全局将区域对象标记和图像级标题视为可视上下文,将其与输入文本连接为新的跨模型输入,然后将其送入预训练的文本嵌入模型。这使得预先训练的文本嵌入模型的注意模块更容易模拟两个模态之间的交互,因为它们都在文本空间中表示。 ITA进一步对齐从跨模型输入和文本输入视图预测的输出分布,使得MNER模型可以更实用和鲁棒到图像中的噪声。在我们的实验中,我们表明ITA模型可以在多模态命名实体识别数据集上实现最先进的准确性,即使没有图像信息也是如此。
translated by 谷歌翻译
本文介绍了与萨特布-Naija的基础努力,这是一种非原生(L2)尼日利亚语言语的新型语料库。我们描述了如何创建和策划的语料库以及令人口气分类和学习尼日利亚口音嵌入的初步实验。语料库的初始版本包括L2英语尼日利亚语言的900多个录音,例如Yoruba,Igbo,Edo,Efik-Ibibio和Igala。我们进一步演示了Wav2VEC的预先训练模型上的微调如何产生适合于相关语音任务的表示,例如重音分类。Sautidb-Naija已发表于Zenodo,以便在灵活的创造性的公共许可证下使用。
translated by 谷歌翻译
最近实现了更准确的短期预测的数据驱动的空气质量预测。尽管取得了成功,但大多数目前的数据驱动解决方案都缺乏适当的模型不确定性的量化,以传达信任预测的程度。最近,在概率深度学习中已经制定了几种估计不确定性的实用工具。但是,在空气质量预测领域的域中没有经验应用和广泛的比较这些工具。因此,这项工作在空气质量预测的真实环境中应用了最先进的不确定性量化。通过广泛的实验,我们描述了培训概率模型,并根据经验性能,信心可靠性,置信度估计和实际适用性评估其预测性不确定性。我们还使用空气质量数据中固有的“自由”对抗培训和利用时间和空间相关性提出改善这些模型。我们的实验表明,所提出的模型比以前的工作更好地在量化数据驱动空气质量预测中的不确定性方面表现出。总体而言,贝叶斯神经网络提供了更可靠的不确定性估计,但可能挑战实施和规模。其他可扩展方法,如深合奏,蒙特卡罗(MC)辍学和随机重量平均-Gaussian(SWAG)可以执行良好,如果正确应用,但具有不同的权衡和性能度量的轻微变化。最后,我们的结果表明了不确定性估计的实际影响,并证明了,实际上,概率模型更适合提出知情决策。代码和数据集可用于\ url {https:/github.com/abdulmajid-murad/deep_probabilistic_forecast}
translated by 谷歌翻译
制造过程中的一个关键方面是用于缺陷和缺陷的制造部件的视觉质量检测。只有人类的视觉检查可能非常耗时和费力,并且是一个重要的瓶颈,特别是对于高吞吐制造场景。鉴于深度学习领域的显着进展,自动化视觉质量检验可能导致制造过程中的高效和可靠地检测缺陷和缺陷。然而,深度学习驱动的视觉检查方法通常需要大量的计算资源,从而限制吞吐量,并充当瓶颈,以实现智能工厂的广泛采用。在这项研究中,我们调查了利用机器驱动的设计探索方法来创建TinyDefectNet,这是一种高度紧凑的深度卷积网络架构,适用于高通量制造视觉质量检验。 TinyDefectNet包括仅〜427k的参数,并且具有〜97米的计算复杂性,但实现了最先进的架构的检测准确性,用于在Neu缺陷基准数据集上进行表面缺陷检测的任务。因此,TinyDefectNet可以在52 $ \ times $较低的架构复杂度和11x较低的计算复杂度下实现相同的检测性能。此外,使用AMD Zendnn Accelerator库,在AMD EPYC 7R32上部署了TinyDefectNet在AMD EPY 7R32上部署了7.6倍的吞吐量更快的吞吐量。最后,进行了解释性的性能验证策略,以确保TinyDefectNet展出了正确的决策行为,以改善运营商和检查员对其使用的信任。
translated by 谷歌翻译