在Enocentric视频中,行动在快速连续中发生。我们利用了行动的时间背景,并提出了一种学习参加周围行动的方法,以提高识别性能。为了纳入时间上下文,我们提出了一种基于变换器的多模式模型,可将视频和音频作为输入模式摄取,具有显式语言模型,提供动作序列上下文来增强预测。我们在史诗厨房和EGTEA数据集上测试我们的方法,报告最先进的性能。我们的消融展示了利用时间上下文的优势以及将音频输入模态和语言模型结合到Rescore预测。代码和模型在:https://github.com/ekazakos/mtcn。
translated by 谷歌翻译
我们呈现FURTIT,这是一种简单的3D形状分割网络的高效学习方法。FURTIT基于自我监督的任务,可以将3D形状的表面分解成几何基元。可以很容易地应用于用于3D形状分割的现有网络架构,并提高了几张拍摄设置中的性能,因为我们在广泛使用的ShapEnet和Partnet基准中展示。FISHIT在这种环境中优于现有的现有技术,表明对基元的分解是在学习对语义部分预测的陈述之前的有用。我们提出了许多实验,改变了几何基元和下游任务的选择,以证明该方法的有效性。
translated by 谷歌翻译
侧重于查询的摘要(QFS)需要生成使用一组相关文档的查询给出文本摘要。但是,在实践中,此类相关文件不易获得,但应首先从文档收集中检索。因此,我们展示了如何扩展此任务以使其更加逼真。因此,任务设置也类似于开放式域问题应答任务的设置,其中答案是顶部检索到的文档的摘要。要解决此扩展任务,我们将通过文本生成组合通过文本生成来产生给定输入查询的检索段落的摘要。我们展示了第一个对拟议任务的评估结果,并表明一些样本足以通过检索的通道进行微调的大型生成模型。
translated by 谷歌翻译
员工分册是将可用员工分配开放班的过程。自动化它对几乎所有行业具有无处不在的实用益处,例如减少手动工作量并产生灵活,高质量的时间表。在这项工作中,我们开发了一种混合方法,将混合整数线性编程(MILP)与散点图,一种进化算法相结合,具有用作SWISSGrid的员工订购的优化,在那里是一个很大程度上是一个很大程度上的手动过程。混合方法担保遵守劳动法,最大限度地提高员工的偏好满意度,并尽可能均匀地分配工作量。最重要的是,它被证明是一种坚固且有效的算法,一致地解决了与使用最先进的商业求解器的MILP独立方法更加稳定地达到近乎最优的复杂性的逼真问题。提出了几种实际扩展和用例,该案例被纳入当前正在进行SwissGrid中的试点的软件工具中。
translated by 谷歌翻译
我们提出了一种基于差分动态编程框架的算法,以处理轨迹优化问题,其中地平线在线确定而不是修复先验。该算法表现出直线,二次,时间不变问题的精确一步收敛,并且足够快,以便实时非线性模型预测控制。我们在离散时间案例中显示了非线性算法的派生,并将该算法应用于各种非线性问题。最后,我们展示了与标准MPC控制器相比的最佳地平线模型预测控制方案在平面机器人的障碍避免问题上的功效。
translated by 谷歌翻译
适应数据分布的结构(例如对称性和转型Imarerces)是机器学习中的重要挑战。通过架构设计或通过增强数据集,可以内在学习过程中内置Inhormces。两者都需要先验的了解对称性的确切性质。缺乏这种知识,从业者求助于昂贵且耗时的调整。为了解决这个问题,我们提出了一种新的方法来学习增强变换的分布,以新的\ emph {转换风险最小化}(trm)框架。除了预测模型之外,我们还优化了从假说空间中选择的转换。作为算法框架,我们的TRM方法是(1)有效(共同学习增强和模型,以\ emph {单训练环}),(2)模块化(使用\ emph {任何训练算法),以及(3)一般(处理\ \ ich {离散和连续}增强)。理论上与标准风险最小化的TRM比较,并在其泛化误差上给出PAC-Bayes上限。我们建议通过块组成的新参数化优化富裕的增强空间,导致新的\ EMPH {随机成分增强学习}(SCALE)算法。我们在CIFAR10 / 100,SVHN上使用先前的方法(快速自身自动化和武术器)进行实际比较规模。此外,我们表明规模可以在数据分布中正确地学习某些对称性(恢复旋转Mnist上的旋转),并且还可以改善学习模型的校准。
translated by 谷歌翻译
在本文中,我们提出了一种新颖的差异动态编程算法的最大熵制剂,并使用单向和多峰值函数参数化导出两个变体。通过将具有特定近似的成本函数的最大熵贝尔曼方程组合,我们能够获得差分动态编程的新配方,其能够通过多模级政策探索从局部最小值逃脱。为了展示所提出的算法的功效,我们提供了使用多个当地最小值的成本函数表示的四种任务的实验结果,并将它们与Vanilla差分动态规划进行比较。此外,我们讨论了与以前的工作的联系在线性可溶性随机控制框架及其与合成性有关的延伸。
translated by 谷歌翻译
自动语音识别(ASR)是一种能力,使程序能够将人类演讲进入书面形式。人工智能(AI)的最新发展导致基于深神经网络的高精度ASR系统,例如经常性神经网络传感器(RNN-T)。然而,这些方法的核心组件和所执行的操作从强大的生物对应,即人脑中脱离。另一方面,基于尖刺神经网络(SNNS)的生物启发模型中的当前发展,落后于准确性并主要关注小规模应用。在这项工作中,我们通过从大脑中发现的多样性神经和突触动态吸引灵感来重新审视生物学上可合理的模型并大大提高他们的能力。特别是,我们介绍了模拟轴体和轴突突触的神经连接概念。基于此,我们提出了具有丰富神经突触动态的新型深度学习单元,并将它们集成到RNN-T架构中。我们首次展示,与现有的深度学习模型相比,大规模ASR模型的生物学现实实际实施可以产生竞争性能水平。具体地,我们表明这种实现具有若干优点,例如降低的计算成本和更低的延迟,这对于语音识别应用至关重要。
translated by 谷歌翻译
我们提出了一种新颖的二阶优化框架,用于训练新兴的深度连续时间模型,特别是神经常规方程(神经杂物杂物)。由于他们的训练已经涉及昂贵的梯度计算来通过求解向后ode,因此导出有效的二阶方法变得高度不变。然而,灵感来自最近的最佳控制(OC)对训练深网络的解释,我们表明,可以采用称为差分编程的特定连续时间oC方法,以获得同一O(1 )内存成本。我们进一步探索了二阶衍生品的低级别表示,并表明它导致借助基于Kronecker的分子化的有效的预处理更新。由此产生的方法 - 命名的snopt - 收敛于壁钟时间中的一阶基线的速度要快得多,并且改进仍然在各种应用中保持一致,例如,图像分类,生成流量和时间序列预测。我们的框架还实现了直接的架构优化,例如神经杂物的集成时间,具有二阶反馈策略,加强了OC视角作为深度学习中优化的原则性工具。我们的代码可在https://github.com/ghliu/snopt上获得。
translated by 谷歌翻译
实体消除歧义(ED)是实体链接(EL)的最后一步,当候选实体根据它们出现的上下文重新登录。所有数据集,用于培训和评估EL的模型,包括方便样本,如新闻文章和推文,将实体分布的现有概率偏置传播到更频繁发生的实体。前面表明,在这种数据集上的EL系统的性能高估,因为可以通过仅仅在学习之前获得更高的精度分数。为了提供更具足够的评估基准,我们介绍了ShadowLink数据集,其中包括16K短文本代码段,其中包含实体提出。我们评估并报告在Shadowlink基准上的流行EL系统的表现。结果表明,在评估中所有EL系统的越来越少的常见实体之间的准确性差异相当差异,证明了现有概率偏差和实体的效果。
translated by 谷歌翻译