我们展示的第一次,就我们所知,这是可能的toreconcile在网上学习的零和游戏两个看似contradictoryobjectives:消失时间平均的遗憾和不消失的步长。 Thisphenomenon,我们硬币``速度与激情”的学习游戏,设置一个关于什么是可能无论是在最大最小优化以及inmulti代理系统newbenchmark。我们的分析不依赖于引入carefullytailored动态。相反,我们关注在最充分研究的在线动态梯度下降。同样,我们专注于最简单的教科书类的游戏,2剂的双策略零和游戏,如匹配便士。即使thissimplest基准的总最著名的束缚悔,为ourwork之前,当时的$琐碎一个O(T)$,这是立即适用甚至anon在学习剂。基于扩散核武器-平衡轨迹的双重空间,我们证明了一个遗憾的几何形状的紧密理解结合$ \西塔(\ SQRT横置)$匹配在网上设置开往自适应stepsizes众所周知的最佳的,这保证适用于具有预先知道的时间范围,并调整fixedstep尺寸所有固定步sizeswithout因此。作为一个推论,我们建立,即使fixedlearning率的时间平均的混合策略,公用事业收敛其得到精确的纳什均衡值。
translated by 谷歌翻译
我们提出了一种GAN设计,它可以有效地模拟多个分布,并发现它们的共性和特殊性。每个数据分布都使用$ K $生成器分布的混合进行建模。由于生成器在不同真实数据分布的建模之间共享,因此共享的捕获分布的共性,而非共享的捕获它们的独特方面。我们展示了我们的方法在各种数据集(MNIST,Fashion MNIST,CIFAR-10,Omniglot,CelebA)上的有效性,并且具有令人瞩目的结果。
translated by 谷歌翻译
由于它们与生成对抗网络(GAN)的联系,最近出现了鞍点问题,引起了人们对机器学习及其他方面的极大兴趣。必要时,大多数理论保证围绕凸凹(或甚至线性)问题;然而,理论上的进展有效的GAN培训在很大程度上取决于超越这种经典的框架。为了沿着这些方向做出零碎的进展,我们分析了镜像下降(MD)在一类非单调问题中的行为,这些问题的解决方案与自然相关的变分不等式 - 一种我们称之为一致性的属性 - 一致。我们首先表明普通的“香草”MD会在这种情况的严格版本下进行,但不是这样;特别是,即使在具有非解决方案的双线性模型中,它也可能无法收敛。然后我们表明这种缺陷可以通过乐观来缓解:通过采取“超梯度”步骤,乐观镜像下降(OMD)收敛于所有相干问题。我们的分析概括并扩展了Daskalakis等人的结果。 (2018)在双线性问题中的乐观梯度下降(OGD),并为在凸凹游戏之外建立收敛做出了具体的进展。我们还提供了这些结果的随机类似物,我们通过数值实验验证了我们在各种GAN模型中的分析(包括高斯混合模型,以及CelebA和CIFAR-10datasets)。
translated by 谷歌翻译
计算科学的进步为心血管流动的预测建模提供了原则性的管道,并且希望提供有价值的工具监督,诊断和手术计划。现在,这些模型可以用于大型患者特异性全身动脉网络拓扑,并且可以对流动模式,壁面剪切应力和脉搏波传播进行详细预测。然而,它们的成功在很大程度上依赖于繁琐的预处理和校准程序,这些程序通常会导致显着的计算成本,从而妨碍其临床适用性。在这项工作中,我们提出了一个机器学习框架,可以无缝合成非侵入性体内测量技术和源自第一物理原理的计算流动力学模型。我们举例说明了这种新的范例,展示了脉冲流的一维模型如何用于协调深度神经网络的输出,使得它们的预测满足质量和动量原理的守恒。一旦接受了关于流量和壁位移的噪声和分散的临床数据的训练,这些网络可以返回对速度,压力和位移脉冲波传播的物理一致的预测,所有这些都不需要使用常规模拟器。对这些输出进行简单的后处理还可以提供一种廉价有效的方法来估算传统计算模型校准所需的Windkessel模型参数。所提出的技术的有效性通过一系列原型基准来证明,以及涉及健康人类受试者的主动脉/颈动脉分叉附近的体内测量的现实临床病例。
translated by 谷歌翻译
本文从单个图像中解决了3D人体姿态和形状估计的问题。以前的方法考虑人体的参数模型,SMPL,并尝试回归模型参数,从而产生与图像证据一致的网格。该参数回归一直是一项非常具有挑战性的任务,基于模型的方法在姿势估计方面表现不佳,比较了吨参数解。在我们的工作中,我们建议放弃对模型参数空间的严重依赖。我们仍然保留SMPL模板网格的拓扑,但我们不是预测模型参数,而是直接回归网格顶点的3D位置。对于典型的网络来说,这是一项繁重的任务,但我们的主要观点是,使用Graph-CNN,回归变得非常容易。这种架构允许我们对网络中的模板网格结构进行明确编码,并使网格必须提供空间局部性。基于图像的特征附加到网格顶点,Graph-CNN负责在主题结构上处理它们,而每个顶点的回归目标是其3D位置。如果我们仍然需要非特定的,则恢复网格的完整3D几何模型参数化,这可以从转换位置可靠地回归。我们通过在网格顶点附加不同类型的特征来证明我们提出的基于图形的网格回归的灵活性和有效性。在所有情况下,我们都优于模型参数回归的可比基线,同时我们也在基于模型的姿态估计方法中实现了最先进的结果。
translated by 谷歌翻译
以自我为中心的视觉是一个新兴的计算机视觉领域,其特征在于从第一人称视角获取图像和视频。在本文中,我们通过明确利用场景中检测到的感兴趣区域的存在和位置来解决自我中心人类行为识别的挑战,而无需进一步使用视觉特征。最初,我们认识到人类的双手在执行行动中至关重要,并专注于获取行动作为定义行动的主要线索。我们采用物体检测和区域跟踪技术来处理手并捕捉它们的运动。关于自我中心视图的先前知识有助于左右之间的手部识别。在检测和跟踪方面,我们提供了一条管道,可以成功地操作看不见的自我中心视频,以找到相机佩戴者的手并通过时间将它们关联起来。而且,我们强调场景信息识别的价值。我们承认,物体的存在对于人类的行动的执行是重要的,并且通常对于上升的描述。为了获取此信息,我们将对象检测用于与我们想要识别的操作相关的特定类。我们的实验针对的是来自Epic-Kitchens数据集的厨房活动视频。我们将动作识别建模为帧中检测到的空间位置的序列学习问题。我们的结果表明,可以依赖于明确的手和物体检测而没有其他视觉信息来对与手相关的人类行为进行分类。有条不紊地依赖于视觉特征的测试,表示对于手部动作在概念上重要的动作,对视频包含的基于兴趣区域的描述具有可比较的分类性能的同等表达信息。
translated by 谷歌翻译
处理大型文件集在许多领域都具有重要意义,尤其是在犯罪调查和防御领域,在这些领域,组织可能会出现大量需要在有限时间内处理的扫描文件。然而,就扫描文档和需要处理的页面的复杂性而言,这个问题更加严重。通常包含许多不同的元素,每个元素都需要被处理和理解。文本识别是这个过程的主要任务,通常取决于文本的类型,无论是手写还是机器打印。因此,在决定要应用的识别方法之前,识别涉及文本类别的先前分类。如果文档包含手写和机器打印的文本,这将带来更具挑战性的任务。在这项工作中,我们提供了一个通用的流程,用于在包含混合手写和机器打印文本的扫描文档中进行文本识别,而无需对文本进行分类。我们使用几个开源图像处理和文本识别包1实现了所提出的流程。使用IAM手写数据库中的特别开发的变体进行评估,其中我们实现了包含打印和手写文本的平均转录精度接近80%。
translated by 谷歌翻译
本文是关于改进二元神经网络的训练,其中激活和权重都是二元的。虽然现有的神经网络组合方法独立地对每个滤波器进行二值化,但我们建议使用矩阵或张量分解来代替参数化每个层的权重张量。然后,通过应用于重建权重的量化函数(例如,符号函数),使用该潜在参数化来执行二值化处理。我们的方法的一个关键特征是,当构造被二值化时,潜在分解空间中的计算完全在实域中。这具有几个优点:(i)潜在因素在二值化之前强制执行滤波器的耦合,这显着提高了训练模型的准确性。 (ii)在吸引时间时,每个卷积层的二进制权重使用实值矩阵或张量分解进行参数化,在推理期间我们简单地使用重构(二进制)权重。因此,我们的方法不会在模型压缩和加速推理方面克服二进制网络的任何优势。作为进一步的贡献,不是像在先前的工作中那样分析地计算二进制权重缩放因子,我们建议通过反向传播来区别地区分它们。最后,我们证明,当在(a)人体姿势估计(超过4%的改进)和(b)ImageNet分类(高达5%的性能增益)的挑战性任务上进行测试时,超出现有方法的性能明显优于现有方法。
translated by 谷歌翻译
机器学习的进步通常由大数据集的可用性以及用于比较建模方法的一致评估指标驱动。为此,我们提供了由数亿个示例组成的会话数据集的存储库,以及使用对话响应选择模型的标准化评估程序。 '100精度'。存储库包含脚本,允许研究人员重现标准数据集,或使预处理和数据过滤步骤适应他们的需要。我们介绍和评估了几个竞争性基线,用于对话响应选择,其实现在知识库中共享,以及在整个训练集上训练的神经编码器模型。
translated by 谷歌翻译
深度学习,大量注释数据和越来越强大的硬件的突出使得有可能在监督分类任务中达到显着的性能,在许多情况下使训练集饱和。然而,由于至少有三个原因,将学习的分类调整到新的领域仍然是一个难题:(1)领域和任务可能大不相同; (2)新域上可能存在非常有限的注释数据量;(3)由于deepnetworks参数的剪切数,每个新任务的新模型的完全训练在内存方面是禁止的。相反,新任务应该逐步学习,建立在已经学过的任务的预知基础之上,并且没有灾难性的遗忘,即不会损害先前任务的表现。据我们所知,本文提出了第一种多域/任务学习方法,无需使用完全张量化的体系结构进行灾难性的遗忘。我们的主要贡献是多域学习的方法,其将CNN内的相同结构块的组建模为高阶张量。我们证明了这种联合模式自然地利用了不同层之间的相关性,并且导致每个新任务/域比以前的方法更紧凑的表示,这些方法专注于分别调整每个层。我们将所提出的方法应用于视觉十项全能挑战赛的10个数据集,并表明我们的方法在分类准确度和迪卡侬评分方面平均提供约7.5倍的参数数量和优异的性能。特别是,我们的方法优于Visual DecathlonChallenge的所有先前工作。
translated by 谷歌翻译