修剪是一种有效的模型压缩技术,用于消除深度神经网络(DNN)连通性中的冗余。然而,使用通过修剪参数获得的稀疏矩阵的计算表现出极大不同的并行性,这取决于索引表示方案。因此,细粒度修剪由于其不规则的索引形式导致大的内存占用和卷积和矩阵乘法的低并行性而没有引起太多关注。在本文中,我们提出了一种新的网络修剪技术,它生成一个低秩二进制索引矩阵来压缩索引数据,而解压缩索引数据则通过简单的二进制矩阵乘法来执行。该提出的压缩方法找到特定的细粒度修剪掩模,其可以被分解成两个二进制矩阵。 Wealso提出了一种基于区块的分解技术,不仅可以降低内存需求,还可以提高压缩率。与先前的稀疏矩阵格式相比,可以使用少得多的DNN模型,同时保持相同的修剪率。
translated by 谷歌翻译
机器学习和计算机科学中的许多凸问题共享相同的形式:\ begin {align *} \ min_ {x} \ sum_ {i} f_i(A_i x + b_i),\ end {align *}其中$ f_i $是凸函数on $ \ mathbb {R} ^ {n_i} $,常数为$ n_i $,$ A_i \ in \ mathbb {R} ^ {n_i \ times d} $,$ b_i \ in \ mathbb {R} ^ {n_i} $和$ \ sum_i n_i = n $。这个问题推广了线性规划,包括许多问题,经验风险最小化。在本文中,我们给出了一个运行intime \ begin {align *}的算法O ^ *((n ^ {\ omega} + n ^ {2.5 - \ alpha / 2} + n ^ {2+ 1/6}) \ log(n / \ delta))\ end {align *}其中$ \ omega $是matrixmultiplication的指数,$ \ alpha $是矩阵乘法的双指数,$ \ delta $是相对精度。请注意,运行时只对条件数或其他数据相关参数具有对数依赖性,并且这些参数在$ \ delta $中捕获。对于当前绑定的$ \ omega \ sim 2.38 $ [Vassilevska Williams'12,Le Gall'14]和$ \ alpha \ sim 0.31 $ [Le Gall,Urrutia'18],我们的运行时$ O ^ *(n ^ {\ omega} \ log(n / \ delta))$匹配当前最佳解决密集最小二乘回归问题,这是我们考虑的问题的一个特例。最近,[Alman'18]证明了目前所有已知的技术都无法提供低于$ 2.168 $的更好的$ \ omega $,这比$ 2 + 1/6 $更大。我们的结果推广了当前矩阵乘法时间[Cohen,Lee,Song'19]中线性程序的最新结果,以解决更广泛的问题。我们的算法提出了两个与[Cohen,Lee,Song'19]不同的概念:$ \ bullet $我们给出一个鲁棒的确定性中心路径方法,而前一个是随机中心路径,它通过randomsparse向量更新权重。 $ \ bullet $我们提出了一种有效的数据结构,即使权重更新向量密集,也能维持内点方法的中心路径。
translated by 谷歌翻译
本文提出了一种新的分类问题集成学习方法,即投影寻踪随机森林(PPF)。 PPF使用Lee等人引入的PPtreealgorithm。 (2013年)。在PPF中,通过分割随机选择的变量的线性组合来构造树。 Projectionpursuit用于选择最佳分类的变量投影。利用变量的线性组合来分离类,需要考虑变量之间的相关性,这允许PPF在组之间的分离发生变量组合时优于传统的随机森林。此处介绍的方法可用于多类问题,并实现为R(R Core Team,2018)软件包,PPforest,可在CRAN上获得,开发版本位于https://github.com/natydasilva/PPforest。
translated by 谷歌翻译
Shi,Huang和Lee(2017)通过将基于传输的依赖解析器的动态编程实现与最小的双向LSTMfeature集合相结合,获得了英语和中文依赖解析的最新结果。但是,他们的结果仅限于投影解析。在本文中,我们通过提供MH_4算法的第一个实际实现来扩展他们的方法以支持非投射性,这是一种$ O(n ^ 4)$轻度非投射动态编程解析器,在非投影树库上具有非常高的覆盖率。为了使MH_4与最小的基于转换的特征集兼容,我们引入了基于转换的解释,其中将较小的项映射到转换序列。因此,我们获得了基于非投影过渡的解析的全局解码的第一次实现,并且凭经验证明它在解析许多高度非投射语言时比它的投射对象更有效。
translated by 谷歌翻译
空间音频是观众对3D视觉和听觉体验的重要媒介。然而,记录设备和技术是昂贵的或者对于普通大众来说是不可访问的。在这项工作中,我们提出了一个自我监督的音频空间化网络,可以在给定相应的视频和单声道音频的情况下生成空间音频。为了增强空间化性能,我们使用辅助分类器对地面实况视频和左右声道交换的视频分类进行分类。我们收集具有空间音频的大型视频数据集以验证所提出的方法。实验结果证明了该模型在音频空间化任务中的有效性。
translated by 谷歌翻译
基于树的机器学习模型,例如随机森林,决策树和梯度增强树,是当今实践中使用的最流行的非线性预测模型,但是对于解释它们的预测却相对较少关注。在这里,我们通过三个主要贡献显着提高了树模型的可解性:1)基于游戏理论计算最优解释的第一个多项式时间算法。 2)一种直接测量局部特征相互作用效果的新型解释。 3)一组新的工具,用于基于每个预测的许多局部解释来理解全局模型结构。我们将这些工具应用于三个医学机器学习问题,并展示如何结合许多高质量的局部解释使我们能够代表全局结构,同时保持对原始模型的本地忠诚度。这些工具可以使我们知道i)在美国一般人群中识别高幅度但低频率的非线性死亡率因素,ii)突出显示具有共同风险特征的不同群体子群,iii)识别慢性肾病危险因素之间的非线性相互作用, iv)通过识别哪些特征随着时间的推移降低模型的性能来监控部署在医院中的机器学习模型。鉴于基于树的机器学习模型的普及,这些对其可解释性的改进对于广泛的领域具有影响。
translated by 谷歌翻译
由于最近成功的生成对抗网络(GAN)用于图像合成,有许多令人兴奋的GAN方法成功地从不同对比度的其他图像中合成MR图像对比度。这些方法对于图像插补问题具有潜在的重要性,其中通常难以获得完整的数据集,并且图像合成是处理丢失数据问题的关键解决方案之一。不幸的是,现有基于GAN的图像转换方法的可扩展性缺陷对于理解MR对比度问题的本质提出了一个根本的挑战:哪种对比确实重要?在这里,我们提出了一个使用协同生成对抗网络(CollaGAN)的系统方法,可以通过学习多个MR对比的联合图像流形来研究哪些对比是必不可少的。我们的实验结果表明,造影剂的外源性对比不可替代,但可以从其他对比中合成T1,T2等其他内源性对比。这些结果可为实际临床环境中MR的采集协议设计提供重要指导。
translated by 谷歌翻译
来自2D图像的多人姿势估计具有挑战性,因为它不仅需要关键点定位而且还需要人类检测。最先进的自上而下方法,多尺度信息是准确姿态估计的关键因素,因为它包含关键点的本地信息和整个人的全局信息。尽管多尺度信息允许这些方法实现最先进的性能,但自上而下的方法仍然需要大量的计算,因为他们需要使用额外的人体检测器来将裁剪的人体图像馈送到他们的姿势估计模型。为了有效地利用较小计算的多尺度信息,我们提出了多尺度聚合R-CNN(MSA R-CNN)。它由多尺度RoIAlign块(MS-RoIAlign)和多尺度关键点头网络(MS-KpsNet)组成,旨在有效利用多尺度信息。此外,与先前的自上而下方法相比,MSA R-CNN在单个模型中执行人体检测和关键点定位,这导致计算减少。所提出的模型在基于单个模型的方法中实现了最佳性能,并且其结果与基于模型的分离方法的结果相比,在公共可用的2D多人关键点定位数据集上具有较少量的计算。
translated by 谷歌翻译
在本文中,我们研究了一类优先化逆运动学(PIK)解的各种理论性质,这些解可以被认为是具有优先级多输出的动态系统的(调节或输出跟踪)控制律的一类。我们首先开发工具来研究PIK解决方案的非平滑性,并找到一个非光滑的充分条件。这意味着经典定理无法保证满足PIK解的关节轨迹的存在性和唯一性。因此,我们构建了一个使用PIK解决方案的结构信息的替代存在性和唯一性定理。然后,我们将PIKsolutions的类缩小到所有任务被设计为遵循一些期望的任务轨迹并发现与收敛相关的一些属性的情况。本研究进一步分析了差分方程的平衡点的稳定性,当所有任务都设计为达到某个期望的任务位置时,其右侧是PIK解。最后,我们提供了一个带有双连杆操纵器的示例,该操纵器显示了我们的结果如何用于分析从PIK解决方案生成的关节轨迹的行为。
translated by 谷歌翻译
盲视频去除是一个问题,即自动删除文本覆盖并在没有任何输入掩码的情况下修复视频中的被遮挡部分。虽然基于修复方法的最新深度学习处理单个图像并且通常假设已损坏像素的位置是已知的,但我们的目标是在没有掩模信息的视频序列中自动删除文本。在本文中,我们提出了一个简单而有效的快速盲视频瞄准框架。我们构建了一个编码器 - 解码器模型,其中编码器采用多个源帧,可以提供从动态动力学中显示的可见像素。这些提示被聚合并馈送到解码器中。我们应用从输入帧到解码器输出的各种连接,以强制我们的网络只关注损坏的区域。我们提出的模型在ECCV Chalearn 2018 LAP修复竞赛第2轨道中排名第一:视频消除。此外,我们通过应用反复反馈进一步改进这一强大的模型。反复出现的反馈不仅可以强制执行时间一致性,还可以提供有关损坏像素位置的强有力线索。定性和定量实验都证明我们的全模型能够实时(50 + fps)产生准确且时间一致的视频结果。
translated by 谷歌翻译