我们提出了Hand-CNN,一种新颖的卷积网络架构,用于检测手工掩模和预测无约束图像中的手部方向。 Hand-CNN使用新颖的注意机制扩展MaskRCNN,以在检测过程中结合上下文。该注意机制可以实现为有效的网络模块,其捕获特征之间的非本地依赖性。该网络模块可以插入物体检测网络的不同阶段,并且可以端到端地训练整个检测器。我们还引入了一个大型带注释的手部数据集,其中包含用于训练和评估的无约束图像。我们展示了Hand-CNNout在几个数据集上执行现有方法,包括我们的手检测基准和公众可用的PASCAL VOC人体布局挑战。我们还进行了手部检测的消融研究,以显示所提出的情境关注模块的有效性。
translated by 谷歌翻译
由于3D传感器的普及,几何深度学习变得越来越重要。受NLP领域最新进展的启发,引入了自我关注变换器以消耗点云。我们开发PointAttention变换器(PAT),使用参数有效的Group ShuffleAttention(GSA)来代替昂贵的多头注意。我们证明了它能够处理大小变化的输入,并证明其置换等效性。此外,先前的工作使用启发式依赖于输入数据(例如,最远点采样)来分层选择输入点的子集。因此,我们第一次提出端到端可学习和任务不可知的采样操作,名为Gumbel子集采样(GSS),用于选择输入点的代表性子集。配备Gumbel-Softmax,它在训练阶段产生“软”连续子集,在测试阶段产生“硬”离散子集。通过以分层时尚方式选择代表性子集,网络以较低的计算成本学习输入集的更强表示。分类和分段基准的实验表明了我们方法的有效性和有效性。此外,我们提出了一种新颖的应用,将事件相机流处理为点云,并在DVS128手势数据集上实现最先进的性能。
translated by 谷歌翻译
在自然场景图像中读取任意形状的不规则文本仍然是一个难题。许多现有方法结合了复杂的网络结构来处理各种形状,使用额外的注释来进行strongersupervision,或者使用难以训练的递归神经网络来进行序列建模。在这项工作中,我们提出了一种简单而强大的非标准文本识别方法。由于不需要将输入图像转换为序列表示,我们将二维CNN特征直接连接到基于注释的序列解码器。由于没有采用循环模块,我们的模型可以并行训练。与RNN对应物相比,它实现了3x到18x加速到后向传递和2x到12x加速到前向传递。所提出的模型仅使用单词级注释进行训练。通过这种简单的设计,我们的方法在评估的常规和不规则场景文本基准数据集上实现了最先进或竞争性的识别性能。此外,我们表明识别性能不会因不准确的边界框而显着降低。这是端到端文本检测和识别的理想要求:仍然可以使用不准确的文本检测器来实现稳健的识别性能。我们将发布代码。
translated by 谷歌翻译
物体检测器通常配备有用于图像分类的网络作为主干,例如ResNet。尽管众所周知在图像分类和物体检测的任务之间存在差距,但设计合适的检测器骨架仍然是手动穷举的。在本文中,我们建议DetNAS自动搜索神经架构以寻找物体探测器的背板。在DetNAS中,搜索空间被制定为asupernet,搜索方法依赖于进化算法(EA)。实验中,我们展示了DetNAS在各种探测器,一级探测器,RetinaNet和两级探测器FPN上的有效性。对于每种情况,我们都在从头开始训练和ImageNet预训练方案中进行搜索。与在ImageNet分类上搜索的架构相比,具有一致的优势。我们的主要结果架构在使用FPN检测器的COCO上实现了比ResNet-101更好的性能。此外,我们还演示了DetNAS搜索的架构,并找到了一些有意义的模式。
translated by 谷歌翻译
在本文中,我们提出了一种新的元学习方法,用于深度神经网络的自动修剪。我们首先训练一个PruningNet,一个元网络,它能够为给定目标网络的任何结构生成权重参数。我们使用简单的随机结构采样方法来训练PruningNet。然后,我们应用演化过程来搜索性能良好的修剪网络。搜索效率很高,因为权重是由经过培训的PruningNet直接生成的,我们不需要任何微调。通过为目标网络培训的单个PruningNet,我们可以在不受人类参与的情况下搜索不同约束下的各种修剪网络。我们已经在MobileNet V1 / V2网络上展示了竞争性能,ImageNetaccuracy比V1 / V2高出9.0 / 9.9。与之前最先进的基于AutoML的修剪方法(如AMC和NetAdapt)相比,我们在各种条件下都达到了更高或更高的准确度。
translated by 谷歌翻译
在许多实际的转移学习场景中,特征分布在源域和目标域之间是不同的(即非i.i.d。)。作为域差异度量的最大meandisppancy(MMD)已经在无监督域自适应(DA)中实现了有希望的性能。我们认为基于MMD的DA方法忽略了数据局部性结构,这在某种程度上会导致负面转移效应。该局部在最小化边际分布背后的非线性局部域差异方面起着重要作用。为了更好地利用域局部性,本文提出了一种新的基于局部生成差异度量(LGDM)的中间域生成学习,称为Manifold Criterion指导传递学习(MCTL)。所提出的MCTL的优点有四个:1)首先提出了流形标准(MC)的概念作为验证跨域的分布匹配的度量,并且如果满足MC则实现域自适应; 2)提出的MC可以很好地指导与目标域共享类似分布的中间域的生成,最小化本地域差异; 3)提出了全球生成差异度量(GGDM),以便可以有效和积极地减少全局和局部差异; 4)MCTL的简化版本称为MCTL-S,是针对更通用学习场景的完美域生成假设。通过与其他最先进的方法进行比较,对许多基准视觉转换实验的实验证明了所提出的流形标准引导生成转移方法的优越性。源代码可在https://github.com/wangshanshanCQU/MCTL获得。 。
translated by 谷歌翻译
深度神经网络(DNN)是许多机器学习应用程序的最先进解决方案,并已广泛用于移动设备。在资源受限的移动设备上运行DNN通常需要边缘服务器通过计算卸载提供帮助。然而,由于移动设备上的计算资源与无线资源之间的紧密相互作用,通过放宽限制的无线链路卸载是非常重要的。现有的研究集中于合作推理,其中DNN模型被分配在不同的神经网络层,并且这两个部分是分别在移动设备和边缘服务器上执行。由于DNN层的输出数据大小可能大于原始数据的输出数据大小,因此在有限的无线带宽下,在层之间卸载中间数据会遭受高传输延迟。在本文中,我们提出了一种有效且灵活的两步修剪框架,用于移动设备和服务器之间的DNN分区。在我们的框架中,DNN模型只需要在训练阶段进行修剪一次,其中不重要的卷积滤波器被去除。通过限制修剪区域,我们的框架可以大大减少设备的无线传输工作量或总计算工作量。在训练阶段中生成一系列修剪模型,框架可以自动选择以满足不同的精度和精度要求。此外,添加对中间数据的编码以提供额外的传输工作负载减少。我们的实验表明,与分区原始DNN模型相比,所提出的框架可以实现传输工作量减少高达25.6 $ \次减少,总计算减少6.01 $ \次加速,端到端延迟减少4.81美元没有修剪。
translated by 谷歌翻译
我们研究了非线性近似函数组合的近似效率,特别是使用具有ReLU激活函数的多层前馈神经网络(FNN)实现组合的情况。感兴趣的核心问题是函数组合在生成字典和通过ReLU FNN实现功能组合的最佳实现是什么,特别是在现代计算体系结构中。通过研究$ N $ -term近似值来回答这个问题,即近似中误差与计算节点(神经元)数量的减少,以及第一次的并行效率。首先,对于$ [0,1] $上的任意函数$ f $,无论其平滑度和连续性如何,如果$ f $可以通过非隐式近似来近似使用具有近似率$ O的单隐藏层ReLU FNN( N ^ { - \ eta})$,通过深度ReLUFNN定量显示具有函数组成的字典可以将近似率提高到$ O(N ^ { - 2 \ eta})$。第二,对于H {\“o} lder $ $ $ alpha $的连续函数,在$ d $ -dimensional多维数据集上使用统一的Lipchitzconstant $ \ omega $,我们通过ReLU FNNs显示$ N $ -termapproximation与两个或三个函数组合可以达到近似率$ O(N ^ { - 2 \ alpha / d})$。通过组合$ L $次,近似率可以改为$ O(L ^ { - 2 \ alpha / d})$,如果$ N $固定且足够大;但是进一步的组合不能达到近似值$ O(N ^ { - \ alpha L / d})$。最后,考虑到并行计算中的计算效率训练迭代,FNN与$ O(1 )如果计算资源足够,$ hidden层是近似H {\“o} lder连续函数的最佳选择。
translated by 谷歌翻译
Tabular data is the most commonly used form of data in industry according to a Kaggle ML and DS Survey. Gradient Boosting Trees, Support Vector Machine, Random Forest, and Logistic Regression are typically used for classification tasks on tabular data. DNN models using categorical embeddings are also applied in this task, but all attempts thus far have used one-dimensional embeddings. The recent work of Super Characters method using two-dimensional word embeddings achieved state-of-the-art results in text classification tasks, showcasing the promise of this new approach. In this paper, we propose the SuperTML method, which borrows the idea of Super Characters method and two-dimensional em-beddings to address the problem of classification on tabular data. For each input of tab-ular data, the features are first projected into two-dimensional embeddings like an image, and then this image is fed into fine-tuned two-dimensional CNN models for classification. The proposed SuperTML method handles the categorical data and missing values in tabular data automatically, without any need to pre-process into numerical values. Comparisons of model performance are conducted on one of the largest and most active competitions on the Kaggle platform, as well as on the top three most popular data sets in the UCI Machine Learning Repository. Experimental results have shown that the proposed SuperTML method have achieved state-of-the-art results on both large and small datasets.
translated by 谷歌翻译
我们研究了视觉对话系统中的多轮响应生成,其中响应是根据视觉上基于对话的历史生成的。给定三元组:图像,Q&A历史和当前问题,所有优先方法遵循监督学习范例中的编解码器(即编码器 - 解码器)方式:多模式编码器将三元组编码成特征向量,然后将其馈送到解码器中。对于当前的答案,由真实答案监督。然而,这种常规监督学习没有考虑编解码器训练中不完美历史的影响,违反了视觉对话的会话性质,使得编解码器更倾向于学习数据集偏差而不是视觉推理。为此,受到演员 - 评论家政策梯度促进学习的启发,我们提出了一种名为Gold-CriticSequence Training(GCST)的新型训练范式。具体来说,我们故意在历史中强加错误的答案,获得不利的回报,并通过从不利的奖励中减去黄金评论基线 - 利用地面真实历史获得的奖励,看看历史错误如何影响编解码器的未来行为此外,为了使编解码器对历史更敏感,我们提出了一种名为Recurrent Co-Attention Network(RCAN)的novelattention网络,它可以通过GCST进行有效的训练。三个基准测试的实验结果:VisDial0.9和1.0以及GuessWhat?!,表明建议的GCST策略始终优于最先进的监督对应物underall指标。
translated by 谷歌翻译