由场景中的对象的交互定义的事件通常具有重要的重要性,但是这样的事件通常是罕见的并且可用的标记示例不足以训练执行良好的交叉预测的对象外观的传统深度模型。大多数深度学习活动识别模型专注于全局上下文聚合,并未明确考虑视频内的对象交互,可能忽略与场景中的解释活动相关的重要线索。在本文中,我们展示了一种用于显式表示对象交互的新模型,显着改善了用于驾驶碰撞检测的深度视频活动分类。我们提出了一个时空行动图(STAG)网络,它结合了对象的空间和时间关系。从数据中自动学习网络,并为任务推断出潜在的图形结构。作为评估碰撞检测任务性能的基准,我们根据从现实生活中驾驶碰撞和近碰撞获得的数据引入了一种新颖的数据集。该数据集反映了在一个变化丰富但高度受限的环境中检测和分类事故的挑战性任务,这与自动驾驶和警报系统的评估非常相关。我们的实验证实,我们的STAG模型为碰撞活动分类提供了显着改进的结果。
translated by 谷歌翻译
经验证据表明,具有ReLU激活的神经网络通过过度参数化更好地普及。然而,目前有非理论分析解释了这一观察结果。在这项工作中,我们研究了过度参数化卷积网络的简化学习任务,并且在研究中表现出相同的定性现象。对于这种设置,我们提供了梯度下降的优化和泛化性能的理论分析。具体来说,我们证明了数据依赖的样本复杂边界,这表明过度参数化改善了梯度下降的广义化性能。
translated by 谷歌翻译
在数据管理和自然语言处理(NLP)社区中,设计用于查询表的可靠自然语言(NL)接口已成为研究人员的长期目标。这样的接口接收anNL问题作为输入,将其转换为正式查询,执行查询并返回结果。翻译过程中的错误并不罕见,用户通常很难理解他们的查询是否已正确映射。我们通过向非专家用户解释获得的正式查询来解决此问题。提出了两种查询解释方法:第一种将查询转换为NL,而第二种方法提供基于查询单元的起源的图形表示(在给定表上执行)。 Oursolution在Web表上增加了最先进的NL接口,在其培训和部署阶段增强了它。实验,包括在Amazon Mechanical Turk上进行的用户研究,展示了我们的解决方案,以提高NL接口的正确性和可靠性。
translated by 谷歌翻译
Complex classifiers may exhibit "embarassing" failures in cases where humans can easily provide a justified classification. Avoiding such failures is obviously of key importance. In this work, we focus on one such setting, where a label is perfectly predictable if the input contains certain features, or rules, and otherwise it is predictable by a linear classifier. We define a hypothesis class that captures this notion and determine its sample complexity. We also give evidence that efficient algorithms cannot achieve this sample complexity. We then derive a simple and efficient algorithm and show that its sample complexity is close to optimal, among efficient algorithms. Experiments on synthetic and sentiment analysis data demonstrate the efficacy of the method, both in terms of accuracy and interpretability.
translated by 谷歌翻译
机器对复杂图像的理解是人工智能的关键目标。该任务的一个挑战是视觉场景包含多个相互关联的对象,并且全局上下文在解释场景中起着重要作用。用于捕获sucheffects的自然建模框架是结构化预测,其优化复杂标签,同时模拟标签内交互。然而,目前尚不清楚什么原则上应该指导利用深度学习组件的力量的结构化预测模型的设计。在这里,我们提出了一种结构设计原则,它遵循排列不变性的自然要求。我们证明了遵循这种不变性的必要和充分的表征结构,并讨论了它对模型设计的影响。最后,我们证明了最终的模型在Visual Genome场景图标签基准上达到了新的技术水平,超越了所有的方法。
translated by 谷歌翻译
深度学习模型通常使用梯度下降成功训练,尽管底层非凸优化问题的最坏情况硬度。关键问题是在什么条件下可以证明优化会成功。在这里,我们提供了这种强有力的结果。我们考虑一个神经网络,其中一个隐藏层和一个没有重叠的卷积结构和一个ReLU激活函数。对于这种架构,我们表明在一般情况下学习是NP完全的,但是当输入分布是高斯时,梯度下降会收敛到多项式时间的全局最优。据我们所知,这是具有ReLU激活的卷积神经网络上梯度下降的第一个全局最优保证。
translated by 谷歌翻译
图是有用的结构,可以模拟几个重要的现实问题。最近,学习图表引起了相当多的关注,从而提出了学习这些数据结构的新方法。其中一个研究产生了NetGAN,这是一种通过随机游走生成图形的新方法。虽然NetGAN在生成图形和链接预测的任务中的准确性方面已经显示出有希望的结果,但是从中开始随机游走的顶点的选择可能导致不一致和高度变量结果,特别是当步行时间很短时。作为randomstarting的替代方案,本研究旨在建立一种从一组密集顶点初始化随机行走的新方法。我们的目的是通过不同大小的随机游走,基于其对其邻域的整个顶点的影响的倒数来估计阳极的重要性。所提出的方法管理实现了显着更好的准确性,更少的方差和减少了更小的方法。
translated by 谷歌翻译
我们提出了一个结合了分层规划和机器学习的思想的导航系统。该系统使用传统的全局规划器来计算朝向目标的最佳路径,并使用深度局部轨迹规划器和速度控制器来计算运动命令。系统的后者组件通过注意机制调整机器人的行为,使其朝向目标移动,避开障碍物,并尊重近距离行人的空间。所提出的深度模型的结构和使用注意机制都使得系统的执行可以解释。我们的仿真实验表明,所提出的架构优于基线,可以将全局计划信息和传感器数据直接映射到velocitycommands。与手工设计的传统导航系统相比,所提出的方法表现出更一致的性能。
translated by 谷歌翻译
基于深度的人体活动分析研究取得了突出的成绩,并证明了3D表示在行动识别中的有效性。现有的基于深度和基于RGB + D的动作识别基准具有许多局限性,包括缺乏大规模训练样本,不同类别的实际数量,多样化的内部视图,不同的环境条件以及各种人类主体。在这项工作中,我们引入了一个用于RGB + D人类行为识别的大规模数据集,该数据集来自106个不同的主题,包含超过114,000个视频样本和800万帧。该数据集包含120种不同的动作类,包括日常,相互和健康相关的活动。我们评估了该数据集上一系列现有3D活动分析方法的性能,并展示了将deeplearning方法应用于基于3D的人类行为识别的优势。此外,我们在数据集上研究了一种新的一次性三维活动识别问题,并为此任务提出了一种简单而有效的动作部分语义相关性(APSR)框架,为新型动作类的识别提供了有希望的结果。我们相信,引入这个大规模数据集将使社区能够应用,调整和开发各种渴望数据的学习技术,以实现基于深度和基于RGB + D的人类活动理解。 [数据集可在以下网址获得:http://rose1.ntu.edu.sg/Datasets/actionRecognition.asp]
translated by 谷歌翻译
多实例学习(MIL)是一种弱监督学习范例,它允许对机器学习问题进行建模,其中标签仅适用于称为包的示例组。正袋可以包含一个或多个正面的例子,但是不知道袋中的哪些例子是正面的。负袋中的所有例子都属于负面类。这些问题在计算机视觉,医学图像处理和生物信息学领域中经​​常出现。已经在MIL的文献中提出了许多基于神经网络的解决方案,然而,几乎所有这些解决方案都依赖于在架构中引入专用块和连接。在本文中,我们提出了一种在神经网络中进行多实例学习的noveland有效方法。我们提出了一种简单的bag-levelranking损失函数,它允许在任何神经网络中进行多实例分类。我们已经证明了我们提出的方法对流行的MIL基准数据集的有效性。此外,我们已经在卷积神经网络中测试了我们的方法的性能,该网络用于模拟从众所周知的MNIST数据集派生的MIL问题。结果表明,尽管更简单,但我们提出的方案在实际情况下是文献中可比较的或更好的现有方法。所有实验的Python代码文件都可以在https://github.com/amina01/ESMIL找到。
translated by 谷歌翻译