训练具有大量参数或复杂体系结构的神经网络(NN)会产生不希望的现象,使优化过程复杂化。为了解决这个问题,我们提出了NNdesign的第一种模块化方法,其中NN被分解为控制模块和若干功能模块,实现原始操作。我们通过比较整体模块和模块化NNon列表排序问题之间的性能来说明模块化概念,并展示了培训速度,培训稳定性和可维护性方面的优势。我们还讨论了模块化NN中的一些问题。
translated by 谷歌翻译
过滤器或神经元的结构化修剪已经受到越来越多的关注,用于压缩卷积神经网络。大多数现有方法依赖于以分层方式进行的多级优化,以进行迭代修剪和重新训练,这可能不是最佳的并且可能是计算密集型的。此外,这些方法被设计用于修剪特定结构,例如滤波器或块结构,而无需联合修剪异构结构。在本文中,我们提出了一种有效的结构化修剪方法,以端到端的方式共同修剪过滤器和其他结构。为了实现这一目标,我们首先引入一个软掩模来扩展这些结构的输出,方法是通过稀疏正则化定义新的目标函数,使基线和网络的输出与此掩模对齐。然后,我们通过生成对抗性学习(GAL)有效地解决了优化问题,GAL可以无标签和端到端的方式学习非常软的掩码。通过将软掩模中的更多缩放因子强制为零,可以利用快速迭代收缩 - 阈值算法(FISTA)来快速且可靠地移除相应的结构。大量实验证明了GAL在不同数据集上的有效性,包括MNIST,CIFAR-10和ImageNet ILSVRC 2012.例如,在ImageNet ILSVRC 2012上,prunedResNet-50达到10.88 \%Top-5误差,结果加速3.7倍。这显着优于最先进的方法。
translated by 谷歌翻译
使用交通摄像头作为传感器的城市交通优化正在推动最先进的多目标多摄像机(MTMC)跟踪。这项工作介绍了CityFlow,一个城市规模的交通摄像机数据集,包含超过3小时的同步40个摄像头的10个交叉点的高清视频,两个同步摄像头之间的最长距离为2.5公里。据我们所知,CityFlow是空间覆盖范围内最大规模的数据集内容,以及城市环境中的摄像机/视频数量。该数据集包含超过200K个带注释的边界框,可以覆盖各种场景,视角,车辆模型和urbantraffic流动条件。提供相机几何和校准信息以帮助进行时空分析。此外,该基准的子集可用于基于图像的车辆识别(ReID)的任务。我们对MT2跟踪,多目标单摄像机(MTSC)跟踪,对象检测以及基于图像的ReID在此数据集上进行了基线/最先进方法的广泛实验评估,分析了不同网络架构的影响,损失函数,时空模型及其在任务有效性方面的组合。评估服务器在2019AI城市挑战赛(https://www.aicitychallenge.org/)上发布我们的基准测试,允许研究人员对他们最新技术的表现进行比较。我们希望这个数据集可以催化该领域的研究,推动最先进的技术发展,并在现实世界中实现部署的流量优化。
translated by 谷歌翻译
许多新兴的数据挖掘和机器学习用例使用来自异构数据源的大数据集进行操作,特别是稀疏和密集组件。例如,密集深度神经网络嵌入向量通常与稀疏文本特征结合使用以提供文档的高维混合表示。在这样的杂交空间中进行高效搜索是非常具有挑战性的,因为对于稀疏矢量表现良好的技术与那些适用于密集矢量的技术几乎没有重叠。局部敏感散列(LSH)等流行技术及其数据依赖变量也不能提供高精度尺寸混合空间。尽管混合场景变得越来越普遍,但目前在文献中存在既不快速又准确的高效技术。在本文中,我们提出了一种近似于混合向量中的内积计算的技术,在保持高精度的同时导致搜索的大幅加速。我们还提出了利用现代计算机体系结构的高效数据结构,从而使搜索速度比现有基线快几个数量级。所提出的方法的性能在几个数据集上得到证明,包括在十亿维空间中包含十亿个向量的超大规模工业数据集,实现超过10倍的加速和更高的竞争基线准确度。
translated by 谷歌翻译
我们引入了计算机和机器人视觉的新挑战,第一个ACRVR机器人视觉挑战,概率物体检测。概率物体检测是传统物体检测任务的一种新变种,是对空间和语义不确定性的必然考虑。我们扩展了对象检测的传统边界框格式,以使用盒角的高斯分布来表达空间不确定性。挑战引入了一个新的视频序列测试数据集,旨在更加类似于机器人系统可用的数据。我们使用新的基于概率的检测质量(PDQ)测量来评估概率检测。创造这一挑战的目的是将计算机和机器人视觉社区结合起来,为实际的机器人应用应用物体检测解决方案。
translated by 谷歌翻译
训练和测试领域之间的差异是机器学习技术概括的一个基本问题。最近,已经提出了几种通过深度学习来学习域不变特征表示的方法。然而,标签转移,其中每个类在域之间的数据百分比不同,受到的关注较少。 Labelshift自然会在许多情况下出现,特别是在行为自由选择的行为研究中。在这项工作中,我们提出了一种称为目标转移的域对手网(DATS)的方法,以解决标签转移,同时学习域不变表示。这是通过使用分布匹配来估计盲测试集中的标签比例来实现的。我们通过开发最类似于目标域的方案toupweight源域来扩展此框架以处理多个域。实证结果表明,该框架在合成和实验实验中的大标签转换下表现良好,证明了实际的重要性。
translated by 谷歌翻译
受过训练以在固定环境中执行任务的机器人在由于缺乏探索而面临环境的意外变化时经常会失败。我们提出了一种原则性的方法来调整策略以便在稀疏奖励环境中进行更好的探索。与以前明确模拟环境变化的工作不同,我们分析了价值函数与高斯参数化政策的最优探索之间的关系,并表明我们的理论导致了一种有效的策略来调整政策的方差,使得​​能够快速适应各种变化。稀疏rewardenvironments。
translated by 谷歌翻译
使用X射线检查的行李检查系统对于安全至关重要。在人体检查中,只有90%的威胁物体可以通过X射线系统识别。由于图像复杂性和挑战对象的观点,手动检测需要高浓度。本文提出了一种基于Bagof Visual Word(BoVW)和选择性搜索的算法,用于从公共GDXraydatabase进行单能X射线图像的手枪检测。这种方法是BoVW对X射线行李图像的改编。为了评估所提出的方法,在200个图像中的选择性搜索算法返回的所有边界框上测试了算法有效性识别。最相关的结果是精确度和真实阳性率(PPV = 80%,TPR = 92%)。这种方法实现了手枪识别的良好性能。此外,这是第一次选择性搜索定位算法在行李X射线图像中进行测试,并显示出Bag of Visual Words的可能性。
translated by 谷歌翻译
在本文中,我们通过利用卷积神经网络(CNN)的高能力来解决自动抄表(AMR)问题。我们设计了一个两阶段方法,它采用Fast-YOLO物体探测器进行计数器检测,并评估三种不同的基于CNN的计数器识别方法。在AMR文献中,由于图像属于服务公司,因此大多数数据集不可用于研究社区。从这个意义上讲,我们引入了一个名为UFPR-AMR数据集的新公共数据集,其中包含2,000个完全和手动注释的图像。据我们所知,该数据集比文献中发现的最大公共数据集大三倍,并且包含一个定义的评估协议,以协助开发和评估AMR方法。此外,我们建议使用数据增强技术生成具有更多示例的平衡训练集,以训练CNN模型用于计数器识别。在提出的数据集中,获得了令人印象深刻的结果,并且对每个模型进行了详细的速度/准确度权衡评估。在公共数据集中,使用少于200个用于训练的图像实现了最先进的结果。
translated by 谷歌翻译
最近的研究表明,强化学习(RL)代理易受对抗操纵,类似于先前在监督环境中证明的脆弱性。因此,重点仍然是计算机视觉和完全可观察性。本文侧重于软件定义网络(SDN)中自主防御环境下的强化学习。我们证明了攻击性攻击 - 针对训练过程的攻击 - 即使攻击者只能对环境进行部分可观察,也会毒害RL攻击者。此外,我们提出了一种反演防御方法,旨在将相反的扰动应用于攻击者可能用于生成其对抗样本的那种。我们的实验结果表明,对策可以有效地减少攻击性攻击的影响,同时不会显着影响训练过程中的无创攻击场景。
translated by 谷歌翻译