使用交通摄像头作为传感器的城市交通优化正在推动最先进的多目标多摄像机(MTMC)跟踪。这项工作介绍了CityFlow,一个城市规模的交通摄像机数据集,包含超过3小时的同步40个摄像头的10个交叉点的高清视频,两个同步摄像头之间的最长距离为2.5公里。据我们所知,CityFlow是空间覆盖范围内最大规模的数据集内容,以及城市环境中的摄像机/视频数量。该数据集包含超过200K个带注释的边界框,可以覆盖各种场景,视角,车辆模型和urbantraffic流动条件。提供相机几何和校准信息以帮助进行时空分析。此外,该基准的子集可用于基于图像的车辆识别(ReID)的任务。我们对MT2跟踪,多目标单摄像机(MTSC)跟踪,对象检测以及基于图像的ReID在此数据集上进行了基线/最先进方法的广泛实验评估,分析了不同网络架构的影响,损失函数,时空模型及其在任务有效性方面的组合。评估服务器在2019AI城市挑战赛(https://www.aicitychallenge.org/)上发布我们的基准测试,允许研究人员对他们最新技术的表现进行比较。我们希望这个数据集可以催化该领域的研究,推动最先进的技术发展,并在现实世界中实现部署的流量优化。
translated by 谷歌翻译
为了解决深度生成模型学习中的挑战(例如,变分自动编码器的瑕疵和训练生成对抗网络的不稳定性,我们提出了一种新的深度生成模型,名为Wasserstein-Wasserstein自动编码器(WWAE)。我们制定了WWAE的最小化目标分布和生成的分布之间的惩罚最佳传输。通过注意到潜在代码Z的先前$ P_Z $和聚合后验$ Q_Z $可以被高斯人很好地捕获,所提出的WWAE利用方形的Wasserstein的封闭形式 - 因此,WWAE不会受到采样负担的影响,并且通过利用重新参数化技巧在计算上是有效的。数值结果在多个基准数据集上进行了评估,包括MNIST,时尚-MNIST和CelebA表明WWAE学习得更好。结构比VAE和生成更好的视觉质量和更高的样本r FID得分超过VAE和GAN。
translated by 谷歌翻译
本文描述了针对机器翻译(MT),实体发现和链接(EDL)以及文本和语音中的情景帧(SF文本和语音)的检测的低资源人类语言技术(LoReHLT)2018评估的ARIEL-CMU提交。
translated by 谷歌翻译
最近最流行的跟踪框架专注于2D图像序列。它们很少跟踪点云中的3D对象。在本文中,我们提出了一种基于三维道路实例分割的快速,简单的跟踪方法PointIT。首先,我们将3D LiDAR数据转换为尺寸为64 x 512 x 4的球形图像,并将其转换为实例分段模型。获取每个类的预测实例掩码。然后我们使用MobileNet作为我们的主要编码器,而不是原始的ResNet,以降低计算复杂性。最后,我们使用此实例框架扩展Sort算法,以实现3D LiDAR点云数据的跟踪。该模型在球形图像数据集上训练,具有由KITTI3D对象轨道数据集提供的相应实例标签掩模。根据实验结果,我们的网络可以达到0.617的平均精度(AP),并且还提高了多跟踪任务的性能。
translated by 谷歌翻译
对抗性攻击下神经网络的脆弱性引发了严重的关注和广泛的研究。最近的研究表明,模型鲁棒性依赖于鲁棒特征的使用,即与标签强相关的特征,并且数据维度和分布影响鲁棒特征的学习。另一方面,实验表明,对抗对抗性攻击的人类视觉对于自然输入变换是不变的。借鉴这些研究结果,本文研究了转换不变性的约束,包括图像裁剪,旋转和缩放,是否会迫使图像分类器学习和使用鲁棒特征,从而获得更好的鲁棒性。对MNIST和CIFAR10的实验表明,单独的变换不变性效果有限。尽管如此,对裁剪不变攻击进行对等训练的模型尤其可以(1)提取更强大的特征,(2)具有比来自对抗训练的最先进模型更好的鲁棒性,以及(3)需要不正确的数据。
translated by 谷歌翻译
我们提出了一种称为广义递归推理(GR2)的新推理协议,并将其嵌入到多智能体强化学习(MARL)框架中。 GR2模型定义了推理类别:level- $ 0 $ agent随机行为,而level-$ k $ agent对分布在$ 0 $到$ k-1 $之间的混合类型的代理采取最佳响应。 GR2学习者可以考虑到有限理性,并且不需要假设多代理在所有阶段游戏中都使用Nash策略,这是许多MARL算法所需要的。我们证明,当$ k $水平较大时,GR2学习者将收敛到至少一个纳什均衡(NE)。此外,如果较低级别的代理人玩NE,那么高级代理也一定会跟随。我们在一系列游戏和高维环境中评估GR2 Soft Actor-Critic算法;结果表明,GR2方法比强MARL基线具有更快的收敛速度。
translated by 谷歌翻译
在本文中,我们提出了一种新方法来解决地震勘探领域中从时间序列数据到空间图像的映射挑战,即通过深度神经网络(DNN)直接从地震数据重建速度模型。解决这种不适定的地震反演问题的传统方法是通过迭代算法,其具有poornonlinear映射和强非唯一性。其他尝试可能导致人为干预错误或未充分利用地震数据。 DNNs面临的挑战主要在于弱空间对应,地震数据与速度模型之间不确定的反射 - 接收关系以及地震数据的时变性质。为了应对这些挑战,我们提出了一个端到端的地震反演网络(SeisInvNet forshort),它具有新颖的组件,可以最好地利用所有地震数据。具体来说,我们从每个地震道开始,并通过其邻居信息,观测设置对其进行增强。和相应的地震剖面的全球背景。然后,通过增强的地震道,可以学习空间对齐的特征图,并进一步连接到重建速度模型。总的来说,我们通过寻找空间对应性,让每个地震轨迹都有助于构建整个速度模型。所提出的SeisInvNet一致地在基线上产生改进,并根据各种评估指标在我们提出的SeisInv数据集上实现了有希望的性能,并且反演结果更加一致从速度值,地下结构和地质界面等方面得出目标。除了优越的性能外,还仔细讨论了该机制,并确定了一些潜在的问题以供进一步研究。
translated by 谷歌翻译
在本文中,我们提出了一个统一的框架,用于同时发现群集的数量,并使用子空间聚类将数据点分组到它们中。分布在高维空间中的真实数据可以被解耦为低维子空间的并集,这可以有益于各种应用。为了探索这种内在结构,现有技术的子空间聚类方法通常优化所有样本中的自我表示问题,以构建用于光谱聚类的成对关联图。然而,具有成对相似性的图形缺乏稳健性,尤其是对于位于两个子空间交叉点的样本。为了解决这个问题,我们设计了一个基于超相关的数据结构,称为\ textit {三联体关系},它揭示了三个样本之间的高度相关性和局部紧致性。三元组关系可以从自表示矩阵导出,并且可以用于将数据点分配给聚类。鼓励每个三元组中的三个样本高度相关并且被认为是元元素集群,其在分割两个密集分布的子空间时表现出比成对关系更强的鲁棒性。基于三重关系,我们提出了一种统一的优化方案来自动计算聚类分配。具体而言,我们通过同时最大化来自不同聚类的三元组的相似性同时最小化来自相同聚类的三元组的相关性来优化模型选择奖励和聚变奖励。所提出的算法还自动显示群集和融合群的数量,以避免过度分割。对合成数据集和现实数据集的广泛实验结果验证了所提方法的有效性和鲁棒性。
translated by 谷歌翻译
识别行人属性是计算机视觉社区的一项重要任务,因为它在视频监控中发挥着重要作用。已经提出Manyalgorithms来处理该任务。本文的目的是使用传统方法或基于深度学习网络来回顾现有作品。首先,我们介绍了行人属性识别的背景(简称PAR),包括行人属性的基本概念和相应的挑战。其次,我们介绍了现有的基准,包括流行的数据集和评估标准。第三,分析了多任务学习和多标签学习的概念,并阐述了这两种学习算法与行人属性识别之间的关系。我们还回顾了一些在深度学习社区中广泛应用的流行网络架构。第四,我们分析了这个任务的流行解决方案,例如属性组,基于部分,\ emph {etc}。第五,我们展示了一些应用程序,这些应用程序考虑了行人属性并实现了更好的性能。最后,本文对本文进行了论述,并为行人属性识别提供了几个可能的研究方向。可以从以下网站找到本文的项目页面:\ url {https://sites.google.com/view/ahu-pedestrianattributes/}。
translated by 谷歌翻译
近年来,在将计算机视觉技术集成到零售业中时出现了新的兴趣。自动结账(ACO)是该领域的关键问题之一,其目的是从要购买的产品的图像自动生成购物清单。这个问题的主要挑战来自产品类别的大规模和细粒度性质以及收集培训图像的难度,这反映了由于产品的不断更新而导致的实际结账方案。尽管具有重要的实践和研究价值,但这一问题并未在计算机视觉领域得到广泛研究,主要是由于高质量数据集的缺失。为填补这一空白,我们在这项工作中提出了一个新的数据集来促进相关研究。我们的数据集具有以下特征:(1)就产品图像数量和产品类别而言,它是迄今为止最大的数据集。 (2)它包括在受控环境中拍摄的单品图像和由清理系统拍摄的多品图像。 (3)它为检出图像提供不同级别的注释。与现有数据集相比,我们的数据集更接近于设计,可以得出各种研究问题。除了数据集之外,我们还使用各种方法对此数据集的性能进行基准测试。可以在\ url {https://rpc-dataset.github.io/}找到数据集和相关资源。
translated by 谷歌翻译