由于不准确的检测和识别,自主车辆可能做出错误的决定。因此,智能车辆可以将自己的数据与其他车辆相结合,提高感知能力,从而提高检测精度和驾驶安全性。然而,多车协同感知要求现实世界场景的整合和原始传感器数据交换的流量远远超过现有车载网络的带宽。据我们所知,我们是第一个对原始数据级合作感知进行研究的人。提高自驾系统的检测能力。在这项工作中,依靠LiDAR 3D点云,我们完成了从连接车辆的不同位置和角度收集的传感器数据。提出了一种基于点云的三维物体检测方法,用于对齐点云的多样性。 KITTI和我们收集的数据集的实验结果表明,所提出的系统通过扩展感知区域优于感知,提高了检测精度并促进了增强结果。最重要的是,我们证明可以通过现有的车载网络技术传输用于协作感知的pointclouds数据。
translated by 谷歌翻译
我们研究了无监督域适应的问题,该问题旨在使在标记源域上训练的模型适应完全未标记的靶域。领域对抗训练是一种很有前途的方法,并且已成为许多最先进的无监督领域适应方法的基础。领域对抗训练的思想是通过对抗训练域分类器来对齐源域和目标域之间的特征空间。特征编码器。最近,聚类假设已经应用于无监督域适应并且实现了强大的性能。在本文中,我们提出了一种称为虚拟混合训练(VMT)的新正则化方法,它能够进一步约束聚类假设的假设.VMT的思想是通过平滑输出分布来对模型施加局部Lipschitz约束。训练样本之间的界限。与传统的混合模型不同,我们的方法构建没有标签信息的组合样本,允许它适用于受监督的域自适应。所提出的方法是通用的,并且可以使用域对抗训练与现有方法组合。我们将VMT与最近最先进的VADA模型结合起来,广泛的实验表明VMT显着提高了VADA在severaldomain自适应基准数据集上的性能。对于将MNIST适应SVHN的挑战性任务,当不使用实例规范化时,VMT将VADA的准确性提高了30%以上。当使用实例归一化时,我们的模型实现了96.4%的准确度,这非常接近于目标模型的准确度(96.5%)。代码将公开发布。
translated by 谷歌翻译
成立I4U联盟是为了促进联合进入NISTspeaker识别评估(SRE)。这种关节提交的最新版本在SRE 2018中,其中I4U提交是最佳表现系统之一。 SRE'18也标志着I4Uconsortium进入NIST SRE系列评估10周年。本文的主要目的是总结基于提交给SRE'18的各子系统及其融合的结果和经验教训。我们也有意提出一个共同观点,即我们在过去十年中从SRE'08到SRE'18见证了SRE参与者的进步,进展和主要范式转变。在这方面,除其他外,我们已经看到从超向量表示到深度说话人嵌入的范例转换,以及从信道补偿到领域适应的研究挑战的转变。
translated by 谷歌翻译
在本文中,我们建议学习具有相关对齐($ {S} ^ {3} CA $)的共模语义空间,用于多模态数据表示,其对齐为异构数据设计的深度神经网络中的多模态数据分布的非线性相关性。在跨模态(事件)检索的背景下,我们设计了一个具有卷积层和连接层的神经网络,以提取图像的特征,包括类似于Flickr的社交媒体上的图像。同时,我们利用一个完全连接的神经网络来提取文本的语义特征,包括来自新闻媒体的新闻文章。特别地,两个神经网络中的层激活的非线性相关性与网络的联合训练期间的相关对准对齐。此外,我们将多模态数据投影到用于跨模态(事件)检索的ashared语义空间,其中可以直接测量异构数据样本之间的距离。此外,我们贡献了一个Wiki-Flickr事件数据集,其中多模态数据样本不像现有的配对数据集那样成对地相互描述,但它们都描述了语义事件。在配对和非配对数据集上进行的大量实验表明$ {S} ^ {3} CA $的有效性,优于最先进的方法。
translated by 谷歌翻译
实例级人工分析在现实场景中很常见,并且具有多种表现形式,例如人体部分分割,密集姿态估计,人 - 物体交互等。模型需要区分图像面板中的不同人类实例并学习丰富的特征来表示细节。每个实例。在本文中,我们提出了一个端到端管道,用于解决实例级人工分析,名为Parsing R-CNN。它通过综合考虑基于区域的方法的特征和人的外观来同时处理一组人类实例,从而允许表示实例的细节。解析R-CNN非常灵活高效,适用于人工实例分析中的许多问题。我们的方法优于所有最先进的方法onCIHP(Crowd Instance-level Human Parsing),MHP v2.0(Multi-Human Parsing)和DensPose-COCO数据集。基于提出的解析R-CNN,我们在COCO 2018 Challenge DensePose Estimation任务中达到第1位。代码和模型是公开的。
translated by 谷歌翻译
With the broad use of face recognition, its weakness gradually emerges that it is able to be attacked. So, it is important to study how face recognition networks are subject to attacks. In this paper, we focus on a novel way to do attacks against face recognition network that misleads the network to identify someone as the target person not misclassify inconspicuously. Simultaneously, for this purpose , we introduce a specific attentional adversarial attack generative network (A 3 GN) to generate fake face images. For capturing the semantic information of the target person, this work adds a conditional variational autoencoder and attention modules to learn the instance-level correspondences between faces. Unlike traditional two-player GAN, this work introduces face recognition networks as the third player to participate in the competition between generator and discriminator which allows the attacker to impersonate the target person better. The generated faces which are hard to arouse the notice of onlookers can evade recognition by state-of-the-art networks and most of them are recognized as the target person.
translated by 谷歌翻译
在本文中,我们提出了一个新的集成框架,用于学习文本检测和识别。对于大多数现有方法,检测和识别被视为两个独立的任务并单独训练,因为检测和识别模型的参数是不同的,并且两个模型用于在个体训练过程中优化它们自己的损失函数。与这些方法相比,通过共享模型参数,我们将检测模型和识别模型合并为单个端到端可训练模型,并同时训练两个任务的联合模型。共享参数不仅有助于有效降低推理过程中的计算量,而且提高了端到端文本检测识别的准确性。另外,我们基于一系列堆叠卷积设计了一种更简单,更快速的识别网络序列学习方法。没有任何重复结构的层,这被证明是可行的并且显着地提高了推理速度。对不同数据集的大量实验表明,所提出的方法取得了非常有希望的结果。
translated by 谷歌翻译
在这项工作中,我们提出了一种图形自适应修剪(GAP)方法,用于卷积神经网络(CNN)的有效参考。在该方法中,网络被视为计算图,其中顶点表示计算节点,边表示信息流。通过拓扑分析,GAP能够适应不同的网络结构,尤其是最近的卷积模型中广泛使用的交叉连接和多路径数据流。模型可以在顶点水平和边缘水平进行自适应修剪而无需任何后处理,因此GAP可以直接获得实用的模型压缩和推理加速。而且,它不需要任何定制的计算库或硬件支持。修剪后进行Finetuning以恢复模型性能。在微调步骤中,我们采用自学知识蒸馏(KD)策略,利用原始模型的信息,通过该策略,可以充分提高优化模型的性能,而无需引入任何其他模型。实验结果表明,所提出的GAP可以实现有希望使推理更有效的结果,例如,对于CIFAR10上的ResNeXt-29,它可以获得13X模型压缩和4.3倍实际加速,并且具有准确性的边际损失。
translated by 谷歌翻译
在本文中,我们研究了中文字体合成问题,并提出了金字塔嵌入式生成对抗网络(PEGAN)来自动生成汉字图像。 PEGAN由一个发生器和onediscriminator组成。该发生器使用一个编码器 - 解码器结构构建,具有高级连接和镜像跳过连接。级联精化连接将下采样原始输入的多尺度金字塔嵌入到不同层的编码器特征映射中,并且来自编码器的多尺度特征映射连接到解码器中的相应特征映射以使镜像跳过连接。通过结合生成对偶损失,像素损失,类别丢失和感知损失,可以交替训练生成器和鉴别器来合成特征图像。为了验证我们提出的PEGAN的有效性,我们首先建立一个评估集,其中根据笔划数和使用频率选择字符,然后使用定性和定量指标来衡量我们的模型与基线方法的性能比较。实验结果证明了我们提出的模型的有效性,它显示了将小字体库自动扩展到完整模型的潜力。
translated by 谷歌翻译
搜索排名应用程序是Airbnb最大的机器学习成功故事之一。大多数初始收益都是由梯度增强的决策树模型驱动的。然而,随着时间的推移,收益趋于稳定。本文讨论了应用神经网络以试图突破该高原所做的工作。我们提出的观点并非旨在推动新建模技术的前沿。相反,我们的故事是我们发现在将神经网络应用于真实生活产品时有用的元素。深度学习对我们来说是陡峭的学习。对于开始类似旅程的其他团队,我们希望对我们的挣扎和胜利的描述将提供一些有用的指示。一路顺风!
translated by 谷歌翻译