由于不准确的检测和识别,自主车辆可能做出错误的决定。因此,智能车辆可以将自己的数据与其他车辆相结合,提高感知能力,从而提高检测精度和驾驶安全性。然而,多车协同感知要求现实世界场景的整合和原始传感器数据交换的流量远远超过现有车载网络的带宽。据我们所知,我们是第一个对原始数据级合作感知进行研究的人。提高自驾系统的检测能力。在这项工作中,依靠LiDAR 3D点云,我们完成了从连接车辆的不同位置和角度收集的传感器数据。提出了一种基于点云的三维物体检测方法,用于对齐点云的多样性。 KITTI和我们收集的数据集的实验结果表明,所提出的系统通过扩展感知区域优于感知,提高了检测精度并促进了增强结果。最重要的是,我们证明可以通过现有的车载网络技术传输用于协作感知的pointclouds数据。
translated by 谷歌翻译
在线图像散列最近受到越来越多的研究关注,其以流方式接收大规模数据以即时更新散列函数。其主要挑战在于难以平衡学习时效性和模型准确性。为此,大多数工作都利用了监督设置,即使用类标签来提高散列性能,这在两个方面存在缺陷:首先,需要大量的训练批次来学习最新的散列函数,然而这大大增加了学习复杂。其次,使用强约束,例如正交或相似保持,然而这些约束通常是放松的并且导致大的精度下降。为了应对上述挑战,本文提出了一种名为Hadamard Matrix Guided Online Hashing(HMOH)的小型监督在线哈希方案。我们的关键创新在于哈达马尔矩阵的构造和使用,这是一种正交二进制矩阵,是通过西尔维斯特方法构建的。为了释放强约束的需要,我们将Hadamard矩阵的每一列视为每个类标签的目标代码,其中bynature满足散列代码的几个所需属性。为了加速在线训练,首先采用LSH来对齐目标代码的长度和待学习的二进制代码。然后,我们将哈希函数的学习视为一组二进制分类问题,以适应指定的目标代码。最后,我们建议在所有轮次中集成学习模型,以最大限度地保留过去流数据的信息。通过对三种广泛使用的数据集进行深入的实验,与各种最先进的方法进行比较,证明了所提方法的优越性和效率。
translated by 谷歌翻译
Automatic character generation is an appealing solution for new typeface design, especially for Chinese type-faces including over 3700 most commonly-used characters. This task has two main pain points: (i) handwritten characters are usually associated with thin strokes of few information and complex structure which are error prone during deformation; (ii) thousands of characters with various shapes are needed to synthesize based on a few manually designed characters. To solve those issues, we propose a novel convolutional-neural-network-based model with three main techniques: collaborative stroke refinement, using col-laborative training strategy to recover the missing or broken strokes; online zoom-augmentation, taking the advantage of the content-reuse phenomenon to reduce the size of training set; and adaptive pre-deformation, standardizing and aligning the characters. The proposed model needs only 750 paired training samples; no pre-trained network, extra dataset resource or labels is needed. Experimental results show that the proposed method significantly outperforms the state-of-the-art methods under the practical restriction on handwritten font synthesis.
translated by 谷歌翻译
最近,可微分搜索方法在降低神经结构搜索的计算成本方面取得了重大进展。但是,这些方法通常报告在评估搜索的体系结构或将其传输到另一个数据集时的准确性较低。这可以说是由于搜索和评估方案中架构深度之间的巨大差距。在本文中,我们提出了一种有效的算法,它允许搜索体系结构的深度在训练过程中逐渐增长。这带来了两个问题,即更重的计算开销和更弱的搜索稳定性,我们分别使用搜索空间近似和正则化来解决这些问题。通过显着缩短搜索时间(单个GPU上约7个小时),我们的方法在proxydataset(CIFAR10或CIFAR100)和目标数据集(ImageNet)上实现了最先进的性能。代码可在https://github.com/chenxin061/pdarts获得。
translated by 谷歌翻译
最近使用骨架数据进行动作识别在计算机视觉中引起了很多关注以前的研究主要基于固定的骨架图,仅捕获关节之间的局部物理依赖性,这可能会错误地显示关节相关性。为了捕获更丰富的依赖关系,我们引入了称为A链接推理模块的编码器 - 解码器结构,以捕获特定于行动的特定潜在依赖关系,即动作链接,直接构造。我们还扩展现有的骨架图以表示高阶依赖性,即结构链接。将这两种类型的链接组合成时间化的骨架图,我们进一步提出了动作 - 结构图卷积网络(AS-GCN),它将动作 - 结构图卷积和时间卷积作为基本构建块进行叠加,以学习动作识别的空间和时间特征。 。将未来的姿势预测头与识别头并行添加,以通过自我监督来帮助捕获更详细的行为模式。我们使用两个骨架数据集NTU-RGB + D和Kinetics在动作识别中验证AS-GCN。与最先进的方法相比,所提出的AS-GCN实现了持续的大的改进。作为副产品,AS-GCN也为未来的姿势预测展示了有希望的结果。
translated by 谷歌翻译
Keskar等人在经验上证实了\ cite {SharpMinima},flatterminima概括得更好。然而,对于流行的ReLU网络,锐利的最小化也可以很好地概括{引用{SharpMinimacan}。结论表明,现有的平坦度定义未能解释ReLU神经网络的复杂几何,因为它们无法覆盖ReLU网络的PositivelyScale-Invariant(PSI)属性。在本文中,我们正式确定了PSI引起平面度现有定义的问题,并提出了平面度的新描述 - \ emph {PSI-flatness}。 PSI平坦度定义在基础路径的值上,而不是权重{GSGD}。基础路径的值已经显示为PSI变量,并且可以充分代表确保PSI平坦度的PSI属性的ReLUneural网络。然后,我们在理论上从理论上研究了PSI平坦性与泛化之间的关系。首先,我们基于PSI-平坦度制定了一个泛化界,其中泛化误差随着最大基础路径值和最小基础路径值之间的比率而减小。也就是说,基线路径的平衡值的最小值更可能更平坦并且更好地概括。最后。我们在两个学习模型中可视化PSI-损失平坦度,这表明PSI平坦度较小的最小值确实可以更好地推广。
translated by 谷歌翻译
本文提出了一种新的无监督域自适应框架,称为协同图像和特征自适应(SIFA),以有效地解决域移位的问题。在最近的深度学习研究中,领域适应已经成为一个重要的热点,目的是在将神经网络应用于新的测试领域时恢复性能退化。我们提出的SIFA是一个优雅的学习图表,它从图像和特征的角度展示了协同融合的适应性。特别是,同时转换跨域的图像外观并增强提取的特征对于分割任务的域不变性。两个视角共享特征编码器层,以便在端到端学习过程中掌握它们的相互利益。在不使用目标域的任何注释的情况下,我们的统一模型的学习是由对抗性损失引导的,并且从各个方面采用了多个鉴别器。我们已经通过对心脏结构的模态医学图像分割的挑战性应用广泛地验证了我们的方法。实验结果表明,我们的SIFA模型将性能从17.2%恢复到73.0%,并且通过显着的优势超越了最先进的方法。
translated by 谷歌翻译
深度神经网络(DNN)在各种医学图像分析任务中取得了巨大成功。然而,这些成就必不可少地依赖于精确注释的数据集。如果使用带噪声标记的图像,训练过程将立即遇到困难,导致非理想的分类器。考虑到注释质量需要很多专业知识,这个问题在医学领域更为重要。在本文中,我们提出了一个有效的迭代学习框架,用于噪声标记的医学图像分类,以对抗缺乏高质量的注释医学数据。具体地,提出了一种在线不确定性样本挖掘方法,以消除噪声标记图像的干扰。接下来,我们设计一个样本加权策略,以保留正确标记的硬样本的有用性。我们提出的方法在皮肤病变分类任务上得到验证,取得了很好的效果。
translated by 谷歌翻译
在这项工作中,我们报告了结合IEEE国际生物医学成像研讨会(ISBI)2016和国际医学影像计算机辅助干预会议(MICCAI)2017年组织的肝肿瘤分割基准(LITS)的设置和结果。将24种有效的最先进的肝脏和肝脏肿瘤分段算法应用于一组131个计算机断层扫描(CT)体积,具有不同类型的肿瘤对比度水平(高强度/低强度),组织异常(转移瘤)大小和不同程度的病变。已提交的算法已在70个未公开的卷上进行了测试。该数据集是与七家医院和研究机构合作创建的,由三位独立的放射科医师手动审查。我们发现没有一种算法对肝脏和肿瘤表现最佳。最佳肝脏分割算法的Dice评分为0.96(MICCAI),而对于肿瘤分割,最佳算法评估为0.67(ISBI)和0.70(MICCAI)。 LITS图像数据和手动注释继续通过在线评估系统公开提供,作为持续的基准测试资源。
translated by 谷歌翻译
我们研究了线性二次调节器的生成对抗模仿学习的全局收敛性,它被认为是极小极大优化。针对非凸凹几何所带来的挑战,我们分析了交替梯度算法,并将其Q-线性收敛速度建立到一个独特的鞍点,同时恢复了全局最优策略和奖励函数。我们希望我们的结果可以作为一个小小的理解和驯服模仿学习中的不稳定性,以及更强大的非凸凹交替极小极大优化,从强化学习和生成对抗性学习。
translated by 谷歌翻译