Recently, unsupervised learning has made impressive progress on various tasks. Despite the dominance of discriminative models, increasing attention is drawn to representations learned by generative models and in particular, Generative Adversarial Networks (GANs). Previous works on the interpretation of GANs reveal that GANs encode semantics in feature maps in a linearly separable form. In this work, we further find that GAN's features can be well clustered with the linear separability assumption. We propose a novel clustering algorithm, named KLiSH, which leverages the linear separability to cluster GAN's features. KLiSH succeeds in extracting fine-grained semantics of GANs trained on datasets of various objects, e.g., car, portrait, animals, and so on. With KLiSH, we can sample images from GANs along with their segmentation masks and synthesize paired image-segmentation datasets. Using the synthesized datasets, we enable two downstream applications. First, we train semantic segmentation networks on these datasets and test them on real images, realizing unsupervised semantic segmentation. Second, we train image-to-image translation networks on the synthesized datasets, enabling semantic-conditional image synthesis without human annotations.
translated by 谷歌翻译
Reference-based image super-resolution (RefSR) is a promising SR branch and has shown great potential in overcoming the limitations of single image super-resolution. While previous state-of-the-art RefSR methods mainly focus on improving the efficacy and robustness of reference feature transfer, it is generally overlooked that a well reconstructed SR image should enable better SR reconstruction for its similar LR images when it is referred to as. Therefore, in this work, we propose a reciprocal learning framework that can appropriately leverage such a fact to reinforce the learning of a RefSR network. Besides, we deliberately design a progressive feature alignment and selection module for further improving the RefSR task. The newly proposed module aligns reference-input images at multi-scale feature spaces and performs reference-aware feature selection in a progressive manner, thus more precise reference features can be transferred into the input features and the network capability is enhanced. Our reciprocal learning paradigm is model-agnostic and it can be applied to arbitrary RefSR models. We empirically show that multiple recent state-of-the-art RefSR models can be consistently improved with our reciprocal learning paradigm. Furthermore, our proposed model together with the reciprocal learning strategy sets new state-of-the-art performances on multiple benchmarks.
translated by 谷歌翻译
图像目标导航是一项具有挑战性的任务,因为它要求代理必须导航到以前看不见的场景中图像指示的目标。当前方法介绍了各种存储机制,这些记忆机制可以保存导航历史记录以解决此任务。但是,这些方法使用内存中的所有观察值来生成导航操作,而无需考虑该内存的哪一部分是有益的。为了解决这一限制,我们提出了Memonav,这是一种用于图像目标导航的新型内存机制,该机制保留了代理商的短期记忆和长期记忆,以改善多进球任务上的导航性能。代理拓扑图上的节点功能存储在短期内存中,因为这些功能已动态更新。为了帮助短期记忆,我们还通过通过图形注意模块连续汇总短期内存来生成长期记忆。 MEMONAV通过基于变压器解码器的遗忘模块保留短期内存的信息部分,然后将此保留的短期内存和长期内存结合到工作内存中。最后,代理使用工作内存进行动作生成。我们在新的多进球导航数据集上评估了我们的模型。实验结果表明,MEMONAV的表现优于SOTA方法,而导航历史悠久的比例较小。从经验上看,结果还表明,我们的模型不太可能被困在僵局中,这进一步验证了Memonav通过减少冗余步骤来提高代理商的导航效率。
translated by 谷歌翻译
在计算机视觉中,微调是利用预训练的视觉模型来执行下游任务的事实上的方法。但是,由于采用参数效率低下的全局更新并严重依赖于高质量的下游数据,因此在实践中部署它是非常具有挑战性的。最近,基于及时的学习添加了与任务相关的提示,以使下游任务适应预训练的模型,从而极大地提高了许多自然语言下游任务的性能。在这项工作中,我们扩展了这种显着的转移能力,从迅速的愿景模型中受益,以替代微调。为此,我们提出了参数有效的及时调整(亲调整),以使冷冻视觉模型适应各种下游视觉任务。实行调整的关键是基于及时的调整,即学习特定于任务的视觉提示,以使用预先训练的模型冷冻的下游输入图像。通过仅培训一些其他参数,它可以在基于CNN和基于变压器的各种架构上工作。广泛的实验证据表明,在广泛的视觉任务和场景中,主张表现优于微调,包括图像分类(通用对象,类失衡,图像腐败,对抗性稳定性和分布范围内的概括)和密集的预测任务例如对象检测和语义分割。
translated by 谷歌翻译
由于缺乏深度,从单眼图像估算物体的准确3D位置是一个具有挑战性的问题。先前的工作表明,利用对象的关键点投影约束来估计多个深度候选者可以提高检测性能。但是,现有方法只能利用垂直边缘作为深度估计的投影约束。因此,这些方法仅使用少量投影约束并产生不足的深度候选物,从而导致深度估计不准确。在本文中,我们提出了一种利用任何方向边缘的密集投影约束的方法。这样,我们采用更多的投影限制并产生相当大的候选者。此外,我们提出一个匹配的加权模块,以合并深度候选。提出的方法DCD(密集约束的检测器)在KITTI和WOD基准测试中实现了最新的性能。代码在https://github.com/bravegroup/dcd上发布。
translated by 谷歌翻译
随着LIDAR的感知范围的增加,基于激光雷达的3D对象检测成为自主驾驶的长期感知任务中的主要任务。主流3D对象检测器通常在网络骨干和预测头上构建密集的特征图。但是,密集特征图上的计算和空间成本与感知范围是二次的,这几乎无法扩展到远程设置。为了启用有效的基于远程激光痛的对象检测,我们构建了一个完全稀疏的3D对象检测器(FSD)。 FSD的计算和空间成本大致是线性的,与感知范围无关。 FSD建立在一般的稀疏体素编码器和新颖的稀疏实例识别(SIR)模块上。爵士第一将点分组为实例,然后应用实例的特征提取和预测。这样,爵士解决了中心功能缺失的问题,这阻碍了所有基于中心或基于锚的探测器的完全稀疏体系结构的设计。此外,SIR通过将点分组为实例,避免了以前基于点的方法中耗时的邻居查询。我们在大规模Waymo开放数据集上进行了广泛的实验,以揭示FSD的工作机制,并报告了最新的性能。为了证明FSD在远程检测中的优势,我们还对Argoverse 2数据集进行了实验,该数据集的感知范围(2亿美元)比Waymo Open DataSet(7500万美元)更大。在如此庞大的感知范围内,FSD实现了最先进的性能,并且比密集对应物快2.4 $ \ times $ $。编号将在https://github.com/tusimple/sst上发布。
translated by 谷歌翻译
数百万患者患有世界各地的罕见疾病。然而,罕见疾病的样品远小于常见疾病。此外,由于医疗数据的敏感性,医院通常不愿意分享患者信息,以引用隐私问题的数据融合。这些挑战使传统的AI模型难以提取疾病预测目的的稀有疾病特征。在本文中,我们通过提出基于联邦荟萃学习的稀有疾病预测的新方法来克服这种限制。为了提高稀有疾病的预测准确性,我们设计了一种基于关注的元学习(ATML)方法,根据基础学习者的测量培训效果,动态调整对不同任务的关注。另外,提出了一种基于动态权重的融合策略,以进一步提高联合学习的准确性,这基于每个本地模型的准确性动态选择客户端。实验表明,随着五次镜头,我们的方法以准确性和速度为原始联合元学习算法进行了出差。与每个医院的本地模型相比,所提出的模型的平均预测精度增加了13.28%。
translated by 谷歌翻译
在基于LIDAR的自主驱动的基于LIDAR的3D对象检测中,与2D检测情况相比,对象尺寸与输入场景尺寸的比率明显较小。俯瞰此差异,许多3D探测器直接遵循2D探测器的常见做法,即使在量化点云之后,也可以将特征映射下来。在本文中,我们首先重新思考这种多级刻板印象如何影响基于激光雷达的3D对象探测器。我们的实验指出,下采样操作带来了一些优势,并导致不可避免的信息损失。要解决此问题,我们提出了单程稀疏变压器(SST),以将原始分辨率从网络的开头维护。我们的方法武装变压器,我们的方法解决了单步体系结构中的接收领域不足的问题。它还与点云的稀疏合作,自然避免昂贵的计算。最终,我们的SST在大型Waymo Open DataSet上实现了最先进的结果。值得一提的是,由于单程的特征,我们的方法可以在小物体(行人)检测上实现令人兴奋的性能(83.8级)对小物体(行人)检测。代码将在https://github.com/tusimple/sst释放
translated by 谷歌翻译
以前的在线3D多对象跟踪(3DMOT)方法在与几帧的新检测无关时终止ROCKET。但是如果一个物体刚刚变暗,就像被其他物体暂时封闭或者只是从FOV暂时封闭一样,过早地终止ROCKET将导致身份切换。我们揭示了过早的轨迹终端是现代3DMOT系统中身份开关的主要原因。为了解决这个问题,我们提出了一个不朽的跟踪器,一个简单的跟踪系统,它利用轨迹预测来维护对象变暗的物体的轨迹。我们使用一个简单的卡尔曼滤波器进行轨迹预测,并在目标不可见时通过预测保留轨迹。通过这种方法,我们可以避免由过早托管终止产生的96%的车辆标识开关。如果没有任何学习的参数,我们的方法在Waymo Open DataSet测试集上的车载类别的0.0001级和竞争Mota处实现了不匹配的比率。我们的不匹配比率比任何先前发表的方法低一倍。在NUSCENes上报告了类似的结果。我们相信拟议的不朽追踪器可以为推动3DMOT的极限提供简单而强大的解决方案。我们的代码可在https://github.com/immortaltracker/immortaltracker中找到。
translated by 谷歌翻译
受益于从特定情况(源)收集的相当大的像素级注释,训练有素的语义分段模型表现得非常好,但由于大域移位而导致的新情况(目标)失败。为了缓解域间隙,先前的跨域语义分段方法始终在域对齐期间始终假设源数据和目标数据的共存。但是,在实际方案中访问源数据可能会引发隐私问题并违反知识产权。为了解决这个问题,我们专注于一个有趣和具有挑战性的跨域语义分割任务,其中仅向目标域提供训练源模型。具体地,我们提出了一种称为ATP的统一框架,其包括三种方案,即特征对准,双向教学和信息传播。首先,我们设计了课程熵最小化目标,以通过提供的源模型隐式对准目标功能与看不见的源特征。其次,除了vanilla自我训练中的正伪标签外,我们是第一个向该领域引入负伪标签的,并开发双向自我训练策略,以增强目标域中的表示学习。最后,采用信息传播方案来通过伪半监督学习进一步降低目标域内的域内差异。综合与跨城市驾驶数据集的广泛结果验证\ TextBF {ATP}产生最先进的性能,即使是需要访问源数据的方法。
translated by 谷歌翻译