Continual Learning, also known as Lifelong or Incremental Learning, has recently gained renewed interest among the Artificial Intelligence research community. Recent research efforts have quickly led to the design of novel algorithms able to reduce the impact of the catastrophic forgetting phenomenon in deep neural networks. Due to this surge of interest in the field, many competitions have been held in recent years, as they are an excellent opportunity to stimulate research in promising directions. This paper summarizes the ideas, design choices, rules, and results of the challenge held at the 3rd Continual Learning in Computer Vision (CLVision) Workshop at CVPR 2022. The focus of this competition is the complex continual object detection task, which is still underexplored in literature compared to classification tasks. The challenge is based on the challenge version of the novel EgoObjects dataset, a large-scale egocentric object dataset explicitly designed to benchmark continual learning algorithms for egocentric category-/instance-level object understanding, which covers more than 1k unique main objects and 250+ categories in around 100k video frames.
translated by 谷歌翻译
这项研究提供了一个新颖的框架,以根据开源数据估算全球城市的公共交通巴士的经济,环境和社会价值。电动巴士是替代柴油巴士以获得环境和社会利益的引人注目的候选人。但是,评估总线电气化价值的最先进模型的适用性受到限制,因为它们需要可能难以购买的总线运营数据的细粒和定制数据。我们的估值工具使用通用过境饲料规范,这是全球运输机构使用的标准数据格式,为制定优先级排序策略提供了高级指导,以使总线机队电气化。我们开发了物理知识的机器学习模型,以评估每种运输途径的能耗,碳排放,健康影响以及总拥有成本。我们通过对大波士顿和米兰大都会地区的公交线路进行案例研究来证明我们的工具的可扩展性。
translated by 谷歌翻译
神经网络的一种众所周知的故障模式对应于高置信度错误的预测,尤其是对于训练分布有所不同的数据。这种不安全的行为限制了其适用性。为此,我们表明可以通过在其内部表示中添加约束来定义提供准确置信度的模型。也就是说,我们将类标签编码为固定的唯一二进制向量或类代码,并使用这些标签来在整个模型中强制执行依赖类的激活模式。结果预测因子被称为总激活分类器(TAC),而TAC用作基础分类器的附加组件,以指示预测的可靠性。给定数据实例,TAC切片中间表示分为不相交集,并将此类切片减少到标量中,从而产生激活曲线。在培训期间,将激活轮廓推向分配给给定培训实例的代码。在测试时,可以预测与最匹配示例激活曲线的代码相对应的类。从经验上讲,我们观察到激活模式及其相应代码之间的相似之处导致一种廉价的无监督方法来诱导歧视性置信度得分。也就是说,我们表明TAC至少与从现有模型中提取的最新置信度得分一样好,同时严格改善了模型在拒绝设置上的价值。还观察到TAC在多种类型的架构和数据模式上都很好地工作。
translated by 谷歌翻译
当代人工神经网络(ANN)是经过训练的端到端,共同学习功能和分类器以完成感兴趣的任务。尽管非常有效,但这种范式在组装带注释的特定任务数据集和培训大规模网络方面施加了巨大的成本。我们建议通过引入视觉生物标志物分类的辅助预任务来将特征从下游肺超声任务中学习。我们证明,通过培训模型来预测生物标记标签,可以从超声视频中学习一个内容丰富,简洁和可解释的功能空间。值得注意的是,可以从弱视频尺度监督注释的数据中培训生物标志物功能提取器。这些功能可以由针对各种临床任务的各种下游专家模型(诊断,肺严重程度,S/F比)使用。至关重要的是,特定于任务的专家模型的准确性与直接训练此类目标任务的端到端模型相当,同时训练成本大大降低。
translated by 谷歌翻译
在本文中,我们探讨了基于GAN的少量数据增强用作改善少量分类性能的方法。我们对如何对这样的任务进行微调(其中一项是以课堂开采方式)进行微调的探索,以及对这些模型如何在改善几次分类的情况下进行严格的经验研究。我们确定了与纯粹有监督的制度训练此类生成模型的困难有关的问题,几乎没有例子,以及有关现有作品的评估协议的问题。我们还发现,在这种制度中,分类精度对数据集的类别随机分配方式高度敏感。因此,我们提出了一种半监督的微调方法,作为解决这些问题的更务实的方向。
translated by 谷歌翻译
最近的自我监督进展表明,预先训练大量无监督数据的大型神经网络可能导致下游任务的概括令人印象深刻。这些模型最近被作为基础模型,一直转变为自然语言处理领域。虽然类似的模型也在大型图像的核心训练中,但它们不适合遥感数据。为刺激地球监测基础模型的发展,我们建议开发由与气候变化相关的各种下游任务组成的新基准。我们认为,这可能导致许多现有应用程序的大量改进,并促进新应用的发展。该提案还可以提出合作,并提出更好的评估过程,以减轻地球监测的基础模型的潜在缺陷。
translated by 谷歌翻译
从大型预训练模型转移学习对于许多计算机视觉任务来说都是至关重要的。最近的研究表明,由于存在存在的多个对象类的图像被分配单个标签,所以类似于想象成的数据集弱标记。这种模糊的偏置模型朝向单一预测,这可能导致抑制数据中倾向于共同发生的类。灵感来自语言出现文学,我们提出了多标签迭代学习(英里)来利用迭代学习框架从单个标签中融入多标签学习的归纳偏见。英里是一种简单而有效的过程,通过通过与学习瓶颈的连续几代教师和学生网络传播二进制预测来构建图像的多标签描述。实验表明,我们的方法对Imagenet的准确性以及真正的F1分数表现出系统的益处,这表明英里与标签歧义更好地优于标准训练程序,即使在自我监督权重的微调时也会比标准训练程序更好。我们还表明英里有效地减少标签噪音,实现了最先进的性能,如WebVision等现实大规模嘈杂的数据。此外,英里提高了类增量设置中的性能,例如IIRC,它是强大的分发班次。代码:https://github.com/rajeswar18/mile.
translated by 谷歌翻译
标记数据通常昂贵且耗时,特别是对于诸如对象检测和实例分割之类的任务,这需要对图像的密集标签进行密集的标签。虽然几张拍摄对象检测是关于培训小说中的模型(看不见的)对象类具有很少的数据,但它仍然需要在许多标记的基础(见)类的课程上进行训练。另一方面,自我监督的方法旨在从未标记数据学习的学习表示,该数据转移到诸如物体检测的下游任务。结合几次射击和自我监督的物体检测是一个有前途的研究方向。在本调查中,我们审查并表征了几次射击和自我监督对象检测的最新方法。然后,我们给我们的主要外卖,并讨论未来的研究方向。https://gabrielhuang.github.io/fsod-survey/的项目页面
translated by 谷歌翻译
鉴于部署更可靠的机器学习系统的重要性,研究界内的机器学习模型的解释性得到了相当大的关注。在计算机视觉应用中,生成反事实方法表示如何扰乱模型的输入来改变其预测,提供有关模型决策的详细信息。目前的方法倾向于产生关于模型决策的琐碎的反事实,因为它们通常建议夸大或消除所分类的属性的存在。对于机器学习从业者,这些类型的反事件提供了很少的价值,因为它们没有提供有关不期望的模型或数据偏差的新信息。在这项工作中,我们确定了琐碎的反事实生成问题,我们建议潜水以缓解它。潜水在使用多样性强制损失限制的解除印章潜在空间中学习扰动,以发现关于模型预测的多个有价值的解释。此外,我们介绍一种机制,以防止模型产生微不足道的解释。 Celeba和Synbols的实验表明,与先前的最先进的方法相比,我们的模型提高了生产高质量有价值解释的成功率。代码可在https://github.com/elementai/beyond- trial-explanations获得。
translated by 谷歌翻译
What is a good vector representation of an object? We believe that it should be generative in 3D, in the sense that it can produce new 3D objects; as well as be predictable from 2D, in the sense that it can be perceived from 2D images. We propose a novel architecture, called the TL-embedding network, to learn an embedding space with these properties. The network consists of two components: (a) an autoencoder that ensures the representation is generative; and (b) a convolutional network that ensures the representation is predictable. This enables tackling a number of tasks including voxel prediction from 2D images and 3D model retrieval. Extensive experimental analysis demonstrates the usefulness and versatility of this embedding.
translated by 谷歌翻译