视觉检测器的域适应是一个关键挑战,但现有方法忽略了像素外观变换,而是关注引导和/或域混淆损失。我们提出了一种语义像素级适应变换(SPLAT)方法,用于检测器自适应,有效生成跨域图像对。我们的模型使用对齐对和/或假标签损失来使对象检测器适应目标域,并且可以在源中具有或不具有密集标记数据的情况下进行转换(例如,语义分段注释)。如果没有密集标签,就像在源中只有检测标签的情况那样,使用CycleGAN对齐来学习转换。否则,当密集标签可用时,我们引入了一种更有效的无循环方法,该方法利用像素级语义标签来调节转换网络的训练。然后使用来自源的检测框标签训练末端任务,可能包括在未标记的源数据上推断的标签。我们展示了像素级变换优于先前的检测器域适应方法,并且我们的无循环方法优于先前的模型,用于通用变换的无约束循环学习,同时运行速度快3.8倍。我们的组合模型改进了先前的检测基线12.5mAP,从Sim 10K改编为Cityscapes,恢复了未适应基线和标记目标上限之间缺失性能的50%以上。
translated by 谷歌翻译
对抗性学习方法是训练健壮的深度网络的有前途的方法,并且可以跨不同领域生成复杂样本。尽管存在域转移或数据集偏差,它们也提高了识别率:最近引入了几种针对无监督域适应的对抗方法,这减少了训练和测试域分布之间的差异,从而提高了泛化性能。先前的生成方法显示出引人注目的可视化,但在不受限制的任务中并不是最佳的,并且可以限制为较小的移位。先前的判别式方法可以处理更大的域移位,但是对模型施加绑定权重并且没有利用基于GAN的丢失。我们首先概述了一种用于对抗性适应的新型广义框架,其将最近的最新方法作为特殊情况包含在内,并且我们使用这种广义视图来更好地联系先前的方法。我们提出了一个以前未开发的我们的一般框架实例,它结合了判别模型,无条件权重共享和GAN损失,我们称之为Adversarial DiscriminativeDomain Adaptation(ADDA)。我们证明ADDA比竞争域对抗方法更有效但相当简单,并且通过在标准跨域数字分类任务和新的更难以跨模态的对象分类中超越最先进的无监督自适应结果来证明我们的方法的前景。任务。
translated by 谷歌翻译
最近的报告表明,在大规模数据集上训练的通用监督深度CNN模型减少但不消除数据集偏差。在新域中微调深度模型可能需要大量标记数据,这对于许多应用程序来说根本不可用。我们提出了一种新的CNN架构来利用未标记和稀疏标记的目标域数据。 Ourapproach同时优化域不变性以促进domaintransfer并使用软标签分布匹配丢失来在任务之间传输信息。我们提出的适应方法提供的经验性能超过了先前公布的两个标准基准视觉域适应任务的结果,并通过监督和半监督的适应设置进行评估。
translated by 谷歌翻译
缩放对象检测的主要挑战是难以获得大量类别的标记图像。最近,深度卷积神经网络(CNNs)已成为对象分类基准的明显赢家,部分原因在于使用1.2M +标记的分类图像进行训练。遗憾的是,这些标签中只有一小部分可用于检测任务。从搜索引擎收集大量图像级标签比收集检测数据并用精确的边界框标记它要便宜得多,也便宜得多。在本文中,我们提出了通过适应的大规模检测(LSDA),这是一种学习两个任务之间的差异的算法,并将这些知识传递给类别的分类器,没有边界框注释数据,将它们变成检测器。我们的方法有可能实现检测数以万计的类别缺少边界框注释,但有大量的分类数据。对ImageNet LSVRC-2013检测挑战的评估证明了我们的方法的有效性。该算法使我们能够通过使用来自ImageNet树中的叶节点的可用分类数据来产生> 7.6K检测器。我们还演示了如何修改我们的架构以生成快速检测器(7.6K检测器以2fps运行)。模型和软件可在
translated by 谷歌翻译
我们评估从以完全监督的方式训练的深度卷积网络的激活中提取的特征是否可以重新用于新的通用任务。我们的通用任务可能与最初训练的任务显着不同,并且可能没有足够的标记或未标记的数据来传统地训练深度架构到新任务。我们研究和可视化深度卷积特征的语义聚类,涉及各种任务,包括场景识别,领域适应和细粒度识别挑战。我们比较依靠各种网络级别定义固定特征的功效,并报告在几个重要视觉挑战中显着优于最新技术的新颖结果。我们正在发布DeCAF,这是一种开源实现的这些深度卷积激活功能,以及所有相关的网络参数,使视觉研究人员能够在一系列视觉概念学习范例中进行深度表达的实验。
translated by 谷歌翻译
机器学习正在从艺术和科学转变为可供每个开发人员使用的技术。在不久的将来,每个平台上的每个应用程序都将包含训练有素的模型,以编码开发人员无法创作的基于数据的决策。这提出了一个重要的工程挑战,因为目前数据科学和建模在很大程度上与标准软件开发过程脱钩。这种分离使得在应用程序内部的机器学习能力不必要地变得困难,并且进一步阻碍了开发人员将MLin置于首位。在本文中,我们介绍了ML .NET,这是一个在过去十年中在Microsoft开发的框架,用于应对在大型软件应用程序中轻松发布机器学习模型的挑战。我们提出了它的架构,并阐明了形成它的应用程序需求。具体而言,我们引入了DataView,它是ML .NET的核心数据抽象,它可以有效地,一致地捕获完整的预测管道,并在训练和推理生命周期中进行。我们结束了论文,对ML .NET进行了令人惊讶的有利的性能研究,与更多的接受者相比,并讨论了一些经验教训。
translated by 谷歌翻译
本文涉及在图形模型中估计模型参数。将其描述为信息几何优化问题,并引入包含额外元参数的解剖梯度下降策略。我们表明,我们的方法是图形模型中用于学习的着名EM方法的强有力替代方案。实际上,我们基于自然梯度的策略导致学习最终目标函数的最佳参数,而不是试图拟合可能与真实不对应的分布。我们支持我们的理论发现与金融市场中的趋势检测问题,并表明学习模型表现出更好的传统实践方法,并且不易过度拟合。
translated by 谷歌翻译
利用数据增强进行神经网络训练的一个关键挑战是从候选操作的大型搜索空间中选择有效的增强策略。适当选择的增强政策可以带来显着的泛化改进;然而,对于普通用户来说,最先进的方法如AutoAugment在计算上是不可行的。在本文中,我们引入了一种新的数据增强算法,即基于种群的增强(PBA),它生成非平稳增强策略,而不是固定的增强策略。我们证明了PBA可以与CIFAR-10,CIFAR-100和SVHN上的AutoAugment的性能相匹配,总体计算量减少了三个数量级。在CIFAR-10上,我们实现了1.46%的平均测试误差,这是对当前最先进技术的一点点改进。 PBA的代码是开源的,可以通过以下网址获得://github.com/arcelien/pba。
translated by 谷歌翻译
虽然目前的通用游戏(GGP)系统促进了用于游戏的人工智能(AI)的有用研究,但它们通常是特定的,并且计算效率低。在本文中,我们描述了一个名为Ludii的“ludemic”通用游戏系统的初始版本,该系统具有为AI研究人员以及相关领域的游戏设计师,历史学家,教育工作者和从业者提供有效工具的潜力。 Ludiidefines游戏作为ludemes的结构,即高级,易于理解的游戏概念。我们通过概述其主要优点来建立Ludii的基础:通用性,可扩展性,可理解性和效率。实验上,Ludii优于Tiltyard GGP存储库中所有可用游戏的基于命题网络的最有效的Game DescriptionLanguage(GDL)reasoners之一。
translated by 谷歌翻译
模块化子系统的组件正在投入使用,以便在交通,医疗保健和工业自动化等高风险,时间关键任务中执行传感,推理和决策。我们通过使用强化学习来指导组成系统的一组交互模块的配置,从而增加了整体计算系统效用的机会。在全系统范围内进行优化的挑战是一个组合问题。通过修改其配置来提高特定模块性能的本地尝试通常会导致系统性能的整体效用损失,因为下游模块的输入分布急剧变化。我们提出了metareasoning技术,它考虑了输入的丰富表示,监视整个管道的状态,并在运行中调整模块的配置,以最大化系统操作的效用。我们通过各种强化学习技术在现实世界和合成管道中显示出显着的改进。
translated by 谷歌翻译