AdaNet是一个基于TensorFlow的轻量级(Abadi等,2015)框架,可以自动学习高质量的集合,只需要很少的专家干预。我们的框架受到AdaNet算法的启发(Cortes等,2017),它融合了神经网络的结构作为子网的集合。我们将其设计为:(1)与现有的TensorFlow生态系统集成,(2)可提供的默认搜索空间,以便在新数据集上表现良好;(3)提供灵活的API以在可用时利用专家信息,以及(4)通过分布式CPU有效加速培训,GPU和TPU硬件。代码isopen-source,可从以下网址获得:https://github.com/tensorflow/adanet。
translated by 谷歌翻译
学习长期时空特征对于许多视频分析任务至关重要。然而,现有的视频分割方法主要依赖于静态图像分割技术,并且捕获分割的时间依赖性的方法必须依赖于预训练的光流模型,导致该问题的次优解决方案。用于探索视频分割的空间 - 时间特征的端到端顺序学习在很大程度上受限于可用视频分割数据集的规模,即,即使最大视频分割数据集也仅包含90个短视频剪辑。为了解决这个问题,我们建立了一个名为YouTube视频对象分割数据集(YouTube-VOS)的新的大规模视频对象分割数据集。我们的数据集包含3,252个YouTube视频剪辑和78个类别,包括常见对象和人类活动。这是迄今为止我们知识中最大的视频对象分割数据集,我们已经在https://youtube-vos.org上发布了它。基于该数据集,我们提出了一种新颖的序列到序列网络,以充分利用视频中的长期时空信息进行分割。我们证明我们的方法能够在我们的YouTube-VOS测试集上获得最佳结果,并且与当前最先进的方法相比,在DAVIS 2016上获得了可比较的结果。实验表明,大规模数据确实是我们模型成功的关键因素。
translated by 谷歌翻译
立体视觉技术已广泛应用于土木工程中以获取三维道路数据。立体视觉的两个重要因素是准确性和速度。然而,同时实现这两者是非常具有挑战性的,因此开发立体视觉系统的主要目的是改善这两个因素之间的权衡。在本文中,我们提出了一种用于路面三维重建的实时立体视觉系统。所提出的系统是从我们先前公布的三维重建算法开发的,其中目标图像的透视图首先被转换为参考视图,这不仅提高了视差精度而且提高了处理速度。然后,计算每对块之间的相关成本并将其存储在两个3-Dcost体积中。为了自适应地聚合来自邻居系统的匹配成本,对成本量进行双边过滤。这极大地减少了立体匹配期间的模糊性,并进一步改善了估计的差异的精确度。最后,通过进行抛物线插值来实现子像素分辨率,并且子像素视差图用于重建3-D路面。所提出的算法是在NVIDIA GTX 1080 GPU上实现的,用于实时目的。实验结果表明,重建精度约为3mm。
translated by 谷歌翻译
我们提出了高斯过程回归(GP)的驻波分解(SWD)近似。 GP涉及昂贵的矩阵求逆操作,这限制了对大数据分析的适用性。对于可以通过网格近似的输入空间,并且当数据之间的相关性是短程的时,可以使用SWD来通过分析对角化来替换核矩阵求逆。我们证明了这种方法适用于单维和多维输入数据,扩展到包括更长距离的相关性,并且网格可以在一个空间中并用作诱导点。通过模拟,我们证明了在数据充足的情况下,应用于平方指数核的超近似方法在单位时间内的预测精度方面优于存在方法。我们的SWD-GP建议用于回归分析,其中存在相对大量的数据和/或存在计算时间限制。
translated by 谷歌翻译
This paper presents the first study on forecasting human dynamics from staticimages. The problem is to input a single RGB image and generate a sequence ofupcoming human body poses in 3D. To address the problem, we propose the 3D PoseForecasting Network (3D-PFNet). Our 3D-PFNet integrates recent advances onsingle-image human pose estimation and sequence prediction, and converts the 2Dpredictions into 3D space. We train our 3D-PFNet using a three-step trainingstrategy to leverage a diverse source of training data, including image andvideo based human pose datasets and 3D motion capture (MoCap) data. Wedemonstrate competitive performance of our 3D-PFNet on 2D pose forecasting and3D pose recovery through quantitative and qualitative results.
translated by 谷歌翻译
Interactive object selection is a very important research problem and hasmany applications. Previous algorithms require substantial user interactions toestimate the foreground and background distributions. In this paper, we presenta novel deep learning based algorithm which has a much better understanding ofobjectness and thus can reduce user interactions to just a few clicks. Ouralgorithm transforms user provided positive and negative clicks into twoEuclidean distance maps which are then concatenated with the RGB channels ofimages to compose (image, user interactions) pairs. We generate many of suchpairs by combining several random sampling strategies to model user clickpatterns and use them to fine tune deep Fully Convolutional Networks (FCNs).Finally the output probability maps of our FCN 8s model is integrated withgraph cut optimization to refine the boundary segments. Our model is trained onthe PASCAL segmentation dataset and evaluated on other datasets with differentobject classes. Experimental results on both seen and unseen objects clearlydemonstrate that our algorithm has a good generalization ability and issuperior to all existing interactive object selection approaches.
translated by 谷歌翻译
背景:药代动力学评价是药物发现和开发的关键过程之一。然而,目前的吸收,分布,代谢,排泄预测模型仍然具有有限的准确性。目的:本研究旨在构建一个综合的转移学习和多任务学习方法,用于开发定量结构 - 活性关系模型,预测四种人体药代动力学参数。方法:药代动力学数据集包括1104种美国FDA批准的小分子药物。该数据包括四个人体药代动力学参数子集(口服生物利用度,血浆蛋白结合率,稳态分布的表观体积和消除半衰期)。对预先训练的模型进行了超过3000万生物活性数据的训练。建立了综合转移学习和多任务学习方法,以加强模型的推广。结果:药代动力学数据集分为三个部分(60:20:20)进行训练,验证和测试,采用改进的最大不相似算法,代表初始集选择算法和加权距离函数。多任务学习技术增强了模型的可预测性。综合转移学习和多任务学习模型表现出最佳的准确性,因为深度神经网络具有一般的特征提取能力,转移学习和多任务学习改进了模型的推广。结论:首先介绍了改进数据集分裂算法的综合转移学习和多任务学习方法,以预测药代动力学参数。该方法可以进一步用于药物发现和开发。
translated by 谷歌翻译
我们提出并分析了$(1,\ lambda)$进化算法的自适应版本,其中当前的突变率是个体的一部分,因此也受到突变。对OneMax基准测试函数进行严格的运行时分析,发现当一个简单的局部变异方案导致$ O(n \ lambda / \ log \ lambda + n \ log n)$时的预期优化时间(适应度评估次数)$ \ lambda $至少是$ C \ ln n $ forsome constant $ C> 0 $。对于$ \ lambda \ ge C \ ln n $的所有值,在所有基于$ \ lambda $ -parallelmutation的无偏黑框算法中,此性能是渐近最佳的。我们的结果表明,进化计算中的自适应可以在运行中找到复杂的最优参数设置。同时,证明了Doerr,Gie {\ ss} en,Witt和Yang~(GECCO~2017)提出的相对复杂的突变率自调整方案可以用我们的简单内生方案代替。在技​​术方面,本文为分析动态参数选择中出现的二维漂移过程提供了新的工具,包括非恒定漂移过程中的占据概率。
translated by 谷歌翻译
机器学习正在从艺术和科学转变为可供每个开发人员使用的技术。在不久的将来,每个平台上的每个应用程序都将包含训练有素的模型,以编码开发人员无法创作的基于数据的决策。这提出了一个重要的工程挑战,因为目前数据科学和建模在很大程度上与标准软件开发过程脱钩。这种分离使得在应用程序内部的机器学习能力不必要地变得困难,并且进一步阻碍了开发人员将MLin置于首位。在本文中,我们介绍了ML .NET,这是一个在过去十年中在Microsoft开发的框架,用于应对在大型软件应用程序中轻松发布机器学习模型的挑战。我们提出了它的架构,并阐明了形成它的应用程序需求。具体而言,我们引入了DataView,它是ML .NET的核心数据抽象,它可以有效地,一致地捕获完整的预测管道,并在训练和推理生命周期中进行。我们结束了论文,对ML .NET进行了令人惊讶的有利的性能研究,与更多的接受者相比,并讨论了一些经验教训。
translated by 谷歌翻译
我们提出了一个新的CogQA框架,用于多跳问题回答inweb-scale文档。受认知科学中的双重过程理论的启发,该框架通过协调隐式提取模块(系统1)和显式推理模块(系统2)逐步在迭代过程中构建\ textit {认知图}。在给出准确答案的同时,我们的框架进一步提供了可解释的推理路径。具体而言,基于BERT和图形神经网络的实现有效处理了HotpotQAfullwiki数据集中的多跳推理问题的数百万个文档,在排行榜上获得了34.9的联合$ F_1 $得分,而最佳竞争对手的得分为23.6。
translated by 谷歌翻译