机器学习工作流程开发是一个反复试验的过程:开发人员通过测试小的修改来迭代工作流程,直到达到所需的准确性。不幸的是,现有的机器学习系统只关注模型训练 - 只占整个开发时间的一小部分 - 而忽略了解决迭代开发问题。我们建议使用Helix,amachine学习系统来优化执行情况 - 智能地缓存和重用,或者重新计算中间体。 Helix在其斯卡拉DSL中捕获了各种各样的应用程序需求,其简洁的语法定义了数据处理,模型规范和学习的统一过程。我们证明了重用问题可以被转换为Max-Flow问题,而缓存问题则是NP-Hard。我们为后者开发有效的轻量级启发式算法。 Empiricalevaluation显示Helix不仅能够在一个统一的工作流程中处理各种各样的用例,而且速度更快,在四个实际上提供比最先进系统(如DeepDive或KeystoneML)高达19倍的运行时间减少。世界在自然语言处理,计算机视觉,社会和自然科学中的应用。
translated by 谷歌翻译
数据应用程序开发人员和数据科学家花费大量时间迭代机器学习(ML)工作流程 - 通过修改数据中心处理,模型训练和后处理步骤 - 通过心房和错误来实现所需的模型性能。加速机器学习的现有工作侧重于加快工作流程的一次性执行,未能解决典型ML开发的增量和动态性质。我们提出了Helix,一种声明式机器学习系统,通过优化端到端和跨迭代的工作流执行来加速迭代开发。 Helix通过程序分析和先前结果的智能重用最小化了每次迭代的运行时间,这些结果是选择性物质化的 - 为了潜在的未来利益而牺牲物化成本 - 加速未来的迭代。此外,Helix还提供了可视化工作流程DAG的图形界面,并比较了可以实现迭代开发的版本。通过两个ML应用程序,分类和结构化预测,与会者将体验Helix编程接口的模糊性以及使用Helix进行迭代开发的速度和简易性。在我们的评估中,与最先进的机器学习工具相比,Helix在累计运行时间方面实现了数量级的降低。
translated by 谷歌翻译
Web服务组合(WSC)是Webservices的一个特别有前途的应用程序,其中具有特定功能的多个单独服务被组合以完成更复杂的任务,其必须同时满足功能要求和优化服务质量(QoS)属性。此外,大量的技术进步产生的数据需要在服务之间交换。数据密集型Web服务(操作和处理这些数据)对实现数据密集型流程非常感兴趣,例如分布式数据密集型Web服务组合(DWSC)。研究人员提出了满足所有上述因素的进化计算(EC)全自动WSC技术。其中一些使用Memetic算法(MA)通过提高其搜索解决方案邻域区域的开发能力来提高EC的性能。但是,这些工作效率不高或效率不高。本文提出了一种基于MA的方法,以有效和高效的方式解决分布式DWSC的问题。特别是,我们开发了一种MA,它将CIS与灵活的局部搜索技术混合,并结合了服务距离。使用基准数据集进行评估,比较现有的最先进方法。结果表明,我们提出的方法总体上具有最高的质量和可接受的执行时间。
translated by 谷歌翻译
为了解决医学图像在图像超分辨率重建过程中由于缺乏高频细节而导致严重模糊的问题,提出了一种基于密集神经网络和混合注意机制的医学图像超分辨率方法。所提出的方法将混合注意块添加到密集神经网络(DenseNet),使得神经网络可以将更多的注意力集中在具有足够高频细节的区域和信道上。去除Batchnormalization层以避免高频纹理细节的丢失。最后得到的高分辨率医学图像是利用网络末端的反卷层作为上采样算子获得的。实验结果表明,该方法对峰值信号的改善分别为0.05db~11.25dB和0.6%~14.04%。 - 噪声比(PSNR)度量和结构相似性指数(SSIM)度量,分别与主流图像超分辨率方法进行比较。这项工作为医学图像超分辨率重建的理论研究提供了新的思路。
translated by 谷歌翻译
最近,材料显微图像语义分割的进展受到在大数据集上训练的高容量模型的驱动。然而,由于需要人力,所以用像素级标签收集显微图像是非常昂贵的。在本文中,我们提出了一种方法,用于从材料3d模拟模型中快速创建具有像素级标签的显微图像。通常,直接从那些3d模拟模型中提取的图像不够逼真。但是,很容易获得语义标签。我们引入样式转移技术,使模拟图像数据更接近真实的微观数据。我们通过使用来自实验的实际图像数据和来自Monte Carlo PottsModels的模拟图像数据来验证所呈现的方法,其模拟多晶的生长。实验表明,利用获取的模拟图像数据和样式转换技术来补充多晶铁的实际图像,可以显着提高图像处理的平均精度。此外,用模拟图像数据训练的模型和仅1/3的真实数据优于在完整的实际图像数据上训练的模型。在这种多晶材料的研究中,这种方法可以减少从显微镜获取和标记图像的压力。此外,它可以应用于其他材料图像的数量。
translated by 谷歌翻译
通过开发复杂的图像先验或设计深(er)架构,最近提出了各种图像超分辨率(SR)方法并且实现了非常有前途的性能。一个自然的问题是,这些方法是否可以重新形成一个统一的框架,这个框架是否有助于SR重建?在本文中,我们提出了一种基于集成学习的简单但有效的单图像SR方法,该方法可以产生比从任何SR方法(或称为组件超级解析器)获得的更好的性能。基于在执行SR重建时更好的组件超级解析器应该具有更大的集合权重的假设,我们提出了用于推断最优集合权重的最大后验(MAP)估计框架。特别地,我们引入了一个参考数据集,它由高分辨率(HR)和低分辨率(LR)图像对组成,用于测量不同组件超级分辨率的超分辨率能力(先验知识)。为了获得optimalesesemble权重,我们建议结合重建约束,其表明退化的HR图像应该等于LRobservation的权重,以及集合权重的先验知识到MAP估计框架中。此外,所提出的优化问题可以通过分析解决方案来解决。我们通过与不同的竞争方法进行比较来研究所提出方法的性能,包括基于最先进的非深度学习方法,四种最新的基于深度学习的方法和一种基于集成学习的方法,并证明它在三个公共数据集上的有效性和优越性。 。
translated by 谷歌翻译
我们研究后勤强盗,其中奖励是二元成功概率$ \ exp(\ beta a ^ \ top \ theta)/(1 + \ exp(\ beta a ^ \ top \ theta))$ andactions $ a $和systems $ \ theta $在$ d $ -dimensional单位球内。虽然先前后悔限制了解决斜率参数$ \ beta $的logistic banditexhibit指数依赖的算法,但我们建立了与Thompson采样无关的格式。 beta $。特别是,我们确定,当可行动作的集合与可能的系数向量集合相同时,Thompsonsampling的贝叶斯遗憾是$ \ tilde {O}(d \ sqrt {T})$。我们还建立了一个$ \ tilde {O}(\ sqrt {d \ etaT} / \ lambda)$ bound,它适用范围更广,其中$ \ lambda $是最差情况下的最佳对数,$ \ eta $是“脆弱性维度,“一个新的统计数据,用于捕捉一个模型的最优行动对其他模型的满足程度。我们通过证明,对于任何$ \ epsilon> 0 $,没有算法可以实现$ \ mathrm {poly}(d,1 / \ lambda)\ cdot T ^ {1- \ epsilon} $,我们证明了脆弱性维度起着非常重要的作用。后悔。
translated by 谷歌翻译
我们介绍了场景素描零射击学习(SSZSL)的一个新问题,这是一项具有挑战性的任务,因为(i)与照片不同,常见语义域(例如,词向量)和草图之间的差距太大,无法利用常见的语义知识作为知识转移的桥梁,以及(ii)与单一对象草图相比,需要更具表现力的特征表示,以适应其高水平的抽象和复杂性。为了克服这些挑战,我们提出了一种深嵌入模型forscene sketch zero-shot learning。特别地,我们提出增强语义向量通过融合多模态语义知识(例如,卡通图像,自然图像,文本描述)和采用基于注意的网络进行场景素描特征学习来进行域对齐。此外,我们提出了一种新的距离度量来改善测试期间的相似性度量。大量的实验和消融研究证明了我们的特定设计的好处。
translated by 谷歌翻译
我们研究了无监督域适应的问题,该问题旨在使在标记源域上训练的模型适应完全未标记的靶域。领域对抗训练是一种很有前途的方法,并且已成为许多最先进的无监督领域适应方法的基础。领域对抗训练的思想是通过对抗训练域分类器来对齐源域和目标域之间的特征空间。特征编码器。最近,聚类假设已经应用于无监督域适应并且实现了强大的性能。在本文中,我们提出了一种称为虚拟混合训练(VMT)的新正则化方法,它能够进一步约束聚类假设的假设.VMT的思想是通过平滑输出分布来对模型施加局部Lipschitz约束。训练样本之间的界限。与传统的混合模型不同,我们的方法构建没有标签信息的组合样本,允许它适用于受监督的域自适应。所提出的方法是通用的,并且可以使用域对抗训练与现有方法组合。我们将VMT与最近最先进的VADA模型结合起来,广泛的实验表明VMT显着提高了VADA在severaldomain自适应基准数据集上的性能。对于将MNIST适应SVHN的挑战性任务,当不使用实例规范化时,VMT将VADA的准确性提高了30%以上。当使用实例归一化时,我们的模型实现了96.4%的准确度,这非常接近于目标模型的准确度(96.5%)。代码将公开发布。
translated by 谷歌翻译
降维(DR)方法通常用于分析和可视化多维数据。然而,当数据是实时流式馈送时,由于其计算复杂性并且无法在先前时间点保留投影数据位置,因此不能直接使用传统DR方法。此外,当动态数据记录具有不同数量的维度时,问题变得更具挑战性,这在现实世界的应用程序中经常发现。本文介绍了增量DR解决方案。我们以多种方式增强现有的增量PCA方法,以确保可视化流多维数据的可用性。首先,我们使用几何变换和动画方法来帮助在可视化增量结果时保留查看器的地图。其次,为了处理数据维度变量,我们使用优化方法来估计投影数据位置,并在可视化中传达由此产生的不确定性。我们使用实际数据集展示了两个案例研究的设计效果。
translated by 谷歌翻译