贝叶斯优化(BO)是指用于对昂贵的黑盒函数进行全局优化的一套技术,它使用函数的内省贝叶斯模型来有效地找到最优值。虽然BO已经在许多应用中成功应用,但现代优化任务迎来了传统方法失败的新挑战。在这项工作中,我们展示了Dragonfly,这是一个开源Python库,用于可扩展和强大的BO.Dragonfly包含多个最近开发的方法,允许BO应用于具有挑战性的现实世界环境;这些包括更好的处理更高维域的方法,当昂贵函数的廉价近似可用时处理多保真评估的方法,优化结构化组合空间的方法,例如神经网络架构的空间,以及处理并行评估的方法。此外,我们在BO中开发了新的方法改进,用于选择贝叶斯模型,选择采集函数,以及优化具有不同变量类型和附加约束的过复杂域。我们将Dragonfly与一套用于全局优化的其他软件包和算法进行比较,并证明当上述方法集成时,它们可以显着改善BO的性能。 Dragonfly图书馆可在dragonfly.github.io上找到。
translated by 谷歌翻译
有大量复杂的动态系统对我们的日常生活和社会至关重要但却难以理解,即使今天有可能感知和收集大量的实验数据,它们也是如此复杂和不断发展,以至于它们的动力不太可能将被详细了解。然而,通过计算工具,我们可以尝试最好地利用当前技术和可用数据。我们认为,最有用的模型将在有限的知识或多个假设的背景下考虑系统复杂性和可用数据之间的不平衡。生物细胞的复杂系统是在系统生物学中研究的这种系统的一个主要例子,并且激发了本文提出的方法。它们是作为DARPA快速威胁评估(RTA)计划的一部分而开发的,该计划涉及对影响人体细胞的毒素或药物的作用机制(MoA)的理解。结合使用高斯过程和抽象网络建模,我们提出了三种基本的不同的基于机器学习的方法来学习因果关系,并从高维时间序列数据中合成因果网络。虽然其他类型的数据可用并且已经在我们的RTA工作中进行了分析和整合,但我们关注的是本文中从高通量微阵列实验获得的转录组学(即基因表达)数据,以说明我们的算法的能力和局限性。我们的算法使得不同但总体上相对较少的生物学假设,因此它们适用于其他类型的生物数据,甚至可能适用于其他复杂系统,这些系统具有高维度但不具有生物学性质。
translated by 谷歌翻译
一些研究表明,从临床访谈或自发性话语中自动提取的言语和语言特征对精神分裂症和双相情感障碍等精神障碍具有诊断价值。它们通常利用大的特征集来训练分类器以区分两组感兴趣的组,即临床组和对照组。然而,纯粹的数据驱动方法存在过度拟合特定数据集的风险,特别是当样本量有限时。在这里,我们首先选择语言特征集到一个小的子集,该子集与经过验证的功能能力测试,社交技能表现评估(SSPA)相关。这有助于确定所选特征的并发有效性。我们仅使用这些特征来训练一个简单的分类器,以区分感兴趣的组。线性回归揭示语言特征的子集可以有效地模拟SSPA,相关系数为0.75。此外,相同的功能集可以被用来构建astrong二元分类健康对照和一个clinicalgroup(AUC = 0.96),并且还患者之间的临床组withschizophrenia内和双相I型障碍(AUC = 0.83)之间进行区分。
translated by 谷歌翻译
Machine learning (ML) techniques are enjoying rapidly increasing adoption. However, designing and implementing the systems that support ML models in real-world deployments remains a significant obstacle, in large part due to the radically different development and deployment profile of modern ML methods, and the range of practical concerns that come with broader adoption. We propose to foster a new systems machine learning research community at the intersection of the traditional systems and ML communities, focused on topics such as hardware systems for ML, software systems for ML, and ML optimized for metrics beyond predictive accuracy. To do this, we describe a new conference, SysML, that explicitly targets research at the intersection of systems and machine learning with a program committee split evenly between experts in systems and ML, and an explicit focus on topics at the intersection of the two.
translated by 谷歌翻译
脑成像数据在脑科学中是重要的,但是获得昂贵,具有大的体积(即,大的p)但是小的样本大小(即,小的n)。解决这个问题,转移学习是一个很有前途的方向,利用源数据来提高相关目标数据的性能。大多数转会学习方法都侧重于最小化数据分布不匹配。然而,脑成像中的一个巨大挑战是认知实验设计和特定主题结构和功能的大域差异。最近的传递学习方法通​​过Hilbert-Schmidt独立准则(HSIC)最小化域依赖性以学习跨域的共同特征。受此方法的启发,我们提出了一种新的领域独立支持向量机(DI-SVM),用于脑条件解码中的转移学习。具体而言,DI-SVM通过简化的HSIC同时最小化SVM经验风险和对域信息的依赖。我们使用公共数据在脑解码中构建13个转移学习任务,包括三个有趣的多源转移任务。实验表明,DI-SVM在这些任务中比八种竞争方法具有更高的性能,特别是在多源传输任务上提高了超过24%。
translated by 谷歌翻译
通过将机器学习算法应用于“大数据”,可以在manydomains中看到图像处理能力的快速发展。然而,在医学图像分析领域,由于大规模,注释良好的数据集的可用性有限,部分进展受到限制。造成这种情况的主要原因之一是与生产大量高质量元数据相关的高成本。最近,人们越来越关注为此目的应用众包;这种技术已经被证明可以有效地创建从计算机视觉到物理学的各个学科的大规模数据集。尽管这种方法越来越受欢迎,但还没有全面的文献综述为研究人员提供指导,以考虑在他们自己的医学成像分析中使用众包方法。在本次调查中,我们回顾了将众包应用于2018年7月之前发布的医学图像分析的研究。我们确定了常见的方法,挑战和考虑因素,为采用这种方法的研究人员提供了实用指南。最后,我们将讨论这一新兴领域的未来发展机遇。
translated by 谷歌翻译
青光眼是世界范围内可预防,不可逆转的失明的主要原因。这种疾病可以保持无症状直至严重,估计有50%-90%的青光眼患者仍未确诊。因此,建议对青光眼筛查进行早期检测和治疗。检测青光眼的一种经济有效的工具可以扩大医疗保健对更大患者群体的访问,但目前还没有这种工具。我们使用5833幅图像的回顾性数据集训练深度学习(DL)算法,评估可升级性,青光眼视神经乳头(ONH)特征和可逆性青光眼风险。使用2个单独的数据集验证所得算法。对于可参考的青光眼风险,该算法在验证数据集“A”中具有0.940(95%CI,0.922-0.955)的AUC(1,205个图像,1个图像/患者; 19%可参考其中图像由研究员培训的青光眼专家小组裁定,并在验证数据集“B”中分析0.858(95%CI,0.836-0.878)(来自9,643名患者的17,593张图像; 9.2%的图像来自亚特兰大退伍军人事务部眼科诊所糖尿病视网膜电视检查程序使用临床转诊决定作为参考标准)。此外,我们发现垂直杯与椎间盘比> = 0.7,神经视网膜边缘,视网膜神经纤维层缺损和裸露的环形血管的存在对青光眼专家和算法的青光眼风险评估贡献最大。对于青光眼ONH特征,算法AUC介于0.608-0.977之间。 DL算法对10名年级学生中的6名(包括3名青光眼专家中的2名)具有明显更高的敏感性,相对于所有评分者具有相当或更高的特异性。仅在眼底图像上训练的DL算法可以以更高的灵敏度和对眼睛护理提供者的可比特异性来检测可参考的青光眼风险。
translated by 谷歌翻译
人体步态稳定性分析是理解身体平衡的运动和控制的关键,在运动学,医学和机器人领域有许多应用。这项工作引入了一种新的方法,可以从运动学中提取人体动力学,从而有助于稳定性分析。我们提出了一种端到端的深度学习架构,以消除由视频衍生的人体姿势引起的足部压力。该方法利用从使用OpenPose估计执行编排的太极(太极)序列的受试者的视频中提取的人体-25联合。导出的人体姿势数据和相应的足部压力图用于训练具有残余结构的卷积神经网络,称为PressNET,以端到端的方式预测对应于给定人体姿势的足部压力。我们为包含超过350k帧的五个主体创建了同时视频和足部压力的最大数据集。我们使用两个版本的PressNET对来自五个主题的数据进行跨主题评估,以评估我们网络的性能。 KNearest Neighbors(KNN)用于建立比较和评估的基础。我们凭经验证明PressNets在所有分裂中都明显优于KNN。
translated by 谷歌翻译
识别和提取诸如出版全文中的研究描述符之类的数据元素是在许多任务中需要的关键但手动且劳动密集的步骤。在本文中,我们解决了以无人监督的方式识别数据元素的问题。具体而言,提供了一套描述特定研究参数的标准,例如物种,给药途径和给药方案,我们开发了一种无监督的方法来识别与标准相关的文本片段(句子)。经过训练以识别符合标准的出版物的二元分类器在对候选句子进行训练时比在从文本中随机挑选的句子进行训练时表现更好,支持我们的方法能够准确识别研究描述符的直觉。
translated by 谷歌翻译
高斯过程回归(GPR)和高斯过程潜变量模型(GPLVM)提供了执行概率非线性回归和降维的原则方法。在本文中,我们提出了两者之间的混合,即协变量-GPLVM(c-GPLVM),以在存在协变量信息(例如连续协变量,类别标签或删失的存活时间)的情况下执行维数减少。这种结构让我们可以调整变化效应并显示有意义的潜在结构,这在使用GPLVM时是不会显露出来的。此外,我们引入了结构化可分解内核,它们将让我们解释固定和潜在输入如何贡献特征级别的变化,例如:识别非线性相互作用的存在。我们证明了该模型在具有额外表型的高维基因表达数据的应用中的应用indisease进展建模的实用性。
translated by 谷歌翻译