通过将机器学习算法应用于“大数据”,可以在manydomains中看到图像处理能力的快速发展。然而,在医学图像分析领域,由于大规模,注释良好的数据集的可用性有限,部分进展受到限制。造成这种情况的主要原因之一是与生产大量高质量元数据相关的高成本。最近,人们越来越关注为此目的应用众包;这种技术已经被证明可以有效地创建从计算机视觉到物理学的各个学科的大规模数据集。尽管这种方法越来越受欢迎,但还没有全面的文献综述为研究人员提供指导,以考虑在他们自己的医学成像分析中使用众包方法。在本次调查中,我们回顾了将众包应用于2018年7月之前发布的医学图像分析的研究。我们确定了常见的方法,挑战和考虑因素,为采用这种方法的研究人员提供了实用指南。最后,我们将讨论这一新兴领域的未来发展机遇。
translated by 谷歌翻译
贝叶斯优化(BO)是指用于对昂贵的黑盒函数进行全局优化的一套技术,它使用函数的内省贝叶斯模型来有效地找到最优值。虽然BO已经在许多应用中成功应用,但现代优化任务迎来了传统方法失败的新挑战。在这项工作中,我们展示了Dragonfly,这是一个开源Python库,用于可扩展和强大的BO.Dragonfly包含多个最近开发的方法,允许BO应用于具有挑战性的现实世界环境;这些包括更好的处理更高维域的方法,当昂贵函数的廉价近似可用时处理多保真评估的方法,优化结构化组合空间的方法,例如神经网络架构的空间,以及处理并行评估的方法。此外,我们在BO中开发了新的方法改进,用于选择贝叶斯模型,选择采集函数,以及优化具有不同变量类型和附加约束的过复杂域。我们将Dragonfly与一套用于全局优化的其他软件包和算法进行比较,并证明当上述方法集成时,它们可以显着改善BO的性能。 Dragonfly图书馆可在dragonfly.github.io上找到。
translated by 谷歌翻译
青光眼是世界范围内可预防,不可逆转的失明的主要原因。这种疾病可以保持无症状直至严重,估计有50%-90%的青光眼患者仍未确诊。因此,建议对青光眼筛查进行早期检测和治疗。检测青光眼的一种经济有效的工具可以扩大医疗保健对更大患者群体的访问,但目前还没有这种工具。我们使用5833幅图像的回顾性数据集训练深度学习(DL)算法,评估可升级性,青光眼视神经乳头(ONH)特征和可逆性青光眼风险。使用2个单独的数据集验证所得算法。对于可参考的青光眼风险,该算法在验证数据集“A”中具有0.940(95%CI,0.922-0.955)的AUC(1,205个图像,1个图像/患者; 19%可参考其中图像由研究员培训的青光眼专家小组裁定,并在验证数据集“B”中分析0.858(95%CI,0.836-0.878)(来自9,643名患者的17,593张图像; 9.2%的图像来自亚特兰大退伍军人事务部眼科诊所糖尿病视网膜电视检查程序使用临床转诊决定作为参考标准)。此外,我们发现垂直杯与椎间盘比> = 0.7,神经视网膜边缘,视网膜神经纤维层缺损和裸露的环形血管的存在对青光眼专家和算法的青光眼风险评估贡献最大。对于青光眼ONH特征,算法AUC介于0.608-0.977之间。 DL算法对10名年级学生中的6名(包括3名青光眼专家中的2名)具有明显更高的敏感性,相对于所有评分者具有相当或更高的特异性。仅在眼底图像上训练的DL算法可以以更高的灵敏度和对眼睛护理提供者的可比特异性来检测可参考的青光眼风险。
translated by 谷歌翻译
识别和提取诸如出版全文中的研究描述符之类的数据元素是在许多任务中需要的关键但手动且劳动密集的步骤。在本文中,我们解决了以无人监督的方式识别数据元素的问题。具体而言,提供了一套描述特定研究参数的标准,例如物种,给药途径和给药方案,我们开发了一种无监督的方法来识别与标准相关的文本片段(句子)。经过训练以识别符合标准的出版物的二元分类器在对候选句子进行训练时比在从文本中随机挑选的句子进行训练时表现更好,支持我们的方法能够准确识别研究描述符的直觉。
translated by 谷歌翻译
高斯过程回归(GPR)和高斯过程潜变量模型(GPLVM)提供了执行概率非线性回归和降维的原则方法。在本文中,我们提出了两者之间的混合,即协变量-GPLVM(c-GPLVM),以在存在协变量信息(例如连续协变量,类别标签或删失的存活时间)的情况下执行维数减少。这种结构让我们可以调整变化效应并显示有意义的潜在结构,这在使用GPLVM时是不会显露出来的。此外,我们引入了结构化可分解内核,它们将让我们解释固定和潜在输入如何贡献特征级别的变化,例如:识别非线性相互作用的存在。我们证明了该模型在具有额外表型的高维基因表达数据的应用中的应用indisease进展建模的实用性。
translated by 谷歌翻译
舌行为的肌肉协调模式是通过以各种方式改变局部肌肉群而产生的协同作用。功能单元是舌内局部结构元件的功能性肌肉群,其以紧密且一致的方式压缩,扩张和移动。使用标记磁共振成像(MRI)识别功能单元揭示了正常和病理肌肉协调模式的机制,从而改善了手术计划,治疗或康复过程。在这里,为了挖掘这些信息,我们提出了矩阵分解和概率图形模型框架,以使用从标记的MRI中提取的运动量来产生构建块及其相关的加权图。我们的标记MRI成像和精确的体素水平跟踪提供了以前不可用的内部舌头运动模式,从而揭示了在语言或其他语言行为期间舌头的内部工作。我们在加权图上使用谱聚类来识别由可能涉及多个或未记录区域的舌头运动定义的内聚区域。为了评估我们的方法,我们进行了一系列实验。我们首先使用二维图像和合成数据来证明我们的方法的准确性。然后,我们使用三维合成和\ textit {in vivo}舌运动数据,使用突出和简单的语音任务来识别局部区域中舌头的主体特定和数据驱动的功能单元。
translated by 谷歌翻译
色觉缺陷(CVD)影响超过4%的人群,并导致不同的颜色视觉感知。虽然这已经知道了几十年,但是在视觉光谱中具有许多颜色的彩色图通常用于表示数据,导致具有这种缺陷的人解释或难以解释的可能性。在此处介绍的模块的创建之前,没有使用现代色彩模型对CVD进行数学优化的色彩图。虽然已经有一些尝试为CVD患者制作美学上令人愉悦或主观容忍的彩色图像,但我们的目标是制作优化的色彩图,以便尽可能多的观众对科学数据进行准确的感知。我们开发了一个Python模块cmaputil,用于创建CVD优化的色彩映射,这些色彩映射可以修复色彩图并将其修改为在CVD安全色彩空间中感知均匀,同时线性化并最大化亮度范围。该模块可供科学界使用,使其他人能够轻松创建自己的CVD优化色图。在这里,我们提供了一个使用此模块创建的CVD优化色彩映射示例,该模块针对没有CVD的人以及具有红绿色盲的人进行了优化。这种色彩图,cividis,可以对两组进行大致相同的视觉数据解释,在色调和亮度上感知均匀,并且线性增加亮度。
translated by 谷歌翻译
需要确保处理敏感信息和控制日常生活许多方面的系统的完整性。我们研究了机器学习算法的使用,以使用可执行文件生成的系统调用来检测恶意软件 - 减轻混淆的尝试,因为监视的行为不是可执行文件的字节。我们研究了几种用于检测恶意软件的机器学习技术,包括随机森林,深度学习技术和液态机器。实验通过对训练数据之后收集的数据进行测试,检验每个算法的概念漂移效应,以了解算法对新型恶意软件样本的推广程度。结果表明,每个检查的机器学习算法都是检测恶意软件的可行解决方案,实现了90%到95%的类平均准确度(CAA)。在实际场景中,运营网络上的性能评估可能与培训中的性能不匹配。也就是说,CAA可能大致相同,但对恶意软件的准确和召回的值可能会发生显着变化。我们构建实验以突出这些警告,并提供对操作环境中预期性能的见解。此外,我们使用诱导模型来更好地理解恶意软件样本与良好软件的区别,这可以进一步用作取证工具来了解恶意软件(或良好软件)正在做些什么来为调查和修复提供指导。
translated by 谷歌翻译
从头开始训练深度卷积神经网络(CNN)很困难,因为它需要大量标记的训练数据和大量的专业知识来确保正确的收敛。一种有前途的替代方案是微调CNN,该CNN已经使用例如大量标记的自然图像进行了预训练。然而,自然和医学图像之间的实质差异可能会建议不要进行这种知识转移。在本文中,weseek在医学图像分析的背景下回答以下中心问题:\ emph {使用预训练的深CNN具有足够的微调能否消除从头开始训练深CNN的需要吗?}解决这个问题,我们考虑了3种不同的医学成像应用,涉及3个不同的成像模式,包括分类,检测和分割3个专业(放射学,心脏病学和胃肠病学),并研究了如何从训练有素的CNN中训练的CNN深度训练的表现。我们的实验始终如一地证明:(1)使用经过预先训练的CNN,并进行了足够的微调,或者在最坏的情况下,使用了从头开始训练的CNN; (2)微调的CNN对于训练集的大小比从头开始训练的CNN更加健壮; (3)浅调谐和深度调谐都不是特定应用的最佳选择; (4)我们的层层微调方案可以提供一种实用的方法,根据可用数据量,为手头的应用程序达到最佳性能。
translated by 谷歌翻译
树形结构神经网络利用有价值的句法解析信息来解释句子的含义。然而,它们遭受两个关键技术问题,这些问题使得它们对于大规模NLP任务变得缓慢和笨拙:它们通常在解析的句子上运行,并且它们不直接支持计算。我们通过引入Stack-augmentedParser-Interpreter神经网络(SPINN)来解决这些问题,该网络通过将树结构的句子解释集成到shift-reduce解析器的线性顺序结构中,在单个树序列混合模型中结合解析和解释。我们的模型支持批量计算,比其他树形结构模型加速25倍,并且其集成的解析器可以在未解析的数据上运行,几乎没有精度损失。我们在斯坦福NLI蕴涵任务上对其进行评估,并表明它明显优于其他能力编码模型。
translated by 谷歌翻译