智能论文笔记

组织病理学图像提供了癌症诊断的明确来源，其中包含病理学家用来识别和分类恶性疾病的信息，并指导治疗选择。这些图像包含大量信息，其中大部分目前不可用人类的解释。有监督的深度学习方法对于分类任务非常有力，但它们本质上受注释的成本和质量限制。因此，我们开发了组织形态表型学习，这是一种无监督的方法，它不需要注释，并且通过小图像瓷砖中的歧视性图像特征的自我发现进行操作。瓷砖分为形态上相似的簇，这些簇似乎代表了自然选择下出现的肿瘤生长的复发模式。这些簇具有不同的特征，可以使用正交方法识别。应用于肺癌组织，我们表明它们与患者的结局紧密保持一致，组织病理学识别的肿瘤类型和生长模式以及免疫表型的转录组度量。

translated by 谷歌翻译

Development and Validation of ML-DQA -- a Machine Learning Data Quality Assurance Framework for Healthcare

Mark Sendak , Gaurav Sirdeshmukh , Timothy Ochoa , Hayley Premo , Linda Tang , Kira Niederhoffer , Sarah Reed , Kaivalya Deshpande , Emily Sterrett , Melissa Bauer

分类： (统计)机器学习 | 机器学习

2022-08-04

机器学习和临床研究社区利用现实世界数据（RWD）的方法，包括电子健康记录中捕获的数据（EHR）截然不同。虽然临床研究人员谨慎使用RWD进行临床研究，但用于医疗团队的ML会消费公共数据集，并以最少的审查来开发新算法。这项研究通过开发和验证ML-DQA来弥合这一差距，ML-DQA是基于RWD最佳实践的数据质量保证框架。 ML-DQA框架适用于两个地理位置的五个ML项目，分别是不同的医疗状况和不同的人群。在这五个项目中，共收集了247,536名患者的RWD，共有2,999项质量检查和24份质量报告。出现了五种可推广的实践：所有项目都使用类似的方法来分组冗余数据元素表示；所有项目都使用自动实用程序来构建诊断和药物数据元素；所有项目都使用了一个共同的基于规则的转换库；所有项目都使用统一的方法将数据质量检查分配给数据元素；所有项目都使用类似的临床裁决方法。包括临床医生，数据科学家和受训者在内的平均有5.8个人参与每个项目实施ML-DQA，每个项目平均进行了23.4个数据元素。这项研究证明了ML-DQA在医疗项目中的重要性作用，并为团队提供了开展这些基本活动的框架。

translated by 谷歌翻译

读取文本读取序列的确定是对记录理解的基础。在文本组织成一系列行和垂直对准的页面中，可以轻松解决此问题，并运行页面的高度（生成可以从左到右读取的多列）。我们展示了一种情况 - 目录页面解析问题 - 以不规则，视觉组织的二维格式在页面上呈现信息。目录页面在金融招股说明书中相当常见，并携带有关组织，其地址和关系的信息，这是客户在车内客户端的关键。有趣的是，目录页有时有分层结构，激励需要将读取序列概括为读取树。我们向识别目录页面和构建读取树的问题提供解决方案，使用（学习）文本段和自下而上的（向左，左上，顶部顶部）遍历的段的横向。该解决方案是支持从客户端船上文件自动提取组织，地址和关系信息的生产服务的关键部分。

translated by 谷歌翻译