医疗AI通过支持基于证据的医学实践,个性化患者治疗,降低成本以及改善提供者和患者体验,推进医疗保健的巨大潜力。我们认为解锁此潜力需要一种系统的方法来衡量在大规模异构数据上的医疗AI模型的性能。为了满足这种需求,我们正在建立Medperf,这是一个开放的框架,用于在医疗领域的基准测试机器学习。 Medperf将使联合评估能够将模型安全地分配给不同的评估设施,从而赋予医疗组织在高效和人类监督过程中评估和验证AI模型的性能,同时优先考虑隐私。我们描述了当前的挑战医疗保健和AI社区面临,需要开放平台,Medperf的设计理念,其目前的实施状态和我们的路线图。我们呼吁研究人员和组织加入我们创建Medperf开放基准平台。
translated by 谷歌翻译
社区问题应答(CQA)FORA,如堆栈溢出和雅虎!答案包含丰富的资源,对广泛的基于社区的问题答案。每个问题线程都可以通过不同的角度接收大量答案。答案摘要的一个目标是产生反映答案视角范围的摘要。抽象答案概述的主要障碍是没有数据集,可以提供监督制作这些摘要。最近的作品提出了创建此类数据的启发式,但这些是嘈杂的,并且不会涵盖答案中存在的所有观点。这项工作介绍了4,631个CQA线程的新型数据集,用于答案摘要,由专业语言学家策划。我们的管道收集了答案概述所涉及的所有子特设的注释,包括选择与问题相关的答案句子,根据透视图对这些句子进行分组,总结每个视角,并生成整体摘要。我们在这些子组织上分析和基准最先进的模型,并为多视角数据增强引入了一种新的无监督方法,这进一步提高了根据自动评估的整体摘要性能。最后,我们提出了加强学习奖励,以改善事实一致性和答案覆盖范围和分析改进领域。
translated by 谷歌翻译
Levenberg-Marquardt(LM)优化算法已广泛用于解决机器学习问题。文学评论表明,当网络中的权重数不超过几百个时,LM对中等函数近似问题的LM非常强大而有效。相比之下,在处理模式识别或分类问题时,LM似乎并不表现,并且当网络变大时效率低(例如,超过500重量)。在本文中,我们利用一些现实世界飞机数据集利用LM算法的真正力量。在这些数据集上,大多数其他常用的优化器无法检测到飞机发动机的变化条件引起的异常。数据集的具有挑战性是时间序列数据的突然变化。我们发现LM优化器具有更好的近似突然变化的能力,并检测除其他优化器的异常。我们比较LM和几个其他优化器的这种异常/更改检测问题的性能。我们基于一系列措施评估了相对性能,包括网络复杂性(即权重的数量),拟合精度,拟合,培训时间,GPU和内存要求等的使用等措施。我们还讨论了Matlab中强大的LM实现问题Tensorflow用于推广LM算法的更多流行使用以及LM优化器的潜在使用进行大规模问题。
translated by 谷歌翻译