我们提出了一个项目,旨在使用Cycle-Consistent Adversarial Networks(CycleGANs)生成描绘气候变化的准确,生动和个性化结果的图像。通过在极端天气事件(例如洪水,森林火灾等)之前和之后对房屋的街景图像进行训练我们的CycleGAN模型,我们学习了一个映射,然后可以将其应用于尚未经历这些事件的位置图像。这种视觉转换与气候模型预测相结合,以评估长期(50年)气候相关事件的可能性和类型,以便在观众心目中更接近未来。我们项目的最终目标是通过对气候变化影响产生更深刻的了解,使个人能够对气候变化做出更明智的选择,同时利用气候模型预测保持科学可信度。
translated by 谷歌翻译
Machine learning (ML) techniques are enjoying rapidly increasing adoption. However, designing and implementing the systems that support ML models in real-world deployments remains a significant obstacle, in large part due to the radically different development and deployment profile of modern ML methods, and the range of practical concerns that come with broader adoption. We propose to foster a new systems machine learning research community at the intersection of the traditional systems and ML communities, focused on topics such as hardware systems for ML, software systems for ML, and ML optimized for metrics beyond predictive accuracy. To do this, we describe a new conference, SysML, that explicitly targets research at the intersection of systems and machine learning with a program committee split evenly between experts in systems and ML, and an explicit focus on topics at the intersection of the two.
translated by 谷歌翻译
This paper proposes a new optimization algorithm called Entropy-SGD fortraining deep neural networks that is motivated by the local geometry of theenergy landscape. Local extrema with low generalization error have a largeproportion of almost-zero eigenvalues in the Hessian with very few positive ornegative eigenvalues. We leverage upon this observation to construct alocal-entropy-based objective function that favors well-generalizable solutionslying in large flat regions of the energy landscape, while avoidingpoorly-generalizable solutions located in the sharp valleys. Conceptually, ouralgorithm resembles two nested loops of SGD where we use Langevin dynamics inthe inner loop to compute the gradient of the local entropy before each updateof the weights. We show that the new objective has a smoother energy landscapeand show improved generalization over SGD using uniform stability, undercertain assumptions. Our experiments on convolutional and recurrent networksdemonstrate that Entropy-SGD compares favorably to state-of-the-art techniquesin terms of generalization error and training time.
translated by 谷歌翻译
人们普遍认为,数据质量会影响机器学习(ML)模型的性能,数据科学家在模型培训之前花费大量时间进行数据清理。然而,到目前为止,还没有关于清洁如何影响ML --- ML社区通常关注某些分布的特定类型噪声(例如,错误标签)对某些ML模型的影响,而数据库(DB)的严格研究社区一直在研究单独的数据清理问题,而没有考虑下游分析如何消耗数据。我们提出CleanML基准,系统地研究数据清理对下游ML模型的影响。 CleanML基准测试目前包含13个具有实际错误的真实数据集,五种常见错误类型以及七种不同的ML模型。为确保我们的研究结果具有统计学意义,CleanML使用统计假设检验仔细控制ML实验中的随机性,并使用Benjamini-Yekutieli(BY)程序来控制由于该基准中的许多假设而导致的潜在错误发现。我们获得了许多有趣且非平凡的见解,并确定了多个开放的研究方向。我们还发布了基准,并希望对联合数据清理和ML的重要问题进行未来的研究。
translated by 谷歌翻译
黑色素瘤是美国十大最常见的癌症之一。早期检测是生存的重要因素,但癌症常常在致命阶段被诊断出来。深度学习有可能提高癌症检出率,但其对黑色素瘤检测的适用性受到可用皮肤病变数据库的限制,这些数据库很小,严重失衡,并包含遮挡图像。我们提出了一个完整的深度学习系统forlesion细分和分类,利用网络专业indata净化和增强。它包含用于恢复图像遮挡的处理单元和用于填充稀缺类别的数据生成单元,或者等效地创建具有预定义病变类型的虚拟患者。我们凭经验验证了我们的方法,并显示出优于共同基线的优异性能。
translated by 谷歌翻译
在这项工作中,我们使用信念函数理论扩展了概率框架,以便为人群密度估计的不同类别提供不确定性界限。我们的方法允许我们比较估计器的多尺度性能,并且还表征它们对需要不同程度的人群监测应用的可靠性。
translated by 谷歌翻译
快速鉴定细菌对于预防传染病的传播,帮助抵抗抗菌素耐药性和改善患者预后至关重要。拉曼光学光谱有望在一个步骤中结合细菌检测,鉴定和抗生素敏感性测试。然而,由于来自细菌细胞的弱拉曼信号和大量的细菌种类和表型,实现临床相关的速度和准确性仍然具有挑战性。通过积累最大的细菌拉曼光谱知识,我们能够应用最先进的深度学习方法从噪声拉曼光谱中识别出30种最常见的细菌病原体,达到99.0 $ \ pm $ 0.1%的抗生素治疗鉴定精度。这种新方法区分了甲氧西林耐药和敏感的金黄色葡萄球菌(MRSA和MSSA)以及一对等基因MRSA和MSSA,它们与mecA抗性基因的缺失在遗传上相同,表明无抗生素抗性的无培养检测潜力。初始临床验证的结果是有希望的:使用25个菌株中仅10个细菌谱,我们达到99.0 $ \ pm $ 1.9%的物种鉴定精度。我们的组合拉曼 - 深度学习系统代表了一种重要的概念,用于快速,无文化鉴定细菌分离株和抗生素抗性,可以很容易地延长血液,尿液和痰的诊断。
translated by 谷歌翻译
成对比较标签比类标签更具信息性且变化更少,但生成它们带来了挑战:它们的数量在数据集大小中以二次方式增长。我们研究了一个自然的实验设计目标,即D-最优性,可以用来确定哪些$ K $成对比较生成。已知该目标在实践中表现良好,并且是子模块,使得选择可通过贪婪算法近似。 Ana \“我贪婪的实现有$ O(N ^ 2d ^ 2K)$复杂度,其中$ N $是数据集大小,$ d $是特征空间维度,$ K $是生成比较的数量。我们证明,通过利用数据集的固有几何 - 即它由成对比较组成 - 贪婪算法的复杂性可以降低到$ O(N ^ 2(K + d)+ N(dK + d ^ 2)+ d ^ 2K对于所谓的懒惰贪婪算法,我们也应用相同的加速度。当组合时,上述改进导致数据集的执行时间不到1小时,并且需要10 ^ 8 $ $比较;对于samedataset需要超过10天才能终止。
translated by 谷歌翻译
在本文中,我们将介绍我们在改进网络物理系统(CPS)可访问性方面的工作,介绍一项关于人机交互的研究,其中最终用户是聋人或听力受损的人。机器人设计的当前趋势包括具有机械臂和手的装置,其能够执行操纵和抓握任务。本文重点介绍这些设备如何用于不同的目的,即通过手语实现机器人通信。对于该研究,运行若干测试和问卷调查以检查和测量最终用户如何解释由人形机器人助手代表的手语与屏幕上的字幕相对应的手语。由于这种二分法,指法,基本词汇表达和最终用户满意度是交付形式所包含的主要主题,其中附加评论被重视并考虑进一步决定机器人与人的交互。实验使用TEO(一种家用伴侣人体机器人)进行,该机器人是在马德里卡洛斯三世(UC3M)开发的,通过西班牙手语(LSE)的代表,以及总共16名聋和听力受损的参与者。
translated by 谷歌翻译
目标:大多数癌症数据来源缺乏转移复发的信息。电子病历(EMR)和基于人群的癌症登记包含有关癌症治疗和结果的补充信息,但很少用于协同作用。为了能够检测转移性乳腺癌(MBC),我们应用半监督机器学习框架来连接EMR-加州癌症登记(CCR)数据。材料和方法:我们研究了在斯坦福大学医疗保健中接受治疗的11,459名女性患者,这些患者在2000 - 2014年间接受了乳腺癌的诊断。该数据集由来自EMR的结构化数据和非结构化自由文本临床记录组成,与CCR相关联,是监测,流行病学和最终结果(SEER)数据库的组成部分。从患者注释中提取转移性疾病的信息,推断出类标签,然后训练MBC分类的正则化逻辑回归模型。我们评估了一组146名患者的金标准模型的模型性能。结果:495例初发IV期MBC患者,1,374例初诊0~Ⅲ期患者复发MBC,9,590例无转移证据。中位随访时间为96.3个月(平均97.8,标准差46.7)。性能最佳的型号包含EMR和CCR功能。接收器 - 操作特征曲线下面积= 0.925 [95%置信区间:0.880-0.969],灵敏度= 0.861,特异性= 0.878,总体准确度= 0.870。讨论和结论:结合EMR和CCR数据的MBC病例检测的Aframework实现了良好的敏感性,特异性和辨别力,而无需专家 - 标签样本。这种方法可以实现基于人群的研究,了解患者如何解除癌症,并可能确定癌症复发的新预测因子。
translated by 谷歌翻译