本报告描述了18个项目,这些项目探讨了如何在国家实验室中将商业云计算服务用于科学计算。这些演示包括在云环境中部署专有软件,以利用已建立的基于云的分析工作流来处理科学数据集。总的来说,这些项目非常成功,并且他们共同认为云计算可以成为国家实验室科学计算的宝贵计算资源。
translated by 谷歌翻译
将机器学习方法应用于-omics数据的潜在好处变得越来越明显,尤其是在临床环境中。但是,这些数据的独特特征并不总是非常适合机器学习技术。这些数据通常在不同实验室的不同技术中生成,并且通常具有高维度。在本文中,我们提出了一个框架,用于组合-omics数据集,以及处理高维数据,使得机器学研究更容易被机器学习应用程序使用。我们通过整合和分析一组3,533个乳腺癌的多分析物数据证明了该框架的成功。然后,我们使用该数据集来预测具有即将发生事件风险的个体的乳腺癌患者生存,具有比在个体数据集上训练的方法更高的准确性和更低的方差。我们希望用于数据集生成和转换的管道将为机器学习研究人员开辟经济数据。我们已将这些免费提供给非商业用途,网址为www.ccg.ai.
translated by 谷歌翻译
我们提出了一种简单的横断面研究设计,以确定对不可观察的异质性具有鲁棒性的因果关系。当许多观察单位相邻时,可能足以回归治疗结果的“空间第一差异”(SFD)并省略所有协变量。这种方法在概念上类似于时间序列或面板模型的第一种差异方法,但指数除外对于时间被替换为空间位置的索引。只要治疗中的局部变化和不可观察的混杂因素在紧邻的邻居之间没有系统地相关,SFD方法就可以确定合理的因果关系。我们将通过模拟和估算纽约第10大道和芝加哥I-90学校教育回报来减轻遗漏变量的偏差。然后,我们通过估算气候和土壤对美国各州玉米产量的影响,更充分地探索这种方法的好处。在每种情况下,我们通过在估算期间保留重要的协变量来证明研究设计的性能。 SFD具有多个吸引人的特征,例如利用协调系统的旋转或跨空间的双差异的内部健壮性检查,它可立即应用于空间网格化数据集,并且可以通过替换预先存在的单个索引来轻松实现实例包时间seriesfunctions。
translated by 谷歌翻译
太阳能电池板由大量且越来越多的家庭安装,因为它们具有廉价和可再生能源来为家用电器供电。与其他能源相比,太阳能装置分布非常分散并分布在数十万个地点。在全球范围内,超过25%的太阳能光伏(PV)装置是分散的。从碳基经济向绿色经济的快速能源转变的影响仍然很难量化。事实上,家庭对太阳能电池板的快速采用很难跟踪,当地的地方部门错过了大量新建的太阳能电池板。这使得评估可再生能源影响的任务成为一项不可能完成的任务。尽管存在一个区域输出的模型,但它们通常是黑色的盒子估计。该项目的目标是双重的:首先使过程自动化以从空中或卫星图像中提取太阳能电池板的位置,然后生成太阳能电池板的地图以及太阳能电池板的数量统计。此外,该项目在一个更广泛的框架内进行,该框架研究官方统计数据如何从新的数字数据源中受益。在项目完成后,将开发一种通过机器学习从航空图像中检测太阳能电池板的方法,并且最初为BE,DE和NL开发了方法。在实践中,机器学习技术用于识别林堡(NL),法兰德斯(BE)和北莱茵 - 威斯特法伦(DE)省的太阳能电池板卫星和航空图像。
translated by 谷歌翻译
在线劳动力平台面临着在线学习问题,即将工人与工作相匹配,并利用这些工作的绩效来创造更好的未来匹配。这些学习问题因这些平台上复杂任务的兴起而变得复杂,例如Web开发和产品设计,需要工作人员来完成。工作的成功现在是所有工人的技能和贡献的函数,平台和发布工作的客户可能都不知道。这些团队匹配导致了对个体的已知结构之间的结构化关联,并且可以利用该信息来创建更好的未来匹配。我们分析了双重性环境,其中团队的表现分别由其最强和最弱的成员决定。我们发现这两个问题在学习未经测试的团队的表现和重复先前测试的团队之间进行了一次探索 - 利用权衡,从而产生了良好的绩效。我们建立了基本的后悔界限并设计了近似的最优算法,揭示了这些权衡的几个见解。
translated by 谷歌翻译
Understanding narrative content has become an increasingly popular topic. Nonetheless, research on identifying common types of narrative characters, or personae, is impeded by the lack of automatic and broad-coverage evaluation methods. We argue that computationally modeling actors provides benefits , including novel evaluation mechanisms for personae. Specifically, we propose two actor-modeling tasks, cast prediction and versatility ranking, which can capture complementary aspects of the relation between actors and the characters they portray. For an actor model, we present a technique for embedding actors, movies, character roles, genres, and descriptive keywords as Gaussian distributions and translation vectors, where the Gaussian variance corresponds to actors' versatility. Empirical results indicate that (1) the technique considerably outperforms TransE (Bordes et al. 2013) and ablation baselines and (2) automatically identified persona topics (Bamman, O'Connor, and Smith 2013) yield statistically significant improvements in both tasks, whereas sim-plistic persona descriptors including age and gender perform inconsistently, validating prior research.
translated by 谷歌翻译