目前,由精确的径向速度(RV)观察结果受到恒星活性引入的虚假RV信号的限制。我们表明,诸如线性回归和神经网络之类的机器学习技术可以有效地从RV观测中删除活动信号(由于星形/张图引起的)。先前的工作着重于使用高斯工艺回归等建模技术仔细地过滤活性信号(例如Haywood等人,2014年)。取而代之的是,我们仅使用对光谱线平均形状的更改进行系统地删除活动信号,也没有有关收集观测值的信息。我们对模拟数据(使用SOAP 2.0软件生成; Dumusque等人,2014年生成)和从Harps-N太阳能望远镜(Dumusque等,2015; Phillips等人2015; 2016; Collier训练)培训了机器学习模型。 Cameron等人2019)。我们发现,这些技术可以从模拟数据(将RV散射从82 cm/s提高到3 cm/s)以及从HARPS-N太阳能望远镜中几乎每天进行的600多种真实观察结果来预测和消除恒星活动(将RV散射从82 cm/s提高到3 cm/s)。 (将RV散射从1.753 m/s提高到1.039 m/s,提高了约1.7倍)。将来,这些或类似的技术可能会从太阳系以外的恒星观察中去除活动信号,并最终有助于检测到阳光状恒星周围可居住的区域质量系外行星。
translated by 谷歌翻译
我们介绍了一种新颖的深度学习方法,用于使用高分辨率的多光谱空中图像在城市环境中检测单个树木。我们使用卷积神经网络来回归一个置信图,指示单个树的位置,该位置是使用峰查找算法本地化的。我们的方法通过检测公共和私人空间中的树木来提供完整的空间覆盖范围,并可以扩展到很大的区域。在我们的研究区域,跨越南加州的五个城市,我们的F评分为0.735,RMSE为2.157 m。我们使用我们的方法在加利福尼亚城市森林中生产所有树木的地图,这表明我们有可能在前所未有的尺度上支持未来的城市林业研究。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
我们研究了自然语言处理中出现的近似对相似矩阵的算法。通常,计算$ N $数据点的相似性矩阵需要$ \ omega(n ^ 2)$相似计算。这种二次缩放是一个重要的瓶颈,尤其是当通过昂贵的功能计算相似性时,例如,通过变压器模型计算。近似方法通过使用恰好计算的相似性的小子集来减少这种二次复杂性,以近似于完整成对相似性矩阵的其余部分。大量工作侧重于正半纤维(PSD)相似矩阵的有效近似,其在内核方法中。然而,关于无限期(非PSD)相似性矩阵的较少被理解得更少,这通常在NLP中产生。通过观察到,许多这些矩阵仍然有点接近PSD,我们将流行的NYSTR \“{o} M方法介绍到无限制地的概述。我们的算法可以应用于任何相似性矩阵并在Sublinear时间运行在矩阵的大小中,使用仅$ O(ns)$相似性计算产生秩的等级$近似。我们表明我们的方法以及CR Cur分解的简单变体,在近似各种相似度方面表现得非常好在NLP任务中产生的矩阵。我们在文档分类,句子相似度和跨文档COREREFED的下游任务中展示了近似相似性矩阵的高精度。
translated by 谷歌翻译
政治上通知的公民对威力发展的民主是必不可少的。虽然美国政府追求开放数据的政策,但这些努力在实现开放政府方面不足以实现技术和领域知识的人可以访问数据中的信息。在这项工作中,我们进行用户面试以确定利益相关者之间的需求和需求。我们进一步使用此信息来绘制功能政治信息系统的基础要求。
translated by 谷歌翻译
了解物种的丰富是迈向理解其长期可持续性的第一步和我们可能对其的影响。生态学家使用相机陷阱来远程调查,用于存在特定的动物物种。以前的研究表明,可以训练深度学习模型,以便在相机陷阱图像内自动检测和分类动物,具有高度的信心。然而,培训这些模型的能力是依赖于拥有足够高质量训练数据的依赖性。当动物很少罕见或数据集是不存在的?该研究提出了一种使用颈部珍稀动物的图像的方法(专注于苏格兰野猫队)来生成训练数据集。我们探讨与在野生收集的数据应用时培训的普遍存在培训的模型相关的挑战。该研究是以生态学家在规划/工程中的需求的语境。在其他研究中之后,该项目建立了对象检测的集合,然后使用不同的图像操纵和类结构化技术来测试的对象检测,图像分割和图像分类模型来鼓励模型泛化。在苏格兰野猫队的背景下,研究得出结论,捕获在囚禁图像上的模型不能使用现有技术来推广到野生摄像机陷阱图像。然而,基于两级模型Wildcat与Wildcat的最终模型表演实现了81.6%的总精度得分,并且在测试集中的野猫准确度得分为54.8%,其中仅包含野猫队的1%的图像。这表明使用囚禁图像是可行的,具有进一步的研究。这是第一个研究,该研究试图基于囚禁数据生成培训集,并在规划/工程中的生态学家的背景下探讨这些模型的发展。
translated by 谷歌翻译
聚类算法的全面基准是困难的两个关键因素:(i)〜这种无监督的学习方法的独特数学定义和(ii)〜某些聚类算法采用的生成模型或群集标准之间的依赖性的依赖性内部集群验证。因此,对严格基准测试的最佳做法没有达成共识,以及是否有可能在给定申请的背景之外。在这里,我们认为合成数据集必须继续在群集算法的评估中发挥重要作用,但这需要构建适当地涵盖影响聚类算法性能的各种属性集的基准。通过我们的框架,我们展示了重要的角色进化算法,以支持灵活的这种基准,允许简单的修改和扩展。我们说明了我们框架的两种可能用途:(i)〜基准数据的演变与一组手派生属性和(ii)〜生成梳理给定对算法之间的性能差异的数据集。我们的作品对设计集群基准的设计具有足够挑战广泛算法的集群基准,并进一步了解特定方法的优势和弱点。
translated by 谷歌翻译
The recent increase in public and academic interest in preserving biodiversity has led to the growth of the field of conservation technology. This field involves designing and constructing tools that utilize technology to aid in the conservation of wildlife. In this article, we will use case studies to demonstrate the importance of designing conservation tools with human-wildlife interaction in mind and provide a framework for creating successful tools. These case studies include a range of complexities, from simple cat collars to machine learning and game theory methodologies. Our goal is to introduce and inform current and future researchers in the field of conservation technology and provide references for educating the next generation of conservation technologists. Conservation technology not only has the potential to benefit biodiversity but also has broader impacts on fields such as sustainability and environmental protection. By using innovative technologies to address conservation challenges, we can find more effective and efficient solutions to protect and preserve our planet's resources.
translated by 谷歌翻译
A Digital Twin (DT) is a simulation of a physical system that provides information to make decisions that add economic, social or commercial value. The behaviour of a physical system changes over time, a DT must therefore be continually updated with data from the physical systems to reflect its changing behaviour. For resource-constrained systems, updating a DT is non-trivial because of challenges such as on-board learning and the off-board data transfer. This paper presents a framework for updating data-driven DTs of resource-constrained systems geared towards system health monitoring. The proposed solution consists of: (1) an on-board system running a light-weight DT allowing the prioritisation and parsimonious transfer of data generated by the physical system; and (2) off-board robust updating of the DT and detection of anomalous behaviours. Two case studies are considered using a production gas turbine engine system to demonstrate the digital representation accuracy for real-world, time-varying physical systems.
translated by 谷歌翻译
We introduce Argoverse 2 (AV2) - a collection of three datasets for perception and forecasting research in the self-driving domain. The annotated Sensor Dataset contains 1,000 sequences of multimodal data, encompassing high-resolution imagery from seven ring cameras, and two stereo cameras in addition to lidar point clouds, and 6-DOF map-aligned pose. Sequences contain 3D cuboid annotations for 26 object categories, all of which are sufficiently-sampled to support training and evaluation of 3D perception models. The Lidar Dataset contains 20,000 sequences of unlabeled lidar point clouds and map-aligned pose. This dataset is the largest ever collection of lidar sensor data and supports self-supervised learning and the emerging task of point cloud forecasting. Finally, the Motion Forecasting Dataset contains 250,000 scenarios mined for interesting and challenging interactions between the autonomous vehicle and other actors in each local scene. Models are tasked with the prediction of future motion for "scored actors" in each scenario and are provided with track histories that capture object location, heading, velocity, and category. In all three datasets, each scenario contains its own HD Map with 3D lane and crosswalk geometry - sourced from data captured in six distinct cities. We believe these datasets will support new and existing machine learning research problems in ways that existing datasets do not. All datasets are released under the CC BY-NC-SA 4.0 license.
translated by 谷歌翻译