通过卫星图像和机器学习对行星进行大规模分析是一个梦想,这一梦想不断受到难以获取高度代表性的高分辨率图像的成本的阻碍。为了纠正此问题,我们在这里介绍WorldStrat数据集。 The largest and most varied such publicly available dataset, at Airbus SPOT 6/7 satellites' high resolution of up to 1.5 m/pixel, empowered by European Space Agency's Phi-Lab as part of the ESA-funded QueryPlanet project, we curate nearly 10,000独特位置的SQKM,以确保全世界所有类型的土地用途分层:从农业到冰盖,从森林到多种城市化密度。我们还丰富了通常在ML数据集中代表不足的地点的人:人道主义兴趣的地点,非法采矿地点以及有风险的人的定居点。我们以10 m/pixel的可自由访问的下分辨率Sentinel-2卫星的多个低分辨率图像为暂时匹配每个高分辨率图像。我们伴随着该数据集的开源Python软件包,以:重建或扩展WorldStrat数据集,训练和推断基线算法,并使用丰富的教程学习,所有这些都与流行的EO-Learn Toolbox兼容。我们特此希望能够促进ML在卫星图像中的广泛应用,并可能从免费的公共低分辨率Sentinel2图像中发展出昂贵的私人高分辨率图像所允许的相同的分析能力。我们通过训练并发布了有关多帧超分辨率任务的几个高度计算效率的基线来说明这一特定点。高分辨率空中图像是CC BY-NC,而标签和Sentinel2图像为CC,而BSD下的源代码和预训练模型。该数据集可从https://zenodo.org/record/6810792获得,并在https://github.com/worldstrat/worldstrat上获得。
translated by 谷歌翻译
机器学习社区目前没有记录数据集的标准化过程,这可能导致高赌注域的严重后果。要解决此差距,我们提出了数据集的数据表。在电子行业,每个组件,无论多么简单或复杂,都附带了一个描述其操作特征,测试结果,推荐使用和其他信息的数据表。通过类比,我们建议每个数据集都附有一个数据表,这些表记录了它的动机,组成,收集过程,推荐用途等。数据集的数据表将有助于在数据集创建者和数据集消费者之间更好地沟通,并鼓励机器学习界优先考虑透明度和问责制。
translated by 谷歌翻译
现实世界的行为通常是由多种代理之间复杂的相互作用来塑造的。为了可靠地研究多代理行为,无监督和自我监督的学习的进步使从轨迹数据中学到了各种不同的行为表示。迄今为止,还没有一组统一的基准测试,可以在广泛的行为分析设置中进行定量和系统地比较方法。我们的目的是通过引入来自现实世界行为神经科学实验的大规模,多代理轨迹数据集来解决这一问题,该数据集涵盖了一系列行为分析任务。我们的数据集由来自通用模型生物的轨迹数据组成,其中有960万帧的小鼠数据和440万帧的飞行数据,在各种实验环境中,例如不同的菌株,相互作用的长度和光遗传学刺激。框架的子集还包括专家注销的行为标签。我们数据集的改进对应于跨多种生物的行为表示,并能够捕获常见行为分析任务的差异。
translated by 谷歌翻译
大型预先训练的语言模型已经显示了几次拍摄学习的承诺,只提供了几个任务特定示例给出了基于文本的任务。款式将很快解决到目前为止为人类研究助理保留的分类任务吗?现有的基准标记不设计用于衡量应用设置的进度,因此不要直接回答这个问题。 RAFT基准(现实世界注释的少量拍摄任务)侧重于自然发生的任务,并使用镜像部署的评估设置。 RAFT的基线评估揭示了当前技术斗争的地区:推理在许多班级的长篇文章和任务上。人类基线表明,非专家人类难以反映出一些分类任务,反映了现实世界的价值有时依赖于域名专业知识。甚至非专业人类基线F1分数超过GPT-3平均为0.11。 RAFT DataSets和排行榜将跟踪哪些模型改进在https://raft.elict.org中转化为现实世界的优势。
translated by 谷歌翻译
超声使用是因为其成本低,非电离和非侵入性特征,并且已成为基石放射学检查。超声应用程序的研究也扩大了,尤其是通过机器学习的图像分析。但是,超声数据通常仅限于封闭的数据集,只有少数几个公开可用。尽管经常检查器官,但肾脏缺乏公开可用的超声数据集。拟议的开放肾脏超声数据集是第一套公开可用的肾脏B模式超声数据,其中包括用于多级语义分段的注释。它基于5年以上500多名患者的回顾性收集的数据,平均年龄为53.2 +/- 14。7年,体重指数为27.0 +/- 5.4 kg/m2,最常见的原发性疾病是糖尿病,IgA肾病和高血压。有两位专家超声师的视图标签和细粒度的手动注释。值得注意的是,该数据包括天然和移植的肾脏。进行了初始的基准测量测量,证明了一种最先进的算法,该算法达到了肾脏胶囊的骰子Sorenson系数为0.74。该数据集是一个高质量的数据集,包括两组专家注释,图像比以前可用的更大。为了增加获得肾脏超声数据的访问,未来的研究人员可能能够创建用于组织表征,疾病检测和预后的新型图像分析技术。
translated by 谷歌翻译
成对图像和文本的大型数据集越来越受到愿景和愿景和语言任务的通用表示。此类数据集已通过查询搜索引擎或收集HTML Alt-Text构建 - 由于Web数据是嘈杂的,因此它们需要复杂的过滤管道来维护质量。我们探索备用数据源以收集具有最小滤波的高质量数据。我们介绍Redcaps - 从Reddit收集的12M图像文本对的大规模数据集。来自Reddit的图像和标题描绘并描述了各种各样的物体和场景。我们从手动策划的FuSoddits集中收集数据,这为粗略图像标签提供给粗略图像标签,并允许我们转向数据集组合而不标记单个实例。我们展示Redcaps培训的标题模型产生了人类优选的丰富和各种标题,并学习转移到许多下游任务的视觉表现。
translated by 谷歌翻译
多模型对现实世界应用的承诺激发了可视化和理解其内部力学的研究,其最终目标是使利益相关者能够可视化模型行为,执行模型调试并促进对机器学习模型的信任。但是,现代的多模型模型通常是黑盒神经网络,这使得了解其内部力学变得具有挑战性。我们如何能在这些模型中可视化多模式相互作用的内部建模?我们的论文旨在通过提出Multiviz来填补这一空白,这是一种通过将可解释性问题分为4个阶段来分析多模型模型行为的方法:(1)单峰的重要性:每种模式如何有助于下游建模和预测,(2)交叉交叉。 - 模式相互作用:不同模态如何相互关系,(3)多模式表示:如何在决策级特征中表示单峰和跨模式的交互作用,以及(4)多模式预测:决策级特征如何组成以制造一个预言。 Multiviz旨在在不同的模式,模型,任务和研究领域进行操作。通过对6个现实世界任务的8个训练模型的实验,我们表明,Multiviz中的互补阶段共同使用户能够(1)模拟模型预测,(2)将可解释的概念分配给功能,(3)对模型错误分析执行错误分析,(4)使用错误分析到调试模型的见解。 Multiviz公开可用,将定期使用新的解释工具和指标进行更新,并欢迎社区的意见。
translated by 谷歌翻译
对联合国可持续发展目标的进展(SDGS)因关键环境和社会经济指标缺乏数据而受到阻碍,其中历史上有稀疏时间和空间覆盖率的地面调查。机器学习的最新进展使得可以利用丰富,频繁更新和全球可用的数据,例如卫星或社交媒体,以向SDGS提供洞察力。尽管有希望的早期结果,但到目前为止使用此类SDG测量数据的方法在很大程度上在不同的数据集或使用不一致的评估指标上进行了评估,使得难以理解的性能是改善,并且额外研究将是最丰富的。此外,处理卫星和地面调查数据需要域知识,其中许多机器学习群落缺乏。在本文中,我们介绍了3个SDG的3个基准任务的集合,包括与经济发展,农业,健康,教育,水和卫生,气候行动和陆地生命相关的任务。 15个任务中的11个数据集首次公开发布。我们为Acceptandbench的目标是(1)降低机器学习界的进入的障碍,以促进衡量和实现SDGS; (2)提供标准基准,用于评估各种SDG的任务的机器学习模型; (3)鼓励开发新颖的机器学习方法,改进的模型性能促进了对SDG的进展。
translated by 谷歌翻译
随着大型语言模型的出现,抽象性摘要的方法取得了长足的进步,从而在应用程序中使用了帮助知识工人处理笨拙的文档收集的潜力。一个这样的环境是民权诉讼交换所(CRLC)(https://clearinghouse.net),其中发布了有关大规模民权诉讼,服务律师,学者和公众的信息。如今,CRLC中的摘要需要对律师和法律专业的学生进行广泛的培训,这些律师和法律专业的学生花费数小时了解多个相关文件,以便产生重要事件和结果的高质量摘要。在这种持续的现实世界摘要工作的激励下,我们引入了Multi-iplesum,这是由正在进行的CRLC写作中绘制的9,280个专家作者的摘要集。鉴于源文档的长度,多文章介绍了一个具有挑战性的多文档摘要任务,通常每个情况超过200页。此外,多胎sum与其多个目标摘要中的其他数据集不同,每个数据集都处于不同的粒度(从一句“极端”摘要到超过五百个单词的多段落叙述)。我们提供了广泛的分析,表明,尽管培训数据(遵守严格的内容和样式准则)中的摘要很高,但最新的摘要模型在此任务上的表现较差。我们发布了多体式的摘要方法,以及促进应用程序的开发,以协助CRLC的任务https://multilexsum.github.io。
translated by 谷歌翻译
We introduce Argoverse 2 (AV2) - a collection of three datasets for perception and forecasting research in the self-driving domain. The annotated Sensor Dataset contains 1,000 sequences of multimodal data, encompassing high-resolution imagery from seven ring cameras, and two stereo cameras in addition to lidar point clouds, and 6-DOF map-aligned pose. Sequences contain 3D cuboid annotations for 26 object categories, all of which are sufficiently-sampled to support training and evaluation of 3D perception models. The Lidar Dataset contains 20,000 sequences of unlabeled lidar point clouds and map-aligned pose. This dataset is the largest ever collection of lidar sensor data and supports self-supervised learning and the emerging task of point cloud forecasting. Finally, the Motion Forecasting Dataset contains 250,000 scenarios mined for interesting and challenging interactions between the autonomous vehicle and other actors in each local scene. Models are tasked with the prediction of future motion for "scored actors" in each scenario and are provided with track histories that capture object location, heading, velocity, and category. In all three datasets, each scenario contains its own HD Map with 3D lane and crosswalk geometry - sourced from data captured in six distinct cities. We believe these datasets will support new and existing machine learning research problems in ways that existing datasets do not. All datasets are released under the CC BY-NC-SA 4.0 license.
translated by 谷歌翻译
由于筛选乳房X线照片的假阴性评估,通常在晚期检测到与其他癌症更差的间隔和大型侵入性乳腺癌。错过的筛选时间检测通常由其周围乳腺组织模糊的肿瘤引起的,这是一种称为掩蔽的现象。为了研究和基准爆发癌症的乳房Xmmpare掩蔽,在这项工作中,我们引入CSAW-M,最大的公共乳房数据集,从10,000多个人收集并用潜在的掩蔽注释。与以前的方法对比测量乳房图像密度作为代理的方法,我们的数据集直接提供了五个专家屏蔽潜在评估的注释。我们还培训了CSAW-M的深入学习模型来估计掩蔽水平,并显示估计的掩蔽更加预测筛查患有间隔和大型侵入性癌症的参与者 - 而不是明确培训这些任务 - 而不是其乳房密度同行。
translated by 谷歌翻译
由于其主观性质,美学的计算推断是一项不确定的任务。已经提出了许多数据集来通过根据人类评级提供成对的图像和美学得分来解决问题。但是,人类更好地通过语言表达自己的观点,品味和情感,而不是单个数字总结他们。实际上,照片评论提供了更丰富的信息,因为它们揭示了用户如何以及为什么对视觉刺激的美学评价。在这方面,我们提出了Reddit照片评论数据集(RPCD),其中包含图像和照片评论的元素。 RPCD由74K图像和220k评论组成,并从业余爱好者和专业摄影师使用的Reddit社区收集,以利用建设性的社区反馈来提高其摄影技巧。所提出的数据集与以前的美学数据集不同,主要是三个方面,即(i)数据集的大规模数据集和批评图像不同方面的评论的扩展,(ii)它主要包含Ultrahd映像,以及(iii)它通过自动管道收集,可以轻松地扩展到新数据。据我们所知,在这项工作中,我们提出了首次尝试估算批评的视觉刺激质量的尝试。为此,我们利用批评情绪的极性为美学判断的指标。我们证明了情感如何与可用于两种美学评估基准的美学判断正相关。最后,我们通过使用情感得分作为排名图像的目标进行了几种模型。提供数据集和基准(https://github.com/mediatechnologycenter/aestheval)。
translated by 谷歌翻译
联合学习是一种新兴的机器学习(ML)范式,其中大量设备集体训练ML模型,而数据仍保留在设备上。该研究领域有一系列独特的实践挑战,为了系统地取得进步,需要策划与此范式兼容的新数据集。图像域中的现有联合学习基准不能准确捕获许多实际用例的规模和异质性。我们介绍了Flair,这是一个具有挑战性的大规模注释图像数据集,用于适合联合学习的多标签分类。弗莱尔(Flair)拥有来自51,414个Flickr用户的429,078张图像,并捕获了联合学习中通常遇到的许多复杂性,例如异质用户数据和长尾标签分布。我们在此数据集上的不同任务中实现了不同的学习设置中的多个基线。我们认为,天赋可以作为推进联邦学习最先进的具有挑战性的基准。数据集访问和基准的代码可在\ url {https://github.com/apple/ml-flair}上获得。
translated by 谷歌翻译
We present a new NLP task and dataset from the domain of the U.S. civil procedure. Each instance of the dataset consists of a general introduction to the case, a particular question, and a possible solution argument, accompanied by a detailed analysis of why the argument applies in that case. Since the dataset is based on a book aimed at law students, we believe that it represents a truly complex task for benchmarking modern legal language models. Our baseline evaluation shows that fine-tuning a legal transformer provides some advantage over random baseline models, but our analysis reveals that the actual ability to infer legal arguments remains a challenging open research question.
translated by 谷歌翻译
恶意软件家庭分类是具有公共安全的重要问题,并通过专家标签的高成本受到阻碍的重要问题。绝大多数公司使用嘈杂的标签方法,阻碍了结果的定量量化和更深的相互作用。为了提供进一步前进所需的数据,我们创建了恶意软件开源威胁情报族(图案)数据集。 MOTIF包含来自454个家庭的3,095个恶意软件样本,使其成为最大,最多样化的公共恶意软件数据集,迄今为止,比以前的Windows恶意软件语料库大于任何先前的专家标记的语料库,近3倍。 MOTIF还附带了从恶意软件样本到威胁报告的映射,以信誉良好的行业来源发布,这两者都验证了标签,并打开了将不透明的恶意软件样本连接到人类可读描述的新的研究机会。这使得重要的评估通常是不可行的,由于行业的非标准化报告。例如,我们提供用于描述相同恶意软件系列的不同名称的别名,允许我们在从不同源获得名称时,为您的第一次准确性进行基准测试。使用MOTIF数据集获得的评估结果表明现有任务具有重要的改进空间,抗病毒多数投票的准确性仅以62.10%和众所周知的高度精度测量。我们的调查结果表明,由于在所考虑的样品中可能无法清楚的类别,因此,恶意软件家庭分类与大多数ML文献中的研究不同的标记噪声遭受任何类型的标记噪声。
translated by 谷歌翻译
多代理行为建模旨在了解代理之间发生的交互。我们从行为神经科学,Caltech鼠标社交交互(CALMS21)数据集中提供了一个多代理数据集。我们的数据集由社交交互的轨迹数据组成,从标准居民入侵者测定中自由行为小鼠的视频记录。为了帮助加速行为研究,CALMS21数据集提供基准,以评估三种设置中自动行为分类方法的性能:(1)用于培训由单个注释器的所有注释,(2)用于风格转移以进行学习互动在特定有限培训数据的新行为学习的行为定义和(3)的注释差异。 DataSet由600万个未标记的追踪姿势的交互小鼠组成,以及超过100万帧,具有跟踪的姿势和相应的帧级行为注释。我们的数据集的挑战是能够使用标记和未标记的跟踪数据准确地对行为进行分类,以及能够概括新设置。
translated by 谷歌翻译
虽然编程是现代社会中最广泛适用的技能之一,但现代机器学习模型仍然无法对基本问题的解决方案。尽管重要的是,对评估代码生成令人惊讶的是,很少有效,并且难以准确地评估代码生成性能。为了满足这一挑战,我们介绍了一个用于代码生成的基准。与在更受限制的设置中的事先工作不同,我们的基准测试衡量模型采取任意自然语言规范的能力,并生成满意的Python代码。类似于公司如何评估候选软件开发人员,然后我们通过检查测试用例的生成代码来评估模型。我们的基准测试包括10,000个问题,从具有简单的单线解决方案来实现实质性算法挑战。我们在GitHub和我们的培训集上微调大型语言模型,我们发现语法错误的普遍性随着模型的提高而导致呈指数级递减。最近的模型如GPT-Neo可以通过大约20%的介绍性问题的测试用例,因此我们发现机器学习模型现在开始学习如何代码。随着自动代码生成的社会意义在未来几年增加,我们的基准可以提供跟踪进步的重要措施。
translated by 谷歌翻译
个体治疗效果(ITE)预测是机器学习的重要研究领域,其目的在解释和估算粒状水平时的作用的因果影响。它代表了对诸如医疗保健,在线广告或社会经济学的多个申请兴趣的问题。为了促进本主题的研究,我们释放了从几个随机控制试验中收集的1390万个样本的公开收集,通过健康的210倍因素扩展先前可用的数据集。我们提供有关数据收集的详细信息,并执行Sanity检查以验证使用此数据是否有因果推理任务。首先,我们正规化可以使用此数据执行的隆起建模(UM)的任务以及相关的评估指标。然后,我们提出了为ITE预测提供了一般设置的合成响应表面和异质处理分配。最后,我们报告实验以验证利用其大小的数据集的关键特性,以评估和比较 - 具有高统计显着性 - 基线UM和ITE预测方法的选择。
translated by 谷歌翻译
由于几个因素之间的微妙权衡:参与者的隐私,生态有效性,数据保真度和后勤开销,记录野外未脚本人类互动的动态是具有挑战性的。为了解决这些问题,在社区精神上为社区的“数据集”之后,我们提出了会议生活实验室(Conflab):一个新的概念,用于多模式多模式数据收集,野生野外社交对话。对于此处描述的Conflab的首次实例化,我们在一次大型国际会议上组织了现实生活中的专业网络活动。该数据集涉及48个会议参与者,捕捉了地位,熟人和网络动机的各种组合。我们的捕获设置改善了先前野外数据集的数据保真度,同时保留隐私敏感性:从非侵入性的架空视图中获得8个视频(1920x1080,60 fps),并具有定制的可穿戴传感器,并带有车载记录(完整9) - 轴IMU),具有隐私性的低频音频(1250 Hz)和基于蓝牙的接近度。此外,我们开发了用于采集时分布式硬件同步的自定义解决方案,并以高采样速率对身体关键点和动作进行了及时的连续注释。我们的基准测试展示了与野外隐私保护社交数据分析有关的一些开放研究任务:从高架摄像头视图,基于骨架的No-Audio扬声器检测和F-Formation检测中的关键点检测。
translated by 谷歌翻译
机器学习数据集引起了对隐私,偏见和不道德应用的担忧,导致突出数据集的缩写,例如Dukemtmc,MS-Celeb-1M和微小图像。作为响应,机器学习界已在数据集创建中呼吁更高的道德标准。为了帮助通知这些努力,我们研究了三个有影响力的但道德问题的面部和人识别数据集 - 在野外(LFW),MS-Celeb-1M和DukemTM中标记的面孔 - 通过分析近1000篇引用它们的纸张。我们发现,创建衍生数据集和模型,更广泛的技术和社会变革,许可证缺乏清晰度,数据集管理实践可以引入广泛的道德问题。我们通过表明分布式方法来伤害消除数据集的整个生命周期的危害。
translated by 谷歌翻译