我们介绍Artbench-10,这是一流的平衡,高质量的,清洁的注释和标准化数据集,用于基准艺术品生成。它包括60,000幅艺术品图像,来自10种独特的艺术风格,每种样式的训练图像和1,000张测试图像。 Artbench-10比以前的艺术品数据集具有多个优势。首先,它是平衡的,而大多数以前的艺术品数据集都遭受了长时间的分布。其次,这些图像具有高质量,并带有干净的注释。第三,ArtBench-10是由标准化数据收集,注释,过滤和预处理程序创建的。我们提供三个版本的数据集,具有不同的分辨率($ 32 \ times32 $,$ 256 \ times256 $和原始图像尺寸),并以一种易于通过流行的机器学习框架来合并的方式。我们还使用具有ArtBench-10的代表性图像合成模型进行了广泛的基准测试实验,并进行了深入分析。该数据集可从https://github.com/liaopeiyuan/artbench获得公平使用许可证。
translated by 谷歌翻译
成对图像和文本的大型数据集越来越受到愿景和愿景和语言任务的通用表示。此类数据集已通过查询搜索引擎或收集HTML Alt-Text构建 - 由于Web数据是嘈杂的,因此它们需要复杂的过滤管道来维护质量。我们探索备用数据源以收集具有最小滤波的高质量数据。我们介绍Redcaps - 从Reddit收集的12M图像文本对的大规模数据集。来自Reddit的图像和标题描绘并描述了各种各样的物体和场景。我们从手动策划的FuSoddits集中收集数据,这为粗略图像标签提供给粗略图像标签,并允许我们转向数据集组合而不标记单个实例。我们展示Redcaps培训的标题模型产生了人类优选的丰富和各种标题,并学习转移到许多下游任务的视觉表现。
translated by 谷歌翻译
生成对抗网络(GAN)是现实图像合成的最新生成模型之一。虽然培训和评估GAN变得越来越重要,但当前的GAN研究生态系统并未提供可靠的基准,以始终如一地进行评估。此外,由于GAN实施很少,因此研究人员将大量时间用于重现基线。我们研究了GAN方法的分类法,并提出了一个名为Studiogan的新开源库。 Studiogan支持7种GAN体系结构,9种调理方法,4种对抗损失,13个正则化模块,3个可区分的增强,7个评估指标和5个评估骨干。通过我们的培训和评估协议,我们使用各种数据集(CIFAR10,ImageNet,AFHQV2,FFHQ和Baby/Papa/Granpa-Imagenet)和3个不同的评估骨干(InceptionV3,Swav,Swav和Swin Transformer)提出了大规模的基准。与GAN社区中使用的其他基准不同,我们在统一的培训管道中培训了包括Biggan,stylegan2和stylegan3在内的代表GAN,并使用7个评估指标量化了生成性能。基准测试评估其他尖端生成模型(例如,stylegan-xl,adm,maskgit和rq-transformer)。 Studiogan提供了预先训练的权重的GAN实现,培训和评估脚本。 Studiogan可从https://github.com/postech-cvlab/pytorch-studiogan获得。
translated by 谷歌翻译
由于其主观性质,美学的计算推断是一项不确定的任务。已经提出了许多数据集来通过根据人类评级提供成对的图像和美学得分来解决问题。但是,人类更好地通过语言表达自己的观点,品味和情感,而不是单个数字总结他们。实际上,照片评论提供了更丰富的信息,因为它们揭示了用户如何以及为什么对视觉刺激的美学评价。在这方面,我们提出了Reddit照片评论数据集(RPCD),其中包含图像和照片评论的元素。 RPCD由74K图像和220k评论组成,并从业余爱好者和专业摄影师使用的Reddit社区收集,以利用建设性的社区反馈来提高其摄影技巧。所提出的数据集与以前的美学数据集不同,主要是三个方面,即(i)数据集的大规模数据集和批评图像不同方面的评论的扩展,(ii)它主要包含Ultrahd映像,以及(iii)它通过自动管道收集,可以轻松地扩展到新数据。据我们所知,在这项工作中,我们提出了首次尝试估算批评的视觉刺激质量的尝试。为此,我们利用批评情绪的极性为美学判断的指标。我们证明了情感如何与可用于两种美学评估基准的美学判断正相关。最后,我们通过使用情感得分作为排名图像的目标进行了几种模型。提供数据集和基准(https://github.com/mediatechnologycenter/aestheval)。
translated by 谷歌翻译
联合学习是一种新兴的机器学习(ML)范式,其中大量设备集体训练ML模型,而数据仍保留在设备上。该研究领域有一系列独特的实践挑战,为了系统地取得进步,需要策划与此范式兼容的新数据集。图像域中的现有联合学习基准不能准确捕获许多实际用例的规模和异质性。我们介绍了Flair,这是一个具有挑战性的大规模注释图像数据集,用于适合联合学习的多标签分类。弗莱尔(Flair)拥有来自51,414个Flickr用户的429,078张图像,并捕获了联合学习中通常遇到的许多复杂性,例如异质用户数据和长尾标签分布。我们在此数据集上的不同任务中实现了不同的学习设置中的多个基线。我们认为,天赋可以作为推进联邦学习最先进的具有挑战性的基准。数据集访问和基准的代码可在\ url {https://github.com/apple/ml-flair}上获得。
translated by 谷歌翻译
生成模型生成的合成数据可以增强医学成像中渴望数据深度学习模型的性能和能力。但是,(1)(合成)数据集的可用性有限,并且(2)生成模型训练很复杂,这阻碍了它们在研究和临床应用中的采用。为了减少此入口障碍,我们提出了Medigan,Medigan是一站式商店,用于验证的生成型号,该型号是开源框架 - 不合骨python图书馆。 Medigan允许研究人员和开发人员仅在几行代码中创建,增加和域名。在基于收集的最终用户需求的设计决策的指导下,我们基于生成模型的模块化组件(i)执行,(ii)可视化,(iii)搜索和排名以及(iv)贡献。图书馆的可伸缩性和设计是通过其越来越多的综合且易于使用的验证生成模型来证明的,该模型由21种模型组成,利用9种不同的生成对抗网络体系结构在4个域中在11个数据集中训练,即乳腺摄影,内窥镜检查,X射线和X射线和X射线镜头,X射线和X型。 MRI。此外,在这项工作中分析了Medigan的3个应用,其中包括(a)启用社区范围内的限制数据共享,(b)研究生成模型评估指标以及(c)改进临床下游任务。在(b)中,扩展了公共医学图像综合评估和报告标准,我们根据图像归一化和特定于放射学特征提取了Fr \'Echet Inception距离变异性。
translated by 谷歌翻译
最先进的语义或实例分割深度神经网络(DNN)通常在封闭的语义类上培训。因此,它们的装备不适用于处理以前的未持续的对象。然而,检测和定位这些物体对于安全关键应用至关重要,例如对自动驾驶的感知,特别是如果它们出现在前方的道路上。虽然某些方法已经解决了异常或分发的对象分割的任务,但由于缺乏固体基准,在很大程度上存在进展仍然缓慢;现有数据集由合成数据组成,或遭受标签不一致。在本文中,我们通过介绍“SegmentMeifyOUCAN”基准来弥合这个差距。我们的基准解决了两个任务:异常对象分割,这将考虑任何以前的未持续的对象类别;和道路障碍分割,它侧重于道路上的任何物体,可能是已知的或未知的。我们将两个相应的数据集与执行深入方法分析的测试套件一起提供,考虑到已建立的像素 - 明智的性能度量和最近的组件 - 明智的,这对对象尺寸不敏感。我们凭经验评估了多种最先进的基线方法,包括使用我们的测试套件在我们的数据集和公共数据上专门为异常/障碍分割而设计的多种型号。异常和障碍分割结果表明,我们的数据集有助于数据景观的多样性和难度。
translated by 谷歌翻译
在这项工作中,我们研究了生成图像模型的性能和评估如何受到其培训数据集的种族组成的影响。通过检查和控制各种培训数据集中的种族分布,我们能够观察不同培训分布对生成的图像质量和生成图像的种族分布的影响。我们的结果表明,生成的图像的种族组成成功地保留了培训数据。但是,我们观察到截断是一种用于在推断过程中生成更高质量图像的技术,加剧了数据中的种族失衡。最后,在检查图像质量与种族之间的关系时,我们发现给定种族的最高可感知的视觉质量图像来自该种族代表性很好的分布,并且注释者始终偏爱白人的生成图像,而不是黑人。
translated by 谷歌翻译
创新是经济和社会发展的主要驱动力,有关多种创新的信息嵌入了专利和专利申请的半结构化数据中。尽管在专利数据中表达的创新的影响和新颖性很难通过传统手段来衡量,但ML提供了一套有希望的技术来评估新颖性,汇总贡献和嵌入语义。在本文中,我们介绍了Harvard USPTO专利数据集(HUPD),该数据集是2004年至2004年之间提交给美国专利商业办公室(USPTO)的大型,结构化和多用途的英语专利专利申请。 2018年。HUPD拥有超过450万张专利文件,是可比的Coldia的两到三倍。与以前在NLP中提出的专利数据集不同,HUPD包含了专利申请的发明人提交的版本(不是授予专利的最终版本),其中允许我们在第一次使用NLP方法进行申请时研究专利性。它在包含丰富的结构化元数据以及专利申请文本的同时也很新颖:通过提供每个应用程序的元数据及其所有文本字段,数据集使研究人员能够执行一组新的NLP任务,以利用结构性协变量的变异。作为有关HUPD的研究类型的案例研究,我们向NLP社区(即专利决策的二元分类)介绍了一项新任务。我们还显示数据集中提供的结构化元数据使我们能够对此任务进行概念转移的明确研究。最后,我们演示了如何将HUPD用于三个其他任务:专利主题领域的多类分类,语言建模和摘要。
translated by 谷歌翻译
通过卫星图像和机器学习对行星进行大规模分析是一个梦想,这一梦想不断受到难以获取高度代表性的高分辨率图像的成本的阻碍。为了纠正此问题,我们在这里介绍WorldStrat数据集。 The largest and most varied such publicly available dataset, at Airbus SPOT 6/7 satellites' high resolution of up to 1.5 m/pixel, empowered by European Space Agency's Phi-Lab as part of the ESA-funded QueryPlanet project, we curate nearly 10,000独特位置的SQKM,以确保全世界所有类型的土地用途分层:从农业到冰盖,从森林到多种城市化密度。我们还丰富了通常在ML数据集中代表不足的地点的人:人道主义兴趣的地点,非法采矿地点以及有风险的人的定居点。我们以10 m/pixel的可自由访问的下分辨率Sentinel-2卫星的多个低分辨率图像为暂时匹配每个高分辨率图像。我们伴随着该数据集的开源Python软件包,以:重建或扩展WorldStrat数据集,训练和推断基线算法,并使用丰富的教程学习,所有这些都与流行的EO-Learn Toolbox兼容。我们特此希望能够促进ML在卫星图像中的广泛应用,并可能从免费的公共低分辨率Sentinel2图像中发展出昂贵的私人高分辨率图像所允许的相同的分析能力。我们通过训练并发布了有关多帧超分辨率任务的几个高度计算效率的基线来说明这一特定点。高分辨率空中图像是CC BY-NC,而标签和Sentinel2图像为CC,而BSD下的源代码和预训练模型。该数据集可从https://zenodo.org/record/6810792获得,并在https://github.com/worldstrat/worldstrat上获得。
translated by 谷歌翻译
我们介绍了自回归文本到图像(Parti)模型的途径,该模型生成高保真的影像图像并支持涉及复杂组成和世界知识的内容丰富的合成。 Parti将文本对图像生成视为类似于机器翻译的序列到序列建模问题,图像令牌的序列是目标输出,而不是其他语言的文本令牌。这种策略自然可以利用大型语言模型的先前工作,通过扩展数据和模型尺寸,能力和性能的持续进展。我们的方法很简单:首先,Parti使用基于变压器的图像令牌VIT-VQGAN将图像编码为离散令牌的序列。其次,我们通过将编码器二次变压器模型缩放到20B参数来实现一致的质量改进,其新的最新零弹药FID得分为7.23,而MS-Coco的FIDED得分为3.22。我们对本地化叙述以及党的详细分析(P2),这是1600多个英语提示的新的整体基准,证明了Parti在各种类别和难度方面的有效性。我们还探索并突出了我们的模型的局限性,以定义和体现关注重点领域以进一步改进。有关高分辨率图像,请参见https://parti.research.google/。
translated by 谷歌翻译
机器学习数据集引起了对隐私,偏见和不道德应用的担忧,导致突出数据集的缩写,例如Dukemtmc,MS-Celeb-1M和微小图像。作为响应,机器学习界已在数据集创建中呼吁更高的道德标准。为了帮助通知这些努力,我们研究了三个有影响力的但道德问题的面部和人识别数据集 - 在野外(LFW),MS-Celeb-1M和DukemTM中标记的面孔 - 通过分析近1000篇引用它们的纸张。我们发现,创建衍生数据集和模型,更广泛的技术和社会变革,许可证缺乏清晰度,数据集管理实践可以引入广泛的道德问题。我们通过表明分布式方法来伤害消除数据集的整个生命周期的危害。
translated by 谷歌翻译
计算机视觉(CV)取得了显着的结果,在几个任务中表现优于人类。尽管如此,如果不正确处理,可能会导致重大歧视,因为CV系统高度依赖于他们所用的数据,并且可以在此类数据中学习和扩大偏见。因此,理解和发现偏见的问题至关重要。但是,没有关于视觉数据集中偏见的全面调查。因此,这项工作的目的是:i)描述可能在视觉数据集中表现出来的偏差; ii)回顾有关视觉数据集中偏置发现和量化方法的文献; iii)讨论现有的尝试收集偏见视觉数据集的尝试。我们研究的一个关键结论是,视觉数据集中发现和量化的问题仍然是开放的,并且在方法和可以解决的偏见范围方面都有改进的余地。此外,没有无偏见的数据集之类的东西,因此科学家和从业者必须意识到其数据集中的偏见并使它们明确。为此,我们提出了一个清单,以在Visual DataSet收集过程中发现不同类型的偏差。
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
多代理行为建模旨在了解代理之间发生的交互。我们从行为神经科学,Caltech鼠标社交交互(CALMS21)数据集中提供了一个多代理数据集。我们的数据集由社交交互的轨迹数据组成,从标准居民入侵者测定中自由行为小鼠的视频记录。为了帮助加速行为研究,CALMS21数据集提供基准,以评估三种设置中自动行为分类方法的性能:(1)用于培训由单个注释器的所有注释,(2)用于风格转移以进行学习互动在特定有限培训数据的新行为学习的行为定义和(3)的注释差异。 DataSet由600万个未标记的追踪姿势的交互小鼠组成,以及超过100万帧,具有跟踪的姿势和相应的帧级行为注释。我们的数据集的挑战是能够使用标记和未标记的跟踪数据准确地对行为进行分类,以及能够概括新设置。
translated by 谷歌翻译
随着几个行业正在朝着建模大规模的3D虚拟世界迈进,因此需要根据3D内容的数量,质量和多样性来扩展的内容创建工具的需求变得显而易见。在我们的工作中,我们旨在训练Parterant 3D生成模型,以合成纹理网格,可以通过3D渲染引擎直接消耗,因此立即在下游应用中使用。 3D生成建模的先前工作要么缺少几何细节,因此在它们可以生成的网格拓扑中受到限制,通常不支持纹理,或者在合成过程中使用神经渲染器,这使得它们在常见的3D软件中使用。在这项工作中,我们介绍了GET3D,这是一种生成模型,该模型直接生成具有复杂拓扑,丰富几何细节和高保真纹理的显式纹理3D网格。我们在可区分的表面建模,可区分渲染以及2D生成对抗网络中桥接了最新成功,以从2D图像集合中训练我们的模型。 GET3D能够生成高质量的3D纹理网格,从汽车,椅子,动物,摩托车和人类角色到建筑物,对以前的方法进行了重大改进。
translated by 谷歌翻译
生成的对抗网络(GANS)可以在狭窄的域中的照片逼真图像附近生成,例如人面。然而,模拟数据集的复杂分布,如想象成和Coco-ince,在无条件设置中仍然具有挑战性。在本文中,我们从内核密度估计技术中获取灵感并引入非参数方法来建模复杂数据集的分布。我们将数据歧管分为数据点及其最近邻居描述的重叠邻域的混合,并介绍一个名为实例条件GaN(IC-GaN)的模型,该模型将从每个数据点周围的分布中生动分布。 Imagenet和Coco-Stump的实验结果表明,IC-GaN显着改善了无条件模型和无监督数据分区基线。此外,我们表明IC-GaN可以通过简单地改变调节实例来毫不费力地转移到训练期间未见的数据集,并且仍然产生现实图像。最后,我们将IC-GAN扩展到课堂条件情况下,并在想象中显示语义可控的发电和竞争定量结果;同时在想象中改善了大战。在https://github.com/facebookResearch/IC_GAN中提供了重现报告结果的代码和训练有素的模型。
translated by 谷歌翻译
大型预先训练的语言模型已经显示了几次拍摄学习的承诺,只提供了几个任务特定示例给出了基于文本的任务。款式将很快解决到目前为止为人类研究助理保留的分类任务吗?现有的基准标记不设计用于衡量应用设置的进度,因此不要直接回答这个问题。 RAFT基准(现实世界注释的少量拍摄任务)侧重于自然发生的任务,并使用镜像部署的评估设置。 RAFT的基线评估揭示了当前技术斗争的地区:推理在许多班级的长篇文章和任务上。人类基线表明,非专家人类难以反映出一些分类任务,反映了现实世界的价值有时依赖于域名专业知识。甚至非专业人类基线F1分数超过GPT-3平均为0.11。 RAFT DataSets和排行榜将跟踪哪些模型改进在https://raft.elict.org中转化为现实世界的优势。
translated by 谷歌翻译
现实世界的行为通常是由多种代理之间复杂的相互作用来塑造的。为了可靠地研究多代理行为,无监督和自我监督的学习的进步使从轨迹数据中学到了各种不同的行为表示。迄今为止,还没有一组统一的基准测试,可以在广泛的行为分析设置中进行定量和系统地比较方法。我们的目的是通过引入来自现实世界行为神经科学实验的大规模,多代理轨迹数据集来解决这一问题,该数据集涵盖了一系列行为分析任务。我们的数据集由来自通用模型生物的轨迹数据组成,其中有960万帧的小鼠数据和440万帧的飞行数据,在各种实验环境中,例如不同的菌株,相互作用的长度和光遗传学刺激。框架的子集还包括专家注销的行为标签。我们数据集的改进对应于跨多种生物的行为表示,并能够捕获常见行为分析任务的差异。
translated by 谷歌翻译
由于筛选乳房X线照片的假阴性评估,通常在晚期检测到与其他癌症更差的间隔和大型侵入性乳腺癌。错过的筛选时间检测通常由其周围乳腺组织模糊的肿瘤引起的,这是一种称为掩蔽的现象。为了研究和基准爆发癌症的乳房Xmmpare掩蔽,在这项工作中,我们引入CSAW-M,最大的公共乳房数据集,从10,000多个人收集并用潜在的掩蔽注释。与以前的方法对比测量乳房图像密度作为代理的方法,我们的数据集直接提供了五个专家屏蔽潜在评估的注释。我们还培训了CSAW-M的深入学习模型来估计掩蔽水平,并显示估计的掩蔽更加预测筛查患有间隔和大型侵入性癌症的参与者 - 而不是明确培训这些任务 - 而不是其乳房密度同行。
translated by 谷歌翻译