智能论文笔记

Mitigating Dataset Harms Requires Stewardship: Lessons from 1000 Papers

Kenny Peng , Arunesh Mathur , Arvind Narayanan

分类：机器学习

2021-08-06

机器学习数据集引起了对隐私，偏见和不道德应用的担忧，导致突出数据集的缩写，例如Dukemtmc，MS-Celeb-1M和微小图像。作为响应，机器学习界已在数据集创建中呼吁更高的道德标准。为了帮助通知这些努力，我们研究了三个有影响力的但道德问题的面部和人识别数据集 - 在野外（LFW），MS-Celeb-1M和DukemTM中标记的面孔 - 通过分析近1000篇引用它们的纸张。我们发现，创建衍生数据集和模型，更广泛的技术和社会变革，许可证缺乏清晰度，数据集管理实践可以引入广泛的道德问题。我们通过表明分布式方法来伤害消除数据集的整个生命周期的危害。

translated by 谷歌翻译

Understanding Machine Learning Practitioners' Data Documentation Perceptions, Needs, Challenges, and Desiderata

Amy K. Heger , Liz B. Marquis , Mihaela Vorvoreanu , Hanna Wallach , Jennifer Wortman Vaughan

分类：人工智能

2022-06-06

数据对于机器学习（ML）模型的开发和评估至关重要。但是，在部署所得模型时，使用有问题或不适当的数据集可能会造成危害。为了通过对数据集进行更故意的反思和创建过程的透明度来鼓励负责任的练习，研究人员和从业人员已开始倡导增加数据文档，并提出了几个数据文档框架。但是，几乎没有研究这些数据文档框架是否满足创建和消费数据集的ML从业者的需求。为了解决这一差距，我们着手了解ML从业人员的数据文档感知，需求，挑战和Desiderata，目的是推导设计要求，以便为将来的数据文档框架提供信息。我们对一家大型国际技术公司的14名ML从业者进行了一系列半结构化访谈。我们让他们回答从数据集的数据表中提取的问题列表（Gebru，2021）。我们的发现表明，目前的数据文档方法在很大程度上是临时的，而且本质上是近视的。参与者表达了对数据文档框架的需求，可以适应其上下文，并将其集成到现有的工具和工作流程中，并尽可能自动化。尽管事实上，数据文档框架通常是从负责人的AI的角度出发的，但参与者并未在他们被要求回答的问题与负责的AI含义之间建立联系。此外，参与者通常会在数据集消费者的需求中优先考虑，并提供了不熟悉其数据集可能需要知道的信息。基于这些发现，我们为将来的数据文档框架得出了七个设计要求。

translated by 谷歌翻译

Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset

Peter Henderson , Mark S. Krass , Lucia Zheng , Neel Guha , Christopher D. Manning , Dan Jurafsky , Daniel E. Ho

分类：自然语言处理

2022-07-01

大语言模型的兴起的一个关注点是它们可能造成重大伤害的潜力，尤其是在偏见，淫秽，版权和私人信息方面进行预处理。新兴的道德方法试图过滤预处理的材料，但是这种方法是临时的，未能考虑到上下文。我们提供了一种以法律为基础的过滤方法，该方法直接解决了过滤材料的权衡。首先，我们收集并提供了一堆法律，这是一个256GB（以及增长）的开源英语法律和行政数据数据集，涵盖法院意见，合同，行政规则和立法记录。对一堆法律进行预处理可能有助于解决有望改善司法接触的法律任务。其次，我们提炼政府已制定的法律规范将有毒或私人内容限制为可行的研究人员，并讨论我们的数据集如何反映这些规范。第三，我们展示了一堆法律如何为研究人员提供直接从数据中学习此类过滤规则的机会，从而为基于模型的处理提供了令人兴奋的新研究方向。

translated by 谷歌翻译

RedCaps: web-curated image-text data created by the people, for the people

Karan Desai , Gaurav Kaul , Zubin Aysola , Justin Johnson

分类：计算机视觉 | 自然语言处理

2021-11-22

成对图像和文本的大型数据集越来越受到愿景和愿景和语言任务的通用表示。此类数据集已通过查询搜索引擎或收集HTML Alt-Text构建 - 由于Web数据是嘈杂的，因此它们需要复杂的过滤管道来维护质量。我们探索备用数据源以收集具有最小滤波的高质量数据。我们介绍Redcaps - 从Reddit收集的12M图像文本对的大规模数据集。来自Reddit的图像和标题描绘并描述了各种各样的物体和场景。我们从手动策划的FuSoddits集中收集数据，这为粗略图像标签提供给粗略图像标签，并允许我们转向数据集组合而不标记单个实例。我们展示Redcaps培训的标题模型产生了人类优选的丰富和各种标题，并学习转移到许多下游任务的视觉表现。

translated by 谷歌翻译

RAFT: A Real-World Few-Shot Text Classification Benchmark

Neel Alex , Eli Lifland , Lewis Tunstall , Abhishek Thakur , Pegah Maham , C. Jess Riedel , Emmie Hine , Carolyn Ashurst , Paul Sedille , Alexis Carlier

分类：自然语言处理 | 人工智能 | 机器学习

2021-09-28

大型预先训练的语言模型已经显示了几次拍摄学习的承诺，只提供了几个任务特定示例给出了基于文本的任务。款式将很快解决到目前为止为人类研究助理保留的分类任务吗？现有的基准标记不设计用于衡量应用设置的进度，因此不要直接回答这个问题。 RAFT基准（现实世界注释的少量拍摄任务）侧重于自然发生的任务，并使用镜像部署的评估设置。 RAFT的基线评估揭示了当前技术斗争的地区：推理在许多班级的长篇文章和任务上。人类基线表明，非专家人类难以反映出一些分类任务，反映了现实世界的价值有时依赖于域名专业知识。甚至非专业人类基线F1分数超过GPT-3平均为0.11。 RAFT DataSets和排行榜将跟踪哪些模型改进在https://raft.elict.org中转化为现实世界的优势。

translated by 谷歌翻译

Datasheets for Datasets

Timnit Gebru , Jamie Morgenstern , Briana Vecchione , Jennifer Wortman Vaughan , Hanna Wallach , Hal Daumé III , Kate Crawford

分类：人工智能 | 机器学习

2018-03-23

机器学习社区目前没有记录数据集的标准化过程，这可能导致高赌注域的严重后果。要解决此差距，我们提出了数据集的数据表。在电子行业，每个组件，无论多么简单或复杂，都附带了一个描述其操作特征，测试结果，推荐使用和其他信息的数据表。通过类比，我们建议每个数据集都附有一个数据表，这些表记录了它的动机，组成，收集过程，推荐用途等。数据集的数据表将有助于在数据集创建者和数据集消费者之间更好地沟通，并鼓励机器学习界优先考虑透明度和问责制。

translated by 谷歌翻译

Cinderella's shoe won't fit Soundarya: An audit of facial processing tools on Indian faces

Gaurav Jain , Smriti Parsheera

分类：计算机视觉

2021-12-17

由于隐私，透明度，问责制和缺少程序保障的担忧，印度的面部加工系统的增加越来越多。与此同时，我们也很少了解这些技术如何在印度13.4亿种群的不同特征，特征和肤色上表现出来。在本文中，我们在印度脸部的数据集中测试四个商用面部加工工具的面部检测和面部分析功能。该工具在面部检测和性别和年龄分类功能中显示不同的错误率。与男性相比，印度女性面的性别分类错误率始终如一，最高的女性错误率为14.68％。在某些情况下，这种错误率远高于其他国籍的女性之前的研究表明。年龄分类错误也很高。尽管从一个人的实际年龄从一个人的实际年龄到10年来考虑到可接受的误差率，但年龄预测失败的速度为14.3％至42.2％。这些发现指向面部加工工具的准确性有限，特别是某些人口组，在采用此类系统之前需要更关键的思维。

translated by 谷歌翻译

Rebuilding Trust: Queer in AI Approach to Artificial Intelligence Risk Management

Ashwin , William Agnew , Umut Pajaro , Hetvi Jethwani , Arjun Subramonian

分类：人工智能

2021-09-21

值得信赖的人工智能（AI）已成为一个重要的话题，因为在AI系统及其创造者中的信任已经丢失。研究人员，公司和政府具有远离技术开发，部署和监督的边缘化群体的长期和痛苦的历史。结果，这些技术对小群体的有用甚至有害。我们争辩说，渴望信任的任何AI开发，部署和监测框架必须纳入女权主义，非剥削参与性设计原则和强大，外部和持续监测和测试。我们还向考虑到透明度，公平性和问责制的可靠性方面的重要性，特别是考虑对任何值得信赖的AI系统的核心价值观的正义和转移权力。创建值得信赖的AI通过资金，支持和赋予Grassroots组织，如AI Queer等基层组织开始，因此AI领域具有多样性和纳入可信和有效地发展的可信赖AI。我们利用AI的专家知识Queer通过其多年的工作和宣传来讨论以及如何以及如何在数据集和AI系统中使用如何以及如何在数据集和AI系统中使用以及沿着这些线路的危害。基于此，我们分享了对AI的性别方法，进一步提出了Queer认识论并分析它可以带来AI的好处。我们还讨论了如何在愿景中讨论如何使用此Queer认识论，提出与AI和性别多样性和隐私和酷儿数据保护相关的框架。

translated by 谷歌翻译

Data Representativeness in Accessibility Datasets: A Meta-Analysis

Rie Kamikubo , Lining Wang , Crystal Marte , Amnah Mahmood , Hernisa Kacorri

分类：人工智能

2022-07-16

随着数据驱动的系统越来越大规模部署，对历史上边缘化的群体的不公平和歧视结果引起了道德问题，这些群体在培训数据中的代表性不足。作为回应，围绕AI的公平和包容性的工作呼吁代表各个人口组的数据集。在本文中，我们对可访问性数据集中的年龄，性别和种族和种族的代表性进行了分析 - 数据集 - 来自拥有的数据集，这些数据集来自拥有的人。残疾和老年人 - 这可能在减轻包含AI注入的应用程序的偏见方面发挥重要作用。我们通过审查190个数据集的公开信息来检查由残疾人来源的数据集中的当前表示状态，我们称这些可访问性数据集为止。我们发现可访问性数据集代表不同的年龄，但具有性别和种族表示差距。此外，我们研究了人口统计学变量的敏感和复杂性质如何使分类变得困难和不一致（例如，性别，种族和种族），标记的来源通常未知。通过反思当前代表残疾数据贡献者的挑战和机会，我们希望我们的努力扩大了更多可能将边缘化社区纳入AI注入系统的可能性。

translated by 谷歌翻译

OpenFilter: A Framework to Democratize Research Access to Social Media AR Filters

Piera Riccio , Bill Psomas , Francesco Galati , Francisco Escolano , Thomas Hofmann , Nuria Oliver

分类：计算机视觉 | 人工智能

2022-07-19

在自拍照上的增强现实或AR过滤器在社交媒体平台上已经非常受欢迎，用于各种应用程序，包括营销，娱乐和美学。鉴于AR面部过滤器的广泛采用以及面孔在我们的社会结构和关系中的重要性，科学界从心理，艺术和社会学的角度分析此类过滤器的影响增加了。但是，该领域的定量分析很少，这主要是由于缺乏具有应用AR过滤器的面部图像的公开数据集。大多数社交媒体平台的专有性，紧密的性质不允许用户，科学家和从业人员访问代码和可用AR面孔过滤器的详细信息。从这些平台上刮擦面孔以收集数据在道德上是不可接受的，因此应在研究中避免。在本文中，我们介绍了OpenFilter，这是一个灵活的框架，可在社交媒体平台上使用AR过滤器，可在现有的大量人体面孔上使用。此外，我们共享FairBeauty和B-LFW，这是公开可用的Fairface和LFW数据集的两个美化版本，我们概述了这些美化数据集的分析得出的见解。

translated by 谷歌翻译

The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and Multi-Purpose Corpus of Patent Applications

Mirac Suzgun , Luke Melas-Kyriazi , Suproteem K. Sarkar , Scott Duke Kominers , Stuart M. Shieber

分类：自然语言处理 | 机器学习

2022-07-08

创新是经济和社会发展的主要驱动力，有关多种创新的信息嵌入了专利和专利申请的半结构化数据中。尽管在专利数据中表达的创新的影响和新颖性很难通过传统手段来衡量，但ML提供了一套有希望的技术来评估新颖性，汇总贡献和嵌入语义。在本文中，我们介绍了Harvard USPTO专利数据集（HUPD），该数据集是2004年至2004年之间提交给美国专利商业办公室（USPTO）的大型，结构化和多用途的英语专利专利申请。 2018年。HUPD拥有超过450万张专利文件，是可比的Coldia的两到三倍。与以前在NLP中提出的专利数据集不同，HUPD包含了专利申请的发明人提交的版本（不是授予专利的最终版本），其中允许我们在第一次使用NLP方法进行申请时研究专利性。它在包含丰富的结构化元数据以及专利申请文本的同时也很新颖：通过提供每个应用程序的元数据及其所有文本字段，数据集使研究人员能够执行一组新的NLP任务，以利用结构性协变量的变异。作为有关HUPD的研究类型的案例研究，我们向NLP社区（即专利决策的二元分类）介绍了一项新任务。我们还显示数据集中提供的结构化元数据使我们能够对此任务进行概念转移的明确研究。最后，我们演示了如何将HUPD用于三个其他任务：专利主题领域的多类分类，语言建模和摘要。

translated by 谷歌翻译

Can I use this publicly available dataset to build commercial AI software? Most likely not

Gopi Krishnan Rajbahadur , Erika Tuck , Li Zi , Zhang Wei , Dayi Lin , Boyuan Chen , Zhen Ming , Jiang , Daniel Morales German

分类：机器学习 | 人工智能

2021-11-03

公共数据集是商业AI软件的关键驱动程序之一。使用公共可用数据集（特别是商业目的）由DataSet许可证管理。这些数据集许可证概述权利人有权获得给定数据集的权利以及必须履行必须履行诸如违反许可违规行为的权利的义务。但是，与标准化开源软件（OSS）许可不同，现有数据集许可证以临时方式定义，并不明确概述与其使用相关的权利和义务。这使得检查潜在的许可合规性违规。此外，公共数据集可以托管在多个位置，并从多个数据源创建，每个数据源可以具有不同的许可。因此，不能使用现有的检查OSS许可合规性的方法。在本文中，如果要用于建立商业AI软件，则提出了一种新的方法来评估潜在的许可合规性违规行为，如果要用于建立商业AI软件。我们在Huawei的两个产品组上进行了方法，常用的公共数据集进行了试验。我们的研究结果表明，如果它们用于商业目的，这6个学习的数据集中有5个违规风险。因此，我们为AI工程师提供了如何更好地评估公开可用数据集以获得许可合规性违规的建议。

translated by 谷歌翻译

Ethics Sheet for Automatic Emotion Recognition and Sentiment Analysis

Saif M. Mohammad

分类：自然语言处理 | 人工智能

2021-09-17

我们生活中情绪的重要性和普及性使得情感计算了一个非常重要和充满活力的工作。自动情感识别（AER）和情感分析的系统可以是巨大进展的促进者（例如，改善公共卫生和商业），而且还有巨大伤害的推动者（例如，用于抑制持不同政见者和操纵选民）。因此，情感计算社区必须积极地与其创作的道德后果搞。在本文中，我已经从AI伦理和情感认可文学中综合和组织信息，以提出与AER相关的五十个道德考虑因素。值得注意的是，纸张捏出了隐藏在如何框架的假设，并且在经常对数据，方法和评估的选择中的选择。特别关注在隐私和社会群体上的AER对AER的影响。沿途，关键建议是针对负责任的航空制作的。纸张的目标是促进和鼓励更加思考为什么自动化，如何自动化，以及如何在建立AER系统之前判断成功。此外，该纸张作为情感认可的有用介绍文件（补充调查文章）。

translated by 谷歌翻译

Reviving Purpose Limitation and Data Minimisation in Data-Driven Systems

Asia J. Biega , Michèle Finck

分类：机器学习

2021-01-15

本文确定了数据驱动系统中的数据最小化和目的限制的两个核心数据保护原理。虽然当代数据处理实践似乎与这些原则的赔率达到差异，但我们证明系统可以在技术上使用的数据远远少于目前的数据。此观察是我们详细的技术法律分析的起点，揭示了妨碍了妨碍了实现的障碍，并举例说明了在实践中应用数据保护法的意外权衡。我们的分析旨在向辩论提供关于数据保护对欧盟人工智能发展的影响，为数据控制员，监管机构和研究人员提供实际行动点。

translated by 谷歌翻译

Understanding Aesthetics with Language: A Photo Critique Dataset for Aesthetic Assessment

Daniel Vera Nieto , Luigi Celona , Clara Fernandez-Labrador

分类：计算机视觉 | 自然语言处理

2022-06-17

由于其主观性质，美学的计算推断是一项不确定的任务。已经提出了许多数据集来通过根据人类评级提供成对的图像和美学得分来解决问题。但是，人类更好地通过语言表达自己的观点，品味和情感，而不是单个数字总结他们。实际上，照片评论提供了更丰富的信息，因为它们揭示了用户如何以及为什么对视觉刺激的美学评价。在这方面，我们提出了Reddit照片评论数据集（RPCD），其中包含图像和照片评论的元素。 RPCD由74K图像和220k评论组成，并从业余爱好者和专业摄影师使用的Reddit社区收集，以利用建设性的社区反馈来提高其摄影技巧。所提出的数据集与以前的美学数据集不同，主要是三个方面，即（i）数据集的大规模数据集和批评图像不同方面的评论的扩展，（ii）它主要包含Ultrahd映像，以及（iii）它通过自动管道收集，可以轻松地扩展到新数据。据我们所知，在这项工作中，我们提出了首次尝试估算批评的视觉刺激质量的尝试。为此，我们利用批评情绪的极性为美学判断的指标。我们证明了情感如何与可用于两种美学评估基准的美学判断正相关。最后，我们通过使用情感得分作为排名图像的目标进行了几种模型。提供数据集和基准（https://github.com/mediatechnologycenter/aestheval）。

translated by 谷歌翻译

Resources for Turkish Natural Language Processing: A critical survey

Çağrı Çöltekin , A. Seza Doğruöz , Özlem Çetinoğlu

分类：自然语言处理

2022-04-11

本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源，重点关注公开可用的资源。除了提供有关可用语言资源的信息外，我们还提供了一组建议，并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。

translated by 谷歌翻译

Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research

Bernard Koch , Emily Denton , Alex Hanna , Jacob G. Foster

分类：机器学习 | 自然语言处理 | 计算机视觉 | (统计)机器学习

2021-12-03

基准数据集在机器学习研究组织中发挥着核心作用。他们协调共享研究问题的研究人员，并作为共同目标的进展衡量。尽管基准测试在该领域的基准实践存在的基础作用，但已经对基准数据集使用和重用，在机器学习子信中或跨机器中的动态进行了相对较少的关注。在本文中，我们挖掘了这些动态。我们研究数据集使用模式如何在机器学习子信中和2015 - 2012年的时间跨越时间。我们发现在任务社区中较少和更少的数据集中越来越少，从其他任务中获取数据集的重大采用，以及由位于少数精英机构内的研究人员引入的数据集中的集中集中。我们的结果对该领域内的科学评估，AI伦理和股权/访问有影响。

translated by 谷歌翻译

YFCC100M: The New Data in Multimedia Research

Bart Thomee , David A. Shamma , Gerald Friedland , Benjamin Elizalde , Karl Ni , Douglas Poland , Damian Borth , Li-Jia Li

分类：

2015-03-05

The photograph and our understanding of photography is ever changing and has transitioned from a world of unprocessed rolls of C-41 sitting in a fridge 50 years ago to sharing photos on the 1.5" screen of a point and shoot camera 10 years back. And today the photograph is again something different. The way we take photos is fundamentally different. We can view, share, and interact with photos on the device they were taken on. We can edit, tag, or "filter" photos directly on the camera at the same time the photo is being taken. Photos can be automatically pushed to various online sharing services, and the distinction between photos and videos has lessened. Beyond this, and more importantly, there are now lots of them. To Facebook alone more than 250 billion photos have been uploaded and on average it receives over 350 million new photos every day [6], while YouTube reports that 300 hours of video are uploaded every minute [22]. A back of the envelope estimation reports 10% of all photos in the world were taken in the last 12 months, and that was calculated already more than three years ago [8].Today, a large number of the digital media objects that are shared have been uploaded to services like Flickr or Instagram, which along with their metadata and their social ecosystem form a vibrant environment for finding solutions to many research questions at scale. Photos and videos provide a wealth of information about the universe, covering entertainment, travel, personal records, and various other aspects of life in general as it was when they were taken. Considered collectively, they represent knowledge that goes * This work was done while Benjamin Elizalde was at ICSI.† This work was done while Karl Ni was at LLNL. ‡ This work was done while Damian Borth was at ICSI. § This work was done while Li-Jia Li was at Yahoo Labs.

translated by 谷歌翻译

MOTIF: A Large Malware Reference Dataset with Ground Truth Family Labels

Robert J. Joyce , Dev Amlani , Charles Nicholas , Edward Raff

分类：机器学习

2021-11-29

恶意软件家庭分类是具有公共安全的重要问题，并通过专家标签的高成本受到阻碍的重要问题。绝大多数公司使用嘈杂的标签方法，阻碍了结果的定量量化和更深的相互作用。为了提供进一步前进所需的数据，我们创建了恶意软件开源威胁情报族（图案）数据集。 MOTIF包含来自454个家庭的3,095个恶意软件样本，使其成为最大，最多样化的公共恶意软件数据集，迄今为止，比以前的Windows恶意软件语料库大于任何先前的专家标记的语料库，近3倍。 MOTIF还附带了从恶意软件样本到威胁报告的映射，以信誉良好的行业来源发布，这两者都验证了标签，并打开了将不透明的恶意软件样本连接到人类可读描述的新的研究机会。这使得重要的评估通常是不可行的，由于行业的非标准化报告。例如，我们提供用于描述相同恶意软件系列的不同名称的别名，允许我们在从不同源获得名称时，为您的第一次准确性进行基准测试。使用MOTIF数据集获得的评估结果表明现有任务具有重要的改进空间，抗病毒多数投票的准确性仅以62.10％和众所周知的高度精度测量。我们的调查结果表明，由于在所考虑的样品中可能无法清楚的类别，因此，恶意软件家庭分类与大多数ML文献中的研究不同的标记噪声遭受任何类型的标记噪声。

translated by 谷歌翻译

Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities

Zejiang Shen , Kyle Lo , Lauren Yu , Nathan Dahlberg , Margo Schlanger , Doug Downey

分类：自然语言处理

2022-06-22

随着大型语言模型的出现，抽象性摘要的方法取得了长足的进步，从而在应用程序中使用了帮助知识工人处理笨拙的文档收集的潜力。一个这样的环境是民权诉讼交换所（CRLC）（https://clearinghouse.net），其中发布了有关大规模民权诉讼，服务律师，学者和公众的信息。如今，CRLC中的摘要需要对律师和法律专业的学生进行广泛的培训，这些律师和法律专业的学生花费数小时了解多个相关文件，以便产生重要事件和结果的高质量摘要。在这种持续的现实世界摘要工作的激励下，我们引入了Multi-iplesum，这是由正在进行的CRLC写作中绘制的9,280个专家作者的摘要集。鉴于源文档的长度，多文章介绍了一个具有挑战性的多文档摘要任务，通常每个情况超过200页。此外，多胎sum与其多个目标摘要中的其他数据集不同，每个数据集都处于不同的粒度（从一句“极端”摘要到超过五百个单词的多段落叙述）。我们提供了广泛的分析，表明，尽管培训数据（遵守严格的内容和样式准则）中的摘要很高，但最新的摘要模型在此任务上的表现较差。我们发布了多体式的摘要方法，以及促进应用程序的开发，以协助CRLC的任务https://multilexsum.github.io。

translated by 谷歌翻译