智能论文笔记

YFCC100M: The New Data in Multimedia Research

Bart Thomee , David A. Shamma , Gerald Friedland , Benjamin Elizalde , Karl Ni , Douglas Poland , Damian Borth , Li-Jia Li

分类：

2015-03-05

The photograph and our understanding of photography is ever changing and has transitioned from a world of unprocessed rolls of C-41 sitting in a fridge 50 years ago to sharing photos on the 1.5" screen of a point and shoot camera 10 years back. And today the photograph is again something different. The way we take photos is fundamentally different. We can view, share, and interact with photos on the device they were taken on. We can edit, tag, or "filter" photos directly on the camera at the same time the photo is being taken. Photos can be automatically pushed to various online sharing services, and the distinction between photos and videos has lessened. Beyond this, and more importantly, there are now lots of them. To Facebook alone more than 250 billion photos have been uploaded and on average it receives over 350 million new photos every day [6], while YouTube reports that 300 hours of video are uploaded every minute [22]. A back of the envelope estimation reports 10% of all photos in the world were taken in the last 12 months, and that was calculated already more than three years ago [8].Today, a large number of the digital media objects that are shared have been uploaded to services like Flickr or Instagram, which along with their metadata and their social ecosystem form a vibrant environment for finding solutions to many research questions at scale. Photos and videos provide a wealth of information about the universe, covering entertainment, travel, personal records, and various other aspects of life in general as it was when they were taken. Considered collectively, they represent knowledge that goes * This work was done while Benjamin Elizalde was at ICSI.† This work was done while Karl Ni was at LLNL. ‡ This work was done while Damian Borth was at ICSI. § This work was done while Li-Jia Li was at Yahoo Labs.

translated by 谷歌翻译

Mitigating Dataset Harms Requires Stewardship: Lessons from 1000 Papers

Kenny Peng , Arunesh Mathur , Arvind Narayanan

分类：机器学习

2021-08-06

机器学习数据集引起了对隐私，偏见和不道德应用的担忧，导致突出数据集的缩写，例如Dukemtmc，MS-Celeb-1M和微小图像。作为响应，机器学习界已在数据集创建中呼吁更高的道德标准。为了帮助通知这些努力，我们研究了三个有影响力的但道德问题的面部和人识别数据集 - 在野外（LFW），MS-Celeb-1M和DukemTM中标记的面孔 - 通过分析近1000篇引用它们的纸张。我们发现，创建衍生数据集和模型，更广泛的技术和社会变革，许可证缺乏清晰度，数据集管理实践可以引入广泛的道德问题。我们通过表明分布式方法来伤害消除数据集的整个生命周期的危害。

translated by 谷歌翻译

RedCaps: web-curated image-text data created by the people, for the people

Karan Desai , Gaurav Kaul , Zubin Aysola , Justin Johnson

分类：计算机视觉 | 自然语言处理

2021-11-22

成对图像和文本的大型数据集越来越受到愿景和愿景和语言任务的通用表示。此类数据集已通过查询搜索引擎或收集HTML Alt-Text构建 - 由于Web数据是嘈杂的，因此它们需要复杂的过滤管道来维护质量。我们探索备用数据源以收集具有最小滤波的高质量数据。我们介绍Redcaps - 从Reddit收集的12M图像文本对的大规模数据集。来自Reddit的图像和标题描绘并描述了各种各样的物体和场景。我们从手动策划的FuSoddits集中收集数据，这为粗略图像标签提供给粗略图像标签，并允许我们转向数据集组合而不标记单个实例。我们展示Redcaps培训的标题模型产生了人类优选的丰富和各种标题，并学习转移到许多下游任务的视觉表现。

translated by 谷歌翻译

ConfLab: A Rich Multimodal Multisensor Dataset of Free-Standing Social Interactions in the Wild

Chirag Raman , Jose Vargas-Quiros , Stephanie Tan , Ekin Gedik , Ashraful Islam , Hayley Hung

分类：机器学习

2022-05-10

由于几个因素之间的微妙权衡：参与者的隐私，生态有效性，数据保真度和后勤开销，记录野外未脚本人类互动的动态是具有挑战性的。为了解决这些问题，在社区精神上为社区的“数据集”之后，我们提出了会议生活实验室（Conflab）：一个新的概念，用于多模式多模式数据收集，野生野外社交对话。对于此处描述的Conflab的首次实例化，我们在一次大型国际会议上组织了现实生活中的专业网络活动。该数据集涉及48个会议参与者，捕捉了地位，熟人和网络动机的各种组合。我们的捕获设置改善了先前野外数据集的数据保真度，同时保留隐私敏感性：从非侵入性的架空视图中获得8个视频（1920x1080，60 fps），并具有定制的可穿戴传感器，并带有车载记录（完整9） - 轴IMU），具有隐私性的低频音频（1250 Hz）和基于蓝牙的接近度。此外，我们开发了用于采集时分布式硬件同步的自定义解决方案，并以高采样速率对身体关键点和动作进行了及时的连续注释。我们的基准测试展示了与野外隐私保护社交数据分析有关的一些开放研究任务：从高架摄像头视图，基于骨架的No-Audio扬声器检测和F-Formation检测中的关键点检测。

translated by 谷歌翻译

When Creators Meet the Metaverse: A Survey on Computational Arts

Lik-Hang Lee , Zijun Lin , Rui Hu , Zhengya Gong , Abhishek Kumar , Tangyao Li , Sijia Li , Pan Hui

分类：人工智能 | 机器学习

2021-11-26

MetaVerse，巨大的虚拟物理网络空间，为艺术家带来了前所未有的机会，将我们的身体环境的每个角落与数字创造力混合。本文对计算艺术进行了全面的调查，其中七个关键主题与成权相关，描述了混合虚拟物理现实中的新颖艺术品。主题首先涵盖了MetaVerse的建筑元素，例如虚拟场景和字符，听觉，文本元素。接下来，已经反映了诸如沉浸式艺术，机器人艺术和其他用户以其他用户的方法提供了沉浸式艺术，机器人艺术和其他用户中心的若干非凡类型的新颖创作。最后，我们提出了几项研究议程：民主化的计算艺术，数字隐私和搬迁艺术家的安全性，为数字艺术品，技术挑战等等的所有权认可。该调查还担任艺术家和搬迁技术人员的介绍材料，以开始在超现实主义网络空间领域创造。

translated by 谷歌翻译

The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and Multi-Purpose Corpus of Patent Applications

Mirac Suzgun , Luke Melas-Kyriazi , Suproteem K. Sarkar , Scott Duke Kominers , Stuart M. Shieber

分类：自然语言处理 | 机器学习

2022-07-08

创新是经济和社会发展的主要驱动力，有关多种创新的信息嵌入了专利和专利申请的半结构化数据中。尽管在专利数据中表达的创新的影响和新颖性很难通过传统手段来衡量，但ML提供了一套有希望的技术来评估新颖性，汇总贡献和嵌入语义。在本文中，我们介绍了Harvard USPTO专利数据集（HUPD），该数据集是2004年至2004年之间提交给美国专利商业办公室（USPTO）的大型，结构化和多用途的英语专利专利申请。 2018年。HUPD拥有超过450万张专利文件，是可比的Coldia的两到三倍。与以前在NLP中提出的专利数据集不同，HUPD包含了专利申请的发明人提交的版本（不是授予专利的最终版本），其中允许我们在第一次使用NLP方法进行申请时研究专利性。它在包含丰富的结构化元数据以及专利申请文本的同时也很新颖：通过提供每个应用程序的元数据及其所有文本字段，数据集使研究人员能够执行一组新的NLP任务，以利用结构性协变量的变异。作为有关HUPD的研究类型的案例研究，我们向NLP社区（即专利决策的二元分类）介绍了一项新任务。我们还显示数据集中提供的结构化元数据使我们能够对此任务进行概念转移的明确研究。最后，我们演示了如何将HUPD用于三个其他任务：专利主题领域的多类分类，语言建模和摘要。

translated by 谷歌翻译

Multimedia Datasets for Anomaly Detection: A Survey

Pratibha Kumari , Anterpreet Kaur Bedi , Mukesh Saini

分类：计算机视觉

2021-12-10

多媒体异常数据集在自动监视中发挥着至关重要的作用。它们具有广泛的应用程序，从异常对象/情况检测到检测危及生命事件的检测。该字段正在接收大量的1.5多年的巨大研究兴趣，因此，已经创建了越来越多地专用于异常动作和对象检测的数据集。点击这些公共异常数据集使研究人员能够生成和比较具有相同输入数据的各种异常检测框架。本文介绍了各种视频，音频以及基于异常检测的应用的综合调查。该调查旨在解决基于异常检测的多媒体公共数据集缺乏全面的比较和分析。此外，它可以帮助研究人员选择最佳可用数据集，用于标记框架。此外，我们讨论了现有数据集和未来方向洞察中开发多峰异常检测数据集的差距。

translated by 谷歌翻译

Understanding Aesthetics with Language: A Photo Critique Dataset for Aesthetic Assessment

Daniel Vera Nieto , Luigi Celona , Clara Fernandez-Labrador

分类：计算机视觉 | 自然语言处理

2022-06-17

由于其主观性质，美学的计算推断是一项不确定的任务。已经提出了许多数据集来通过根据人类评级提供成对的图像和美学得分来解决问题。但是，人类更好地通过语言表达自己的观点，品味和情感，而不是单个数字总结他们。实际上，照片评论提供了更丰富的信息，因为它们揭示了用户如何以及为什么对视觉刺激的美学评价。在这方面，我们提出了Reddit照片评论数据集（RPCD），其中包含图像和照片评论的元素。 RPCD由74K图像和220k评论组成，并从业余爱好者和专业摄影师使用的Reddit社区收集，以利用建设性的社区反馈来提高其摄影技巧。所提出的数据集与以前的美学数据集不同，主要是三个方面，即（i）数据集的大规模数据集和批评图像不同方面的评论的扩展，（ii）它主要包含Ultrahd映像，以及（iii）它通过自动管道收集，可以轻松地扩展到新数据。据我们所知，在这项工作中，我们提出了首次尝试估算批评的视觉刺激质量的尝试。为此，我们利用批评情绪的极性为美学判断的指标。我们证明了情感如何与可用于两种美学评估基准的美学判断正相关。最后，我们通过使用情感得分作为排名图像的目标进行了几种模型。提供数据集和基准（https://github.com/mediatechnologycenter/aestheval）。

translated by 谷歌翻译

FathomNet: A global image database for enabling artificial intelligence in the ocean

Kakani Katija , Eric Orenstein , Brian Schlining , Lonny Lundsten , Kevin Barnard , Giovanna Sainz , Oceane Boulais , Megan Cromwell , Erin Butler , Benjamin Woodward

分类：计算机视觉 | 机器学习

2021-09-29

海洋正在经历前所未有的快速变化，在负责任管理所需的时空尺度上，视觉监测海洋生物群是一项艰巨的任务。由于研究界寻求基准，因此所需的数据收集的数量和速率迅速超过了我们处理和分析它们的能力。机器学习的最新进展可以对视觉数据进行快速，复杂的分析，但由于缺乏数据标准化，格式不足以及对大型标签数据集的需求，在海洋中取得了有限的成功。为了满足这一需求，我们构建了Fathomnet，这是一个开源图像数据库，该数据库标准化和汇总了经过精心策划的标记数据。 Fathomnet已被海洋动物，水下设备，碎片和其他概念的现有标志性和非偶像图像所播种，并允许分布式数据源的未来贡献。我们展示了如何使用Fathomnet数据在其他机构视频上训练和部署模型，以减少注释工作，并在与机器人车辆集成时启用自动跟踪水下概念。随着Fathomnet继续增长并结合了社区的更多标记数据，我们可以加速视觉数据以实现健康且可持续的全球海洋。

translated by 谷歌翻译

The Multi-Agent Behavior Dataset: Mouse Dyadic Social Interactions

Jennifer J. Sun , Tomomi Karigo , Dipam Chakraborty , Sharada P. Mohanty , Benjamin Wild , Quan Sun , Chen Chen , David J. Anderson , Pietro Perona , Yisong Yue

分类：机器学习 | 计算机视觉

2021-04-06

多代理行为建模旨在了解代理之间发生的交互。我们从行为神经科学，Caltech鼠标社交交互（CALMS21）数据集中提供了一个多代理数据集。我们的数据集由社交交互的轨迹数据组成，从标准居民入侵者测定中自由行为小鼠的视频记录。为了帮助加速行为研究，CALMS21数据集提供基准，以评估三种设置中自动行为分类方法的性能：（1）用于培训由单个注释器的所有注释，（2）用于风格转移以进行学习互动在特定有限培训数据的新行为学习的行为定义和（3）的注释差异。 DataSet由600万个未标记的追踪姿势的交互小鼠组成，以及超过100万帧，具有跟踪的姿势和相应的帧级行为注释。我们的数据集的挑战是能够使用标记和未标记的跟踪数据准确地对行为进行分类，以及能够概括新设置。

translated by 谷歌翻译

MultiViz: An Analysis Benchmark for Visualizing and Understanding Multimodal Models

Paul Pu Liang , Yiwei Lyu , Gunjan Chhablani , Nihal Jain , Zihao Deng , Xingbo Wang , Louis-Philippe Morency , Ruslan Salakhutdinov

分类：机器学习 | 人工智能 | 自然语言处理 | 计算机视觉

2022-06-30

多模型对现实世界应用的承诺激发了可视化和理解其内部力学的研究，其最终目标是使利益相关者能够可视化模型行为，执行模型调试并促进对机器学习模型的信任。但是，现代的多模型模型通常是黑盒神经网络，这使得了解其内部力学变得具有挑战性。我们如何能在这些模型中可视化多模式相互作用的内部建模？我们的论文旨在通过提出Multiviz来填补这一空白，这是一种通过将可解释性问题分为4个阶段来分析多模型模型行为的方法：（1）单峰的重要性：每种模式如何有助于下游建模和预测，（2）交叉交叉。 - 模式相互作用：不同模态如何相互关系，（3）多模式表示：如何在决策级特征中表示单峰和跨模式的交互作用，以及（4）多模式预测：决策级特征如何组成以制造一个预言。 Multiviz旨在在不同的模式，模型，任务和研究领域进行操作。通过对6个现实世界任务的8个训练模型的实验，我们表明，Multiviz中的互补阶段共同使用户能够（1）模拟模型预测，（2）将可解释的概念分配给功能，（3）对模型错误分析执行错误分析，（4）使用错误分析到调试模型的见解。 Multiviz公开可用，将定期使用新的解释工具和指标进行更新，并欢迎社区的意见。

translated by 谷歌翻译

NarrationBot and InfoBot: A Hybrid System for Automated Video Description

Shasta Ihorn , Yue-Ting Siu , Aditya Bodi , Lothar Narins , Jose M. Castanon , Yash Kant , Abhishek Das , Ilmi Yoon , Pooyan Fazli

分类：计算机视觉 | 机器学习

2021-11-07

视频可访问性对于盲人和低愿景用户来说至关重要，以获得教育，就业和娱乐的公平参与。尽管有专业和业余服务和工具，但大多数人类生成的描述都很昂贵且耗时。此外，人生成的描述的速率不能匹配视频产生的速度。为了克服视频可访问性的越来越多的空白，我们开发了两个工具的混合系统到1）自动生成视频的描述，2）提供响应于视频上的用户查询的答案或附加描述。与26例盲和低视力下的混合方法研究结果表明，当两种工具在串联中使用时，我们的系统会显着提高用户理解和享受所选视频的理解和享受。此外，参与者报告说，在呈现自生物的描述与人类修订的自动化描述相关时，没有显着差异。我们的结果表明了对发达系统的热情及其承诺提供对视频的定制访问。我们讨论了当前工作的局限性，并为自动视频描述工具的未来发展提供了建议。

translated by 谷歌翻译

Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities

Zejiang Shen , Kyle Lo , Lauren Yu , Nathan Dahlberg , Margo Schlanger , Doug Downey

分类：自然语言处理

2022-06-22

随着大型语言模型的出现，抽象性摘要的方法取得了长足的进步，从而在应用程序中使用了帮助知识工人处理笨拙的文档收集的潜力。一个这样的环境是民权诉讼交换所（CRLC）（https://clearinghouse.net），其中发布了有关大规模民权诉讼，服务律师，学者和公众的信息。如今，CRLC中的摘要需要对律师和法律专业的学生进行广泛的培训，这些律师和法律专业的学生花费数小时了解多个相关文件，以便产生重要事件和结果的高质量摘要。在这种持续的现实世界摘要工作的激励下，我们引入了Multi-iplesum，这是由正在进行的CRLC写作中绘制的9,280个专家作者的摘要集。鉴于源文档的长度，多文章介绍了一个具有挑战性的多文档摘要任务，通常每个情况超过200页。此外，多胎sum与其多个目标摘要中的其他数据集不同，每个数据集都处于不同的粒度（从一句“极端”摘要到超过五百个单词的多段落叙述）。我们提供了广泛的分析，表明，尽管培训数据（遵守严格的内容和样式准则）中的摘要很高，但最新的摘要模型在此任务上的表现较差。我们发布了多体式的摘要方法，以及促进应用程序的开发，以协助CRLC的任务https://multilexsum.github.io。

translated by 谷歌翻译

Proceedings of the 2nd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.

translated by 谷歌翻译

Deep Learning-Driven Edge Video Analytics: A Survey

Renjie Xu , Saiedeh Razavi , Rong Zheng

分类：计算机视觉 | 机器学习

2022-11-28

Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

Slapping Cats, Bopping Heads, and Oreo Shakes: Understanding Indicators of Virality in TikTok Short Videos

Chen Ling , Jeremy Blackburn , Emiliano De Cristofaro , Gianluca Stringhini

分类：计算机视觉

2021-11-03

短片已成为年轻一代使用的领先媒体之一，以便在线表达自己，从而塑造在线文化中的驱动力。在这方面，Tiktok已成为往往首先发布病毒视频的平台。在本文中，我们研究了在Tiktok上发布的短片内容有助于他们的病毒。我们应用一种混合方法方法来开发码本并识别重要的病毒功能。我们这样做是如此vis- \'a-vis三个研究假设;即：1）视频内容，2）Tiktok的推荐算法，以及3）视频创建者的普及有助于病毒性。我们收集并标记400个Tiktok视频和火车分类器的数据集，以帮助我们确定最多影响景象的功能。虽然追随者的数量是最强大的预测因子，但特写和中射尺度也起到重要作用。因此视频的寿命，文本的存在以及观点。我们的研究突出了与非病毒Tiktok视频区分病毒的特征，奠定了制定额外方法来创建更多聘用的在线内容，并主动地确定可能达到大量受众的风险内容。

translated by 谷歌翻译

Attention is All They Need: Exploring the Media Archaeology of the Computer Vision Research Paper

Samuel Goree , Gabriel Appleby , David Crandall , Norman Su

分类：计算机视觉

2022-09-22

深度学习的成功导致了包括计算机视觉在内的许多计算机科学领域的快速转变和增长。在这项工作中，我们通过从媒体考古学的角度分析研究论文中的数字和表，通过计算机视觉研究论文本身来研究这种增长的影响。我们通过对涵盖计算机视觉，图形和可视化的资深研究人员的访谈以及十年的视觉会议论文的计算分析进行了调查。我们的分析重点是在广告，衡量和传播日益商品化的“贡献”中发挥作用的要素。我们认为，这些元素中的每一个都由计算机视觉的气候塑造和塑造，最终为该商品化做出了贡献。通过这项工作，我们试图激励有关研究论文设计和更广泛的社会技术出版系统的未来讨论。

translated by 谷歌翻译

The MABe22 Benchmarks for Representation Learning of Multi-Agent Behavior

Jennifer J. Sun , Andrew Ulmer , Dipam Chakraborty , Brian Geuther , Edward Hayes , Heng Jia , Vivek Kumar , Zachary Partridge , Alice Robie , Catherine E. Schretter

分类：机器学习 | 人工智能 | 计算机视觉

2022-07-21

现实世界的行为通常是由多种代理之间复杂的相互作用来塑造的。为了可靠地研究多代理行为，无监督和自我监督的学习的进步使从轨迹数据中学到了各种不同的行为表示。迄今为止，还没有一组统一的基准测试，可以在广泛的行为分析设置中进行定量和系统地比较方法。我们的目的是通过引入来自现实世界行为神经科学实验的大规模，多代理轨迹数据集来解决这一问题，该数据集涵盖了一系列行为分析任务。我们的数据集由来自通用模型生物的轨迹数据组成，其中有960万帧的小鼠数据和440万帧的飞行数据，在各种实验环境中，例如不同的菌株，相互作用的长度和光遗传学刺激。框架的子集还包括专家注销的行为标签。我们数据集的改进对应于跨多种生物的行为表示，并能够捕获常见行为分析任务的差异。

translated by 谷歌翻译

The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage

Daniel Galvez , Greg Diamos , Juan Ciro , Juan Felipe Cerón , Keith Achorn , Anjali Gopi , David Kanter , Maximilian Lam , Mark Mazumder , Vijay Janapa Reddi

分类：机器学习 | (统计)机器学习

2021-11-17

人民的言论是自由下载的30,000小时，并在CC-BY-SA下进行学术和商业用途的许可的受监管的会话英语语音识别数据集（具有CC-by子集）。通过使用现有转录搜索适当许可的音频数据来通过搜索互联网来收集数据。我们描述了我们的数据收集方法，并在Apache 2.0许可证下发布了我们的数据收集系统。我们表明，在此数据集上培训的模型在Librispeech的测试清洁测试集上实现了9.98％的单词错误率。最后，我们讨论了围绕创建一个相当大量的机器学习的法律和道德问题，并计划继续维护项目的计划根据MLCommons的赞助。

translated by 谷歌翻译