智能论文笔记

MOTIF: A Large Malware Reference Dataset with Ground Truth Family Labels

Robert J. Joyce , Dev Amlani , Charles Nicholas , Edward Raff

分类：机器学习

2021-11-29

恶意软件家庭分类是具有公共安全的重要问题，并通过专家标签的高成本受到阻碍的重要问题。绝大多数公司使用嘈杂的标签方法，阻碍了结果的定量量化和更深的相互作用。为了提供进一步前进所需的数据，我们创建了恶意软件开源威胁情报族（图案）数据集。 MOTIF包含来自454个家庭的3,095个恶意软件样本，使其成为最大，最多样化的公共恶意软件数据集，迄今为止，比以前的Windows恶意软件语料库大于任何先前的专家标记的语料库，近3倍。 MOTIF还附带了从恶意软件样本到威胁报告的映射，以信誉良好的行业来源发布，这两者都验证了标签，并打开了将不透明的恶意软件样本连接到人类可读描述的新的研究机会。这使得重要的评估通常是不可行的，由于行业的非标准化报告。例如，我们提供用于描述相同恶意软件系列的不同名称的别名，允许我们在从不同源获得名称时，为您的第一次准确性进行基准测试。使用MOTIF数据集获得的评估结果表明现有任务具有重要的改进空间，抗病毒多数投票的准确性仅以62.10％和众所周知的高度精度测量。我们的调查结果表明，由于在所考虑的样品中可能无法清楚的类别，因此，恶意软件家庭分类与大多数ML文献中的研究不同的标记噪声遭受任何类型的标记噪声。

translated by 谷歌翻译

Datasheets for Datasets

Timnit Gebru , Jamie Morgenstern , Briana Vecchione , Jennifer Wortman Vaughan , Hanna Wallach , Hal Daumé III , Kate Crawford

分类：人工智能 | 机器学习

2018-03-23

机器学习社区目前没有记录数据集的标准化过程，这可能导致高赌注域的严重后果。要解决此差距，我们提出了数据集的数据表。在电子行业，每个组件，无论多么简单或复杂，都附带了一个描述其操作特征，测试结果，推荐使用和其他信息的数据表。通过类比，我们建议每个数据集都附有一个数据表，这些表记录了它的动机，组成，收集过程，推荐用途等。数据集的数据表将有助于在数据集创建者和数据集消费者之间更好地沟通，并鼓励机器学习界优先考虑透明度和问责制。

translated by 谷歌翻译

RAFT: A Real-World Few-Shot Text Classification Benchmark

Neel Alex , Eli Lifland , Lewis Tunstall , Abhishek Thakur , Pegah Maham , C. Jess Riedel , Emmie Hine , Carolyn Ashurst , Paul Sedille , Alexis Carlier

分类：自然语言处理 | 人工智能 | 机器学习

2021-09-28

大型预先训练的语言模型已经显示了几次拍摄学习的承诺，只提供了几个任务特定示例给出了基于文本的任务。款式将很快解决到目前为止为人类研究助理保留的分类任务吗？现有的基准标记不设计用于衡量应用设置的进度，因此不要直接回答这个问题。 RAFT基准（现实世界注释的少量拍摄任务）侧重于自然发生的任务，并使用镜像部署的评估设置。 RAFT的基线评估揭示了当前技术斗争的地区：推理在许多班级的长篇文章和任务上。人类基线表明，非专家人类难以反映出一些分类任务，反映了现实世界的价值有时依赖于域名专业知识。甚至非专业人类基线F1分数超过GPT-3平均为0.11。 RAFT DataSets和排行榜将跟踪哪些模型改进在https://raft.elict.org中转化为现实世界的优势。

translated by 谷歌翻译

Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities

Zejiang Shen , Kyle Lo , Lauren Yu , Nathan Dahlberg , Margo Schlanger , Doug Downey

分类：自然语言处理

2022-06-22

随着大型语言模型的出现，抽象性摘要的方法取得了长足的进步，从而在应用程序中使用了帮助知识工人处理笨拙的文档收集的潜力。一个这样的环境是民权诉讼交换所（CRLC）（https://clearinghouse.net），其中发布了有关大规模民权诉讼，服务律师，学者和公众的信息。如今，CRLC中的摘要需要对律师和法律专业的学生进行广泛的培训，这些律师和法律专业的学生花费数小时了解多个相关文件，以便产生重要事件和结果的高质量摘要。在这种持续的现实世界摘要工作的激励下，我们引入了Multi-iplesum，这是由正在进行的CRLC写作中绘制的9,280个专家作者的摘要集。鉴于源文档的长度，多文章介绍了一个具有挑战性的多文档摘要任务，通常每个情况超过200页。此外，多胎sum与其多个目标摘要中的其他数据集不同，每个数据集都处于不同的粒度（从一句“极端”摘要到超过五百个单词的多段落叙述）。我们提供了广泛的分析，表明，尽管培训数据（遵守严格的内容和样式准则）中的摘要很高，但最新的摘要模型在此任务上的表现较差。我们发布了多体式的摘要方法，以及促进应用程序的开发，以协助CRLC的任务https://multilexsum.github.io。

translated by 谷歌翻译

RedCaps: web-curated image-text data created by the people, for the people

Karan Desai , Gaurav Kaul , Zubin Aysola , Justin Johnson

分类：计算机视觉 | 自然语言处理

2021-11-22

成对图像和文本的大型数据集越来越受到愿景和愿景和语言任务的通用表示。此类数据集已通过查询搜索引擎或收集HTML Alt-Text构建 - 由于Web数据是嘈杂的，因此它们需要复杂的过滤管道来维护质量。我们探索备用数据源以收集具有最小滤波的高质量数据。我们介绍Redcaps - 从Reddit收集的12M图像文本对的大规模数据集。来自Reddit的图像和标题描绘并描述了各种各样的物体和场景。我们从手动策划的FuSoddits集中收集数据，这为粗略图像标签提供给粗略图像标签，并允许我们转向数据集组合而不标记单个实例。我们展示Redcaps培训的标题模型产生了人类优选的丰富和各种标题，并学习转移到许多下游任务的视觉表现。

translated by 谷歌翻译

The Multi-Agent Behavior Dataset: Mouse Dyadic Social Interactions

Jennifer J. Sun , Tomomi Karigo , Dipam Chakraborty , Sharada P. Mohanty , Benjamin Wild , Quan Sun , Chen Chen , David J. Anderson , Pietro Perona , Yisong Yue

分类：机器学习 | 计算机视觉

2021-04-06

多代理行为建模旨在了解代理之间发生的交互。我们从行为神经科学，Caltech鼠标社交交互（CALMS21）数据集中提供了一个多代理数据集。我们的数据集由社交交互的轨迹数据组成，从标准居民入侵者测定中自由行为小鼠的视频记录。为了帮助加速行为研究，CALMS21数据集提供基准，以评估三种设置中自动行为分类方法的性能：（1）用于培训由单个注释器的所有注释，（2）用于风格转移以进行学习互动在特定有限培训数据的新行为学习的行为定义和（3）的注释差异。 DataSet由600万个未标记的追踪姿势的交互小鼠组成，以及超过100万帧，具有跟踪的姿势和相应的帧级行为注释。我们的数据集的挑战是能够使用标记和未标记的跟踪数据准确地对行为进行分类，以及能够概括新设置。

translated by 谷歌翻译

CSAW-M: An Ordinal Classification Dataset for Benchmarking Mammographic Masking of Cancer

Moein Sorkhei , Yue Liu , Hossein Azizpour , Edward Azavedo , Karin Dembrower , Dimitra Ntoula , Athanasios Zouzos , Fredrik Strand , Kevin Smith

分类：计算机视觉 | 机器学习

2021-12-02

由于筛选乳房X线照片的假阴性评估，通常在晚期检测到与其他癌症更差的间隔和大型侵入性乳腺癌。错过的筛选时间检测通常由其周围乳腺组织模糊的肿瘤引起的，这是一种称为掩蔽的现象。为了研究和基准爆发癌症的乳房Xmmpare掩蔽，在这项工作中，我们引入CSAW-M，最大的公共乳房数据集，从10,000多个人收集并用潜在的掩蔽注释。与以前的方法对比测量乳房图像密度作为代理的方法，我们的数据集直接提供了五个专家屏蔽潜在评估的注释。我们还培训了CSAW-M的深入学习模型来估计掩蔽水平，并显示估计的掩蔽更加预测筛查患有间隔和大型侵入性癌症的参与者 - 而不是明确培训这些任务 - 而不是其乳房密度同行。

translated by 谷歌翻译

The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and Multi-Purpose Corpus of Patent Applications

Mirac Suzgun , Luke Melas-Kyriazi , Suproteem K. Sarkar , Scott Duke Kominers , Stuart M. Shieber

分类：自然语言处理 | 机器学习

2022-07-08

创新是经济和社会发展的主要驱动力，有关多种创新的信息嵌入了专利和专利申请的半结构化数据中。尽管在专利数据中表达的创新的影响和新颖性很难通过传统手段来衡量，但ML提供了一套有希望的技术来评估新颖性，汇总贡献和嵌入语义。在本文中，我们介绍了Harvard USPTO专利数据集（HUPD），该数据集是2004年至2004年之间提交给美国专利商业办公室（USPTO）的大型，结构化和多用途的英语专利专利申请。 2018年。HUPD拥有超过450万张专利文件，是可比的Coldia的两到三倍。与以前在NLP中提出的专利数据集不同，HUPD包含了专利申请的发明人提交的版本（不是授予专利的最终版本），其中允许我们在第一次使用NLP方法进行申请时研究专利性。它在包含丰富的结构化元数据以及专利申请文本的同时也很新颖：通过提供每个应用程序的元数据及其所有文本字段，数据集使研究人员能够执行一组新的NLP任务，以利用结构性协变量的变异。作为有关HUPD的研究类型的案例研究，我们向NLP社区（即专利决策的二元分类）介绍了一项新任务。我们还显示数据集中提供的结构化元数据使我们能够对此任务进行概念转移的明确研究。最后，我们演示了如何将HUPD用于三个其他任务：专利主题领域的多类分类，语言建模和摘要。

translated by 谷歌翻译

Open High-Resolution Satellite Imagery: The WorldStrat Dataset -- With Application to Super-Resolution

Julien Cornebise , Ivan Oršolić , Freddie Kalaitzis

分类：计算机视觉 | 机器学习

2022-07-13

通过卫星图像和机器学习对行星进行大规模分析是一个梦想，这一梦想不断受到难以获取高度代表性的高分辨率图像的成本的阻碍。为了纠正此问题，我们在这里介绍WorldStrat数据集。 The largest and most varied such publicly available dataset, at Airbus SPOT 6/7 satellites' high resolution of up to 1.5 m/pixel, empowered by European Space Agency's Phi-Lab as part of the ESA-funded QueryPlanet project, we curate nearly 10,000独特位置的SQKM，以确保全世界所有类型的土地用途分层：从农业到冰盖，从森林到多种城市化密度。我们还丰富了通常在ML数据集中代表不足的地点的人：人道主义兴趣的地点，非法采矿地点以及有风险的人的定居点。我们以10 m/pixel的可自由访问的下分辨率Sentinel-2卫星的多个低分辨率图像为暂时匹配每个高分辨率图像。我们伴随着该数据集的开源Python软件包，以：重建或扩展WorldStrat数据集，训练和推断基线算法，并使用丰富的教程学习，所有这些都与流行的EO-Learn Toolbox兼容。我们特此希望能够促进ML在卫星图像中的广泛应用，并可能从免费的公共低分辨率Sentinel2图像中发展出昂贵的私人高分辨率图像所允许的相同的分析能力。我们通过训练并发布了有关多帧超分辨率任务的几个高度计算效率的基线来说明这一特定点。高分辨率空中图像是CC BY-NC，而标签和Sentinel2图像为CC，而BSD下的源代码和预训练模型。该数据集可从https://zenodo.org/record/6810792获得，并在https://github.com/worldstrat/worldstrat上获得。

translated by 谷歌翻译

Mitigating Dataset Harms Requires Stewardship: Lessons from 1000 Papers

Kenny Peng , Arunesh Mathur , Arvind Narayanan

分类：机器学习

2021-08-06

机器学习数据集引起了对隐私，偏见和不道德应用的担忧，导致突出数据集的缩写，例如Dukemtmc，MS-Celeb-1M和微小图像。作为响应，机器学习界已在数据集创建中呼吁更高的道德标准。为了帮助通知这些努力，我们研究了三个有影响力的但道德问题的面部和人识别数据集 - 在野外（LFW），MS-Celeb-1M和DukemTM中标记的面孔 - 通过分析近1000篇引用它们的纸张。我们发现，创建衍生数据集和模型，更广泛的技术和社会变革，许可证缺乏清晰度，数据集管理实践可以引入广泛的道德问题。我们通过表明分布式方法来伤害消除数据集的整个生命周期的危害。

translated by 谷歌翻译

Beyond the Hype: A Real-World Evaluation of the Impact and Cost of Machine Learning-Based Malware Detection

Robert A. Bridges , Sean Oesch , Miki E. Verma , Michael D. Iannacone , Kelly M. T. Huffer , Brian Jewell , Jeff A. Nichols , Brian Weber , Justin M. Beaver , Jared M. Smith

分类：机器学习

2020-12-16

在本文中，我们介绍了四种突出的恶意软件检测工具的科学评估，以帮助组织提出两个主要问题：基于ML的工具在多大程度上对以前和从未见过的文件进行了准确的分类？是否值得购买网络级恶意软件检测器？为了识别弱点，我们针对各种文件类型的总计3,536个文件（2,554或72 \％恶意，982或28 \％良性）测试了每个工具，包括数百个恶意零日，polyglots和apt-style-style style文件，在多个协议上交付。我们介绍了有关检测时间和准确性的统计结果，请考虑互补分析（一起使用多个工具），并提供了近期成本效益评估程序的两种新颖应用。尽管基于ML的工具在检测零日文件和可执行文件方面更有效，但基于签名的工具仍然是总体上更好的选择。两种基于网络的工具都与任何一种主机工具配对时都可以进行大量（模拟）节省，但两者在HTTP或SMTP以外的协议上都显示出较差的检测率。我们的结果表明，所有四个工具都具有几乎完美的精度但令人震惊的召回率，尤其是在可执行文件和Office文件以外的文件类型上 - 未检测到37％的恶意软件，包括所有Polyglot文件。给出了研究人员的优先事项，并给出了最终用户的外卖。

translated by 谷歌翻译

Deep Learning for Android Malware Defenses: a Systematic Literature Review

Yue Liu , Chakkrit Tantithamthavorn , Li Li , Yepang Liu

分类：机器学习

2021-03-09

恶意应用程序（尤其是针对Android平台的应用程序）对开发人员和最终用户构成了严重威胁。许多研究工作都致力于开发有效的方法来防御Android恶意软件。但是，鉴于Android恶意软件的爆炸性增长以及恶意逃避技术（如混淆和反思）的持续发展，基于手动规则或传统机器学习的Android恶意软件防御方法可能无效。近年来，具有强大功能抽象能力的主要研究领域称为“深度学习”（DL），在各个领域表现出了令人信服和有希望的表现，例如自然语言处理和计算机视觉。为此，采用深度学习技术来阻止Android恶意软件攻击，最近引起了广泛的研究关注。然而，没有系统的文献综述着重于针对Android恶意软件防御的深度学习方法。在本文中，我们进行了系统的文献综述，以搜索和分析在Android环境中恶意软件防御的背景下采用了如何应用的。结果，确定了涵盖2014 - 2021年期间的132项研究。我们的调查表明，尽管大多数这些来源主要考虑基于Android恶意软件检测的基于DL，但基于其他方案的53项主要研究（40.1％）设计防御方法。这篇综述还讨论了基于DL的Android恶意软件防御措施中的研究趋势，研究重点，挑战和未来的研究方向。

translated by 谷歌翻译

The Open Kidney Ultrasound Data Set

Rohit Singla , Cailin Ringstrom , Grace Hu , Victoria Lessoway , Janice Reid , Christopher Nguan , Robert Rohling

分类：计算机视觉 | 机器学习

2022-06-14

超声使用是因为其成本低，非电离和非侵入性特征，并且已成为基石放射学检查。超声应用程序的研究也扩大了，尤其是通过机器学习的图像分析。但是，超声数据通常仅限于封闭的数据集，只有少数几个公开可用。尽管经常检查器官，但肾脏缺乏公开可用的超声数据集。拟议的开放肾脏超声数据集是第一套公开可用的肾脏B模式超声数据，其中包括用于多级语义分段的注释。它基于5年以上500多名患者的回顾性收集的数据，平均年龄为53.2 +/- 14。7年，体重指数为27.0 +/- 5.4 kg/m2，最常见的原发性疾病是糖尿病，IgA肾病和高血压。有两位专家超声师的视图标签和细粒度的手动注释。值得注意的是，该数据包括天然和移植的肾脏。进行了初始的基准测量测量，证明了一种最先进的算法，该算法达到了肾脏胶囊的骰子Sorenson系数为0.74。该数据集是一个高质量的数据集，包括两组专家注释，图像比以前可用的更大。为了增加获得肾脏超声数据的访问，未来的研究人员可能能够创建用于组织表征，疾病检测和预后的新型图像分析技术。

translated by 谷歌翻译

The MABe22 Benchmarks for Representation Learning of Multi-Agent Behavior

Jennifer J. Sun , Andrew Ulmer , Dipam Chakraborty , Brian Geuther , Edward Hayes , Heng Jia , Vivek Kumar , Zachary Partridge , Alice Robie , Catherine E. Schretter

分类：机器学习 | 人工智能 | 计算机视觉

2022-07-21

现实世界的行为通常是由多种代理之间复杂的相互作用来塑造的。为了可靠地研究多代理行为，无监督和自我监督的学习的进步使从轨迹数据中学到了各种不同的行为表示。迄今为止，还没有一组统一的基准测试，可以在广泛的行为分析设置中进行定量和系统地比较方法。我们的目的是通过引入来自现实世界行为神经科学实验的大规模，多代理轨迹数据集来解决这一问题，该数据集涵盖了一系列行为分析任务。我们的数据集由来自通用模型生物的轨迹数据组成，其中有960万帧的小鼠数据和440万帧的飞行数据，在各种实验环境中，例如不同的菌株，相互作用的长度和光遗传学刺激。框架的子集还包括专家注销的行为标签。我们数据集的改进对应于跨多种生物的行为表示，并能够捕获常见行为分析任务的差异。

translated by 谷歌翻译

Avast-CTU Public CAPE Dataset

Branislav Bosansky , Dominik Kouba , Ondrej Manhal , Thorsten Sick , Viliam Lisy , Jakub Kroustek , Petr Somol

分类：人工智能 | 机器学习

2022-09-06

有限的公开数据可以支持恶意软件分析技术的研究。特别是，几乎没有由杜鹃/斗篷等丰富的沙盒生成的公开可用数据集。使用动态沙箱的好处是对目标机中文件执行的逼真模拟并获得该执行日志。机器可以被恶意软件感染，因此很有可能在执行日志中捕获恶意行为，从而使研究人员可以详细研究这种行为。尽管随后对日志信息的分析在工业网络安全后端被广泛介绍，但据我们所知，仅在学术界投入了有限的努力，以使用最先进的技术提高此类日志分析功能。我们使此示例数据集可用来支持设计新的机器学习方法以进行恶意软件检测，尤其是用于自动检测通用恶意行为。该数据集是在Avast软件和捷克技术大学-AI中心（AIC）之间合作的。

translated by 谷歌翻译

Measuring Coding Challenge Competence With APPS

Dan Hendrycks , Steven Basart , Saurav Kadavath , Mantas Mazeika , Akul Arora , Ethan Guo , Collin Burns , Samir Puranik , Horace He , Dawn Song

分类：自然语言处理 | 机器学习

2021-05-20

虽然编程是现代社会中最广泛适用的技能之一，但现代机器学习模型仍然无法对基本问题的解决方案。尽管重要的是，对评估代码生成令人惊讶的是，很少有效，并且难以准确地评估代码生成性能。为了满足这一挑战，我们介绍了一个用于代码生成的基准。与在更受限制的设置中的事先工作不同，我们的基准测试衡量模型采取任意自然语言规范的能力，并生成满意的Python代码。类似于公司如何评估候选软件开发人员，然后我们通过检查测试用例的生成代码来评估模型。我们的基准测试包括10,000个问题，从具有简单的单线解决方案来实现实质性算法挑战。我们在GitHub和我们的培训集上微调大型语言模型，我们发现语法错误的普遍性随着模型的提高而导致呈指数级递减。最近的模型如GPT-Neo可以通过大约20％的介绍性问题的测试用例，因此我们发现机器学习模型现在开始学习如何代码。随着自动代码生成的社会意义在未来几年增加，我们的基准可以提供跟踪进步的重要措施。

translated by 谷歌翻译

The Role of Machine Learning in Cybersecurity

Giovanni Apruzzese , Pavel Laskov , Edgardo Montes de Oca , Wissam Mallouli , Luis Burdalo Rapa , Athanasios Vasileios Grammatopoulos , Fabio Di Franco

分类：机器学习

2022-06-20

机器学习（ML）代表了当前和未来信息系统的关键技术，许多域已经利用了ML的功能。但是，网络安全中ML的部署仍处于早期阶段，揭示了研究和实践之间的显着差异。这种差异在当前的最新目的中具有其根本原因，该原因不允许识别ML在网络安全中的作用。除非广泛的受众理解其利弊，否则ML的全部潜力将永远不会释放。本文是对ML在整个网络安全领域中的作用的首次尝试 - 对任何对此主题感兴趣的潜在读者。我们强调了ML在人类驱动的检测方法方面的优势，以及ML在网络安全方面可以解决的其他任务。此外，我们阐明了影响网络安全部署实际ML部署的各种固有问题。最后，我们介绍了各种利益相关者如何为网络安全中ML的未来发展做出贡献，这对于该领域的进一步进步至关重要。我们的贡献补充了两项实际案例研究，这些案例研究描述了ML作为对网络威胁的辩护的工业应用。

translated by 谷歌翻译

Dos and Don'ts of Machine Learning in Computer Security

Daniel Arp , Erwin Quiring , Feargus Pendlebury , Alexander Warnecke , Fabio Pierazzi , Christian Wressnegger , Lorenzo Cavallaro , Konrad Rieck

分类：机器学习

2020-10-19

随着计算系统的不断增长的加工能力和大规模数据集的可用性的增加，机器学习算法导致了许多不同区域的重大突破。此开发影响了计算机安全性，在基于学习的安全系统中产生了一系列工作，例如用于恶意软件检测，漏洞发现和二进制代码分析。尽管潜力巨大，但安全性的机器学习易于细微缺陷，以破坏其性能，并使基于学习的系统可能不适合安全任务和实际部署。在本文中，我们用临界眼睛看这个问题。首先，我们确定基于学习的安全系统的设计，实现和评估中的常见缺陷。我们在过去的10年内，从顶层安全会议中进行了一项研究，确认这些陷阱在目前的安全文献中普遍存在。在一个实证分析中，我们进一步展示了个体陷阱如何导致不切实际的表现和解释，阻碍了对手的安全问题的理解。作为补救措施，我们提出了可行的建议，以支持研究人员在可能的情况下避免或减轻陷阱。此外，我们在将机器学习应用于安全性并提供进一步研究方向时确定打开问题。

translated by 谷歌翻译

Understanding Aesthetics with Language: A Photo Critique Dataset for Aesthetic Assessment

Daniel Vera Nieto , Luigi Celona , Clara Fernandez-Labrador

分类：计算机视觉 | 自然语言处理

2022-06-17

由于其主观性质，美学的计算推断是一项不确定的任务。已经提出了许多数据集来通过根据人类评级提供成对的图像和美学得分来解决问题。但是，人类更好地通过语言表达自己的观点，品味和情感，而不是单个数字总结他们。实际上，照片评论提供了更丰富的信息，因为它们揭示了用户如何以及为什么对视觉刺激的美学评价。在这方面，我们提出了Reddit照片评论数据集（RPCD），其中包含图像和照片评论的元素。 RPCD由74K图像和220k评论组成，并从业余爱好者和专业摄影师使用的Reddit社区收集，以利用建设性的社区反馈来提高其摄影技巧。所提出的数据集与以前的美学数据集不同，主要是三个方面，即（i）数据集的大规模数据集和批评图像不同方面的评论的扩展，（ii）它主要包含Ultrahd映像，以及（iii）它通过自动管道收集，可以轻松地扩展到新数据。据我们所知，在这项工作中，我们提出了首次尝试估算批评的视觉刺激质量的尝试。为此，我们利用批评情绪的极性为美学判断的指标。我们证明了情感如何与可用于两种美学评估基准的美学判断正相关。最后，我们通过使用情感得分作为排名图像的目标进行了几种模型。提供数据集和基准（https://github.com/mediatechnologycenter/aestheval）。

translated by 谷歌翻译

Firenze: Model Evaluation Using Weak Signals

Bhavna Soman , Ali Torkamani , Michael J. Morais , Jeffrey Bickford , Baris Coskun

分类：人工智能 | 机器学习

2022-07-02

安全字段中的数据标签通常是嘈杂，有限或偏向于人口子集的。结果，诸如准确性，精度和召回指标之类的普遍评估方法，或从标记数据集中计算的性能曲线的分析对机器学习（ML）模型的现实性能没有足够的信心。这减慢了该领域的机器学习的采用。在当今的行业中，我们依靠域专业知识和冗长的手动评估来建立此信心，然后再运送新的安全应用程序模型。在本文中，我们介绍了Firenze，这是一种使用域专业知识对ML模型的性能进行比较评估的新型框架，并编码为称为标记的可扩展功能。我们表明，在称为感兴趣的区域的样本中计算和组合的标记可以提供对其现实世界表演的强大估计。至关重要的是，我们使用统计假设检验来确保观察到的差异，因此从我们的框架中得出的结论 - 比仅噪声可观察到的更为突出。使用模拟和两个现实世界数据集用于恶意软件和域名声誉检测，我们说明了方法的有效性，局限性和见解。综上所述，我们建议Firenze作为研究人员，领域专家和企业主混合团队的快速，可解释和协作模型开发和评估的资源。

translated by 谷歌翻译