该行业许多领域的自动化越来越多地要求为检测异常事件设计有效的机器学习解决方案。随着传感器的普遍存在传感器监测几乎连续地区的复杂基础设施的健康,异常检测现在可以依赖于以非常高的频率进行采样的测量,从而提供了在监视下的现象的非常丰富的代表性。为了充分利用如此收集的信息,观察不能再被视为多变量数据,并且需要一个功能分析方法。本文的目的是探讨近期对实际数据集的功能设置中异常检测技术的性能。在概述最先进的和视觉描述性研究之后,比较各种异常检测方法。虽然功能设置中的异常分类(例如,形状,位置)在文献中记录,但为所识别的异常分配特定类型似乎是一个具有挑战性的任务。因此,鉴于模拟研究中的这些突出显示类型,现有方法的强度和弱点是基准测试。接下来在两个数据集上评估异常检测方法,与飞行中的直升机监测和建筑材料的光谱相同有关。基准分析由从业者的建议指导结束。
translated by 谷歌翻译
在基于文本的分类器中测试公平性问题的一种常见方法是通过使用反事实来:如果更改输入中的敏感属性,则分类器输出是否会更改?现有的反事实生成方法通常依赖于单词列表或模板,产生不考虑语法,上下文或微妙敏感属性引用的简单反事实,并且可能会错过WordList创建者未考虑的问题。在本文中,我们介绍了一项为克服这些缺点而产生的反事实的任务,并证明了如何利用大型语言模型(LLM)来在此任务上取得进展。我们表明,这种基于LLM的方法可以产生现有方法无法实现的复杂反事实,从而比较了民事评论数据集中各种反事实生成方法的性能,并在评估毒性分类器时显示出它们的价值。
translated by 谷歌翻译
由于信息源通常不完美,因此有必要考虑其在多源信息融合任务中的可靠性。在本文中,我们提出了一个新的深层框架,使我们能够使用Dempster-Shafer理论的形式合并多MR图像分割结果,同时考虑到相对于不同类别的不同模式的可靠性。该框架由编码器折线功能提取模块组成,该模块是每个模态在每个体素上计算信念函数的证据分割模块,以及多模式的证据融合模块,该模块为每个模态证据和每个模态证据和折现率分配使用Dempster规则结合折扣证据。整个框架是通过根据折扣骰子指数最小化新的损失功能来培训的,以提高细分精度和可靠性。该方法在1251例脑肿瘤患者的Brats 2021数据库中进行了评估。定量和定性的结果表明,我们的方法表现优于最新技术,并实现了在深神经网络中合并多信息的有效新想法。
translated by 谷歌翻译
近年来,人们对可解释的AI(XAI)领域的兴趣激增,文献中提出了很多算法。但是,关于如何评估XAI的共识缺乏共识阻碍了该领域的发展。我们强调说,XAI并不是一组整体技术 - 研究人员和从业人员已经开始利用XAI算法来构建服务于不同使用环境的XAI系统,例如模型调试和决策支持。然而,对XAI的算法研究通常不会考虑到这些多样化的下游使用环境,从而对实际用户产生有限的有效性甚至意想不到的后果,以及从业者做出技术选择的困难。我们认为,缩小差距的一种方法是开发评估方法,这些方法在这些用法上下文中说明了不同的用户需求。为了实现这一目标,我们通过考虑XAI评估标准对XAI的原型用法上下文的相对重要性,介绍了情境化XAI评估的观点。为了探索XAI评估标准的上下文依赖性,我们进行了两项调查研究,一项与XAI主题专家,另一项与人群工人进行。我们的结果敦促通过使用使用的评估实践进行负责任的AI研究,并在不同使用环境中对XAI的用户需求有细微的了解。
translated by 谷歌翻译
在本文中,我们推出了一种新的通用依赖树木库,用于亚马逊尼亚的一种濒危语言:秘鲁在秘鲁说的Panoan语言Kakataibo。我们首先讨论实施的协作方法,事实证明,在本科生的计算语言课程的背景下创建树库有效。然后,我们描述了树库的一般细节以及针对拟议的注释实施的特定于语言的注意事项。我们最终对词性标记和句法依赖性解析进行了一些实验。我们专注于单语和转移学习设置,在这里我们研究了另一种Panoan语言资源的Shipibo-Konibo Treebos的影响。
translated by 谷歌翻译
多用户多输入多输出(MU-MIMO)系统可用于满足5G和超越网络的高吞吐量要求。基站在上行链路MU-MIMO系统中为许多用户提供服务,从而导致多用户干扰(MUI)。设计用于处理强大MUI的高性能探测器具有挑战性。本文分析了最先进消息传递(MP)检测器中使用高MUI的后验分布近似引起的性能降解。我们开发一个基于图神经网络的框架来微调MP检测器的腔分布,从而改善MP检测器中的后验分布近似。然后,我们提出了两个基于神经网络的新型检测器,它们依赖于期望传播(EP)和贝叶斯平行干扰取消(BPIC),分别称为GEPNET和GPICNET探测器。 GEPNET检测器可最大化检测性能,而GPICNET检测器平衡了性能和复杂性。我们提供了置换量比属性的证明,即使在具有动态变化的用户数量的系统中,也只能对检测器进行一次培训。仿真结果表明,所提出的GEPNET检测器性能在各种配置中接近最大似然性能,而GPICNET检测器将BPIC检测器的多路复用增益加倍。
translated by 谷歌翻译
由于其主观性质,美学的计算推断是一项不确定的任务。已经提出了许多数据集来通过根据人类评级提供成对的图像和美学得分来解决问题。但是,人类更好地通过语言表达自己的观点,品味和情感,而不是单个数字总结他们。实际上,照片评论提供了更丰富的信息,因为它们揭示了用户如何以及为什么对视觉刺激的美学评价。在这方面,我们提出了Reddit照片评论数据集(RPCD),其中包含图像和照片评论的元素。 RPCD由74K图像和220k评论组成,并从业余爱好者和专业摄影师使用的Reddit社区收集,以利用建设性的社区反馈来提高其摄影技巧。所提出的数据集与以前的美学数据集不同,主要是三个方面,即(i)数据集的大规模数据集和批评图像不同方面的评论的扩展,(ii)它主要包含Ultrahd映像,以及(iii)它通过自动管道收集,可以轻松地扩展到新数据。据我们所知,在这项工作中,我们提出了首次尝试估算批评的视觉刺激质量的尝试。为此,我们利用批评情绪的极性为美学判断的指标。我们证明了情感如何与可用于两种美学评估基准的美学判断正相关。最后,我们通过使用情感得分作为排名图像的目标进行了几种模型。提供数据集和基准(https://github.com/mediatechnologycenter/aestheval)。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
开发了一种能够处理NMR图像的算法,用于使用机器学习技术来分析以检测脑肿瘤的存在。
translated by 谷歌翻译
仇恨语音在线的检测已成为一项重要的任务,因为伤害,淫秽和侮辱性内容等冒犯性语言可能会危害边缘化的人或团体。本文介绍了Indo-European语言中的仇恨语音和冒犯内容识别的共同任务任务1A和1B的任务1A和1B的实验和结果。在整个竞争中,对各种子特派团评估了不同的自然语言处理模型的成功。我们通过竞争对手基于单词和字符级别的复发神经网络测试了不同的模型,并通过竞争对手基于提供的数据集进行了学习方法。在已经用于实验的测试模型中,基于转移学习的模型在两个子任务中获得了最佳结果。
translated by 谷歌翻译