Characterizing the patterns of errors that a system makes helps researchers focus future development on increasing its accuracy and robustness. We propose a novel form of "meta learning" that automatically learns interpretable rules that characterize the types of errors that a system makes, and demonstrate these rules' ability to help understand and improve two NLP systems. Our approach works by collecting error cases on validation data, extracting meta-features describing these samples, and finally learning rules that characterize errors using these features. We apply our approach to VilBERT, for Visual Question Answering, and RoBERTa, for Common Sense Question Answering. Our system learns interpretable rules that provide insights into systemic errors these systems make on the given tasks. Using these insights, we are also able to "close the loop" and modestly improve performance of these systems.
translated by 谷歌翻译
在本文中,我们描述了一种表示音频信号的表示方法,以实现COVID-19检测任务。将原始音频样品用1D卷积过滤器进行处理,这些过滤器被参数化为余弦调制的高斯函数。这些内核的选择允许将滤纸解释为光滑的带通滤波器。过滤后的输出汇总,对数压缩并用于基于自我注意的相关加权机制。相关权重强调了时间频分解的关键区域,这对于下游任务很重要。该模型的后续层由复发架构组成,模型经过训练,以执行COVID-19检测任务。在我们对COSWARA数据集的实验中,我们表明,所提出的模型在基线系统以及其他表示学习方法上实现了显着的性能改进。此外,提出的方法被证明适用于语音和呼吸信号以及从较大的数据集中转移学习。
translated by 谷歌翻译
在本文中,我们使用语言数据收集的现场方法讨论了四种低资源印度语语言的演讲语料库的过程中的工作 - Awadhi,Bhojpuri,Braj和Magahi。目前,语料库的总大小约为18小时(每种语言约4-5小时),并用语法信息进行转录和注释,例如词性标签,形态学特征和普遍的依赖关系。我们讨论了以这些语言收集数据的方法,其中大多数是在Covid-19大流行中心进行的,其中之一是为低收入群体带来一些额外的收入,说这些语言。在本文中,我们还讨论了这些语言中自动语音识别系统的基线实验的结果。
translated by 谷歌翻译
这项工作为2022年ICML表达性发声挑战exvo-multitask轨道的人声爆发音频介绍了对年龄,原产国和情感的同时估计的多任务方法。选择的方法利用了光谱 - 周期调制和自我监督的特征的组合,然后是在多任务范式中组织的编码器编码网络。我们通过检查独立的任务特定模型和联合模型来评估所构成的任务之间的互补性,并探索不同特征集的相对强度。我们还引入了一种简单的分数融合机制,以利用此任务的不同特征集的互补性。我们发现,与光谱 - 周期性接收场的得分融合结合进行了强大的数据预处理,而Hubert模型达到了我们最佳的EXVO-Multitask测试评分为0.412。
translated by 谷歌翻译
大多数机器学习(ML)算法具有多个随机元素,并且它们的性能受这些随机性来源的影响。本文使用一项经验研究来系统地检查两个来源的效果:模型训练中的随机性和在数据集分配到训练和测试子集中的随机性中。我们量化和比较以下ML算法的预测性能变化的幅度:随机森林(RFS),梯度增强机(GBMS)和前馈神经网络(FFNNS)。在不同的算法中,与基于树的方法相比,模型训练中的随机性会导致FFNN的变化更大。这是可以预期的,因为FFNN具有更多的随机元素,这些元素是其模型初始化和训练的一部分。我们还发现,与模型训练的固有随机性相比,数据集的随机分裂会导致更高的变化。如果原始数据集具有相当大的异质性,则数据拆分的变化可能是一个主要问题。关键字:模型培训,可重复性,变化
translated by 谷歌翻译
自动化机器学习(AUTOML)是使机器学习模型被广泛应用于解决现实世界问题的重要步骤。尽管有许多研究的进步,但机器学习方法主要由于其数据隐私和安全法规而尚未完全被行业利用,因此在中心位置存储和计算增加数据量的高成本以及最重要的是缺乏专业知识。因此,我们介绍了一个新颖的框架,hanf -$ \ textbf {h} $ yperparameter $ \ textbf {a} $ nd $ \ textbf {n} $ earural架构搜索$ \ textbf {f}为在几个数据所有者服务器上分布的数据建立一个自动框架,而无需将数据带到中心位置。 HANF使用基于梯度的神经体系结构搜索和数据分布式设置中分别使用基于梯度的神经体系结构搜索和$ n $ armed Bandit方法来共同优化学习算法的神经体系结构和非构造超参数。我们表明,HANF有效地找到了优化的神经体系结构,并在数据所有者服务器上调整了超参数。此外,HANF可以在联合和非填充设置中应用。从经验上讲,我们表明HANF使用图像分类任务收敛于合适的体系结构和非架构高参数集。
translated by 谷歌翻译
乳腺癌是最常见的癌症,乳房X线摄影筛查的早期检测对于改善患者预后至关重要。评估乳房X线乳房密度在临床上很重要,因为浓密的乳房具有更高的风险,并且更有可能阻塞肿瘤。专家的手动评估既耗时又受评估者间的可变性。因此,对乳房X线乳房密度评估的深度学习方法的发展有所增加。尽管深度学习在乳房X线摄影的应用中表现出了令人印象深刻的表现,但在仍然相对较少的深度学习系统中的临床部署中;从历史上看,乳房X线摄影计算机辅助诊断(CAD)已过分宣传,无法提供。这部分是由于无法直观地量化临床医生算法的不确定性,这将大大提高可用性。共形预测非常适合增加对深度学习工具的可靠和信任,但它们缺乏对医疗数据集的现实评估。在本文中,我们介绍了应用于医学成像任务的三个可能应用的详细分析:分配转移表征,预测质量的改善和亚组公平分析。我们的结果表明,无分配不确定性量化技术的潜力可以增强对AI算法的信任并加快其翻译为使用。
translated by 谷歌翻译
降水控制地球气候,其日常时空波动具有重大的社会经济影响。通过改善温度和压力等各种物理领域的预测来衡量数值天气预测(NWP)的进步;然而,降水预测中存在很大的偏见。我们通过深度学习来增强著名的NWP模型CFSV2的输出,以创建一个混合模型,该模型在1日,2天和3天的交货时间内改善了短期全局降水量。为了混合使用,我们通过使用修改的DLWP-CS体系结构来解决全局数据的球形,从而将所有字段转换为立方体投影。动态模型沉淀和表面温度输出被喂入改良的DLWP-CS(UNET),以预测地面真相降水。虽然CFSV2的平均偏差为土地+5至+7毫米/天,但多元深度学习模型将其降低到-1至+1 mm/天。卡特里娜飓风在2005年,伊万飓风,2010年的中国洪水,2005年的印度洪水和2008年的缅甸风暴纳尔吉斯(Myanmar Storm Nargis)用于确认混合动力学深度学习模型的技能大大提高。 CFSV2通常在空间模式中显示中度至大偏置,并在短期时间尺度上高估了沉淀。拟议的深度学习增强了NWP模型可以解决这些偏见,并大大改善了预测降水的空间模式和幅度。与CFSV2相比,深度学习增强了CFSV2在重要的土地区域的平均偏差为1天铅1天。时空深度学习系统开辟了途径,以进一步提高全球短期降水预测的精度和准确性。
translated by 谷歌翻译
现代生成模型大致分为两个主要类别:(1)可以产生高质量随机样品但无法估算新数据点的确切密度的模型,以及(2)提供精确密度估计的模型,以样本为代价潜在空间的质量和紧凑性。在这项工作中,我们提出了LED,这是一种与gan密切相关的新生成模型,不仅允许有效采样,而且允许有效的密度估计。通过最大程度地提高对数可能的歧视器输出,我们得出了一个替代对抗优化目标,鼓励生成的数据多样性。这种表述提供了对几种流行生成模型之间关系的见解。此外,我们构建了一个基于流的生成器,该发电机可以计算生成样品的精确概率,同时允许低维度变量作为输入。我们在各种数据集上的实验结果表明,我们的密度估计器会产生准确的估计值,同时保留了生成的样品质量良好。
translated by 谷歌翻译
生物标志物确定患者对治疗的反应。随着基于变压器网络的人工智能的最新进展,仅进行了有限的研究来衡量具有挑战性的组织病理学图像的性能。在本文中,我们研究了众多最先进的变压器网络对免疫组织蛋白质细胞分割免疫组织癌(IHC)幻灯片中结肠癌的众多最先进的变压器网络的疗效。广泛而全面的实验结果证实,与其余评估的变压器和有效的U-NET方法相比,Missformer的骰子得分最高74.85%。
translated by 谷歌翻译