智能论文笔记

Deep Transfer-Learning for patient specific model re-calibration: Application to sEMG-Classification

Stephan Johann Lehmler , Muhammad Saif-ur-Rehman , Tobias Glasmachers , Ioannis Iossifidis

分类：机器学习

2021-12-30

表面肌电学（SEMG）的精确解码是肌肉到机器接口（MMI）的关键和它们的应用。康复治疗。由于各种因素，包括皮肤厚度，体脂百分比和电极放置，SEMG信号具有高的互类互变异性。因此，获得训练有素的SEMG解码器的高泛化质量非常具有挑战性。通常，基于机器学习的SEMG解码器可以在特定于对象的数据上培训，或者单独地为每个用户验证或至少重新校准。即使，深度学习算法也产生了几种最新的SEMG解码结果，然而，由于SEMG数据的可用性有限，深度学习模型容易过度拟合。最近，转移学习域适应改善了各种机器学习任务的培训时间减少的泛化质量。在这项研究中，我们调查了使用权重初始化进行转移学习的有效性，以重新校正在新的科目数据上的两个不同预磨削的深度学习模型，并将它们的性能与特定于学科的模型进行比较。据我们所知，这是第一项研究，即彻底调查基于体重初始化的转移学习，并比较了对象特异性建模的转移学习。我们在各种设置下在三个公开的数据库上测试了我们的模型。平均过度通过所有设置，我们的转移学习方法改善了预训练模型的5〜\％，在没有微调的情况下，在特定于课程的型号上的12〜\％点，同时平均培训22〜\％较少的时期。我们的结果表明，转让学习可以更快地培训比用户特定的型号更少，并且只要有足够的数据，可以提高预磨料模型的性能。

translated by 谷歌翻译

Intra-domain and cross-domain transfer learning for time series data -- How transferable are the features?

Erik Otović , Marko Njirjak , Dario Jozinović , Goran Mauša , Alberto Michelini , Ivan Štajduhar

分类：机器学习

2022-01-12

在实践中，非常苛刻，有时无法收集足够大的标记数据数据集以成功培训机器学习模型，并且对此问题的一个可能解决方案是转移学习。本研究旨在评估如何可转让的时间序列数据和哪些条件下的不同域之间的特征。在训练期间，在模型的预测性能和收敛速度方面观察到转移学习的影响。在我们的实验中，我们使用1,500和9,000个数据实例的减少数据集来模仿现实世界的条件。使用相同的缩小数据集，我们培训了两组机器学习模型：那些随着转移学习的培训和从头开始培训的机器学习模型。使用四台机器学习模型进行实验。在相同的应用领域（地震学）以及相互不同的应用领域（地震，语音，医学，金融）之间进行知识转移。我们在训练期间遵守模型的预测性能和收敛速度。为了确认所获得的结果的有效性，我们重复了实验七次并应用了统计测试以确认结果的重要性。我们研究的一般性结论是转移学习可能会增加或不会对模型的预测性能或其收敛速度产生负面影响。在更多细节中分析收集的数据，以确定哪些源域和目标域兼容以用于传输知识。我们还分析了目标数据集大小的效果和模型的选择及其超参数对转移学习的影响。

translated by 谷歌翻译

U-Sleep: resilient to AASM guidelines

Luigi Fiorillo , Giuliana Monachino , Julia van der Meer , Marco Pesce , Jan Warncke , Markus H. Schmidt , Claudio L. A. Bassetti , Athina Tzovara , Paolo Favaro , Francesca D. Faraci

分类：机器学习

2022-09-19

AASM准则是为了有一种常用的方法，旨在标准化睡眠评分程序的数十年努力的结果。该指南涵盖了从技术/数字规格（例如，推荐的EEG推导）到相应的详细睡眠评分规则到年龄的几个方面。在睡眠评分自动化的背景下，与许多其他技术相比，深度学习表现出更好的性能。通常，临床专业知识和官方准则对于支持自动睡眠评分算法在解决任务时至关重要。在本文中，我们表明，基于深度学习的睡眠评分算法可能不需要充分利用临床知识或严格遵循AASM准则。具体而言，我们证明了U-Sleep是一种最先进的睡眠评分算法，即使使用临床非申请或非规定派生，也可以解决得分任务，即使无需利用有关有关的信息，也无需利用有关有关的信息。受试者的年代年龄。我们最终加强了一个众所周知的发现，即使用来自多个数据中心的数据始终导致与单个队列上的培训相比，可以使性能更好。确实，我们表明，即使增加了单个数据队列的大小和异质性，后者仍然有效。在我们的所有实验中，我们使用了来自13个不同临床研究的28528多个多摄影研究研究。

translated by 谷歌翻译

Do Better ImageNet Models Transfer Better?

Simon Kornblith , Jonathon Shlens , Quoc V. Le

分类：

2018-05-23

Transfer learning is a cornerstone of computer vision, yet little work has been done to evaluate the relationship between architecture and transfer. An implicit hypothesis in modern computer vision research is that models that perform better on ImageNet necessarily perform better on other vision tasks. However, this hypothesis has never been systematically tested. Here, we compare the performance of 16 classification networks on 12 image classification datasets. We find that, when networks are used as fixed feature extractors or fine-tuned, there is a strong correlation between ImageNet accuracy and transfer accuracy (r = 0.99 and 0.96, respectively). In the former setting, we find that this relationship is very sensitive to the way in which networks are trained on ImageNet; many common forms of regularization slightly improve ImageNet accuracy but yield penultimate layer features that are much worse for transfer learning. Additionally, we find that, on two small fine-grained image classification datasets, pretraining on ImageNet provides minimal benefits, indicating the learned features from Ima-geNet do not transfer well to fine-grained tasks. Together, our results show that ImageNet architectures generalize well across datasets, but ImageNet features are less general than previously suggested.

translated by 谷歌翻译

Mythological Medical Machine Learning: Boosting the Performance of a Deep Learning Medical Data Classifier Using Realistic Physiological Models

Ismail Sadiq , Erick A. Perez-Alday , Amit J. Shah , Ali Bahrami Rad , Reza Sameni , Gari D. Clifford

分类：机器学习

2021-12-28

目的：确定逼真，但是电磁图的计算上有效模型可用于预先列车，具有广泛的形态和特定于给定条件的形态和异常 - T波段（TWA）由于创伤后应激障碍，或重点 - 在稀有人的小型数据库上显着提高了性能。方法：使用先前经过验证的人工ECG模型，我们生成了180,000人的人工ECG，有或没有重要的TWA，具有不同的心率，呼吸率，TWA幅度和ECG形态。在70,000名患者中培训的DNN进行分类为25种不同的节奏，将输出层修改为二进制类（TWA或NO-TWA，或等效，PTSD或NO-PTSD），并对人工ECG进行转移学习。在最终转移学习步骤中，DNN在ECG的培训和交叉验证，从12个PTE和24个控件，用于使用三个数据库的所有组合。主要结果：通过进行转移学习步骤，使用预先培训的心律失常DNN，人工数据和真实的PTSD相关的心电图数据，发现了最佳性能的方法（AUROC = 0.77，精度= 0.72，F1-SCATE = 0.64）。从训练中删除人工数据导致性能的最大下降。从培训中取出心律失常数据提供了适度但重要的，表现下降。最终模型在人工数据上显示出在性能下没有显着下降，表明没有过度拟合。意义：在医疗保健中，通常只有一小部分高质量数据和标签，或更大的数据库，质量较低（和较差的相关）标签。这里呈现的范式，涉及基于模型的性能提升，通过在大型现实人工数据库和部分相关的真实数据库上传输学习来提供解决方案。

translated by 谷歌翻译

Toward Open-World Electroencephalogram Decoding Via Deep Learning: A Comprehensive Survey

Xun Chen , Chang Li , Aiping Liu , Martin J. McKeown , Ruobing Qian , Z. Jane Wang

分类：机器学习

2021-12-08

脑电图（EEG）解码旨在识别基于非侵入性测量的脑活动的神经处理的感知，语义和认知含量。当应用于在静态，受控的实验室环境中获取的数据时，传统的EEG解码方法取得了适度的成功。然而，开放世界的环境是一个更现实的环境，在影响EEG录音的情况下，可以意外地出现，显着削弱了现有方法的鲁棒性。近年来，由于其在特征提取的卓越容量，深入学习（DL）被出现为潜在的解决方案。它克服了使用浅架构提取的“手工制作”功能或功能的限制，但通常需要大量的昂贵，专业标记的数据 - 并不总是可获得的。结合具有域特定知识的DL可能允许开发即使具有小样本数据，也可以开发用于解码大脑活动的鲁棒方法。虽然已经提出了各种DL方法来解决EEG解码中的一些挑战，但目前缺乏系统的教程概述，特别是对于开放世界应用程序。因此，本文为开放世界EEG解码提供了对DL方法的全面调查，并确定了有前途的研究方向，以激发现实世界应用中的脑电图解码的未来研究。

translated by 谷歌翻译

Embracing the Disharmony in Medical Imaging: A Simple and Effective Framework for Domain Adaptation

Rongguang Wang , Pratik Chaudhari , Christos Davatzikos

分类：机器学习

2021-03-23

域移位，训练与测试数据特征之间的不匹配，导致多源成像方案中的预测性能显着降低。在医学成像中，不同网站的人口，扫描仪和采集协议的异质性提出了一个重要的领域移位挑战，并限制了机器学习模型的广泛临床采用。统一方法旨在学习数据不变的表示这些差异是解决域移位的普遍工具，但它们通常会导致预测精度的劣化。本文对问题进行了不同的视角：我们拥抱这种不和谐的数据并设计一个简单但有效的解决域名框架。根据我们的理论参数，关键的想法是在源数据上构建备用分类器并将此模型调整为新数据。可以为站点内域适应微调分类器。我们还可以在目标数据上处理我们无法访问地面真理标签的情况;我们展示如何使用辅助任务来适应;这些任务雇用协变量，如年龄，性别和种族，这很容易获得，但仍然与主要任务相关联。我们在大规模现实世界3D脑MRI数据集上展示了站点内部域适应和站点间域推广的大量改进，用于分类阿尔茨海默病和精神分裂症。

translated by 谷歌翻译

Impact of dataset size and long-term ECoG-based BCI usage on deep learning decoders performance

Maciej Śliwowski , Matthieu Martin , Antoine Souloumiac , Pierre Blanchart , Tetiana Aksenova

分类：机器学习

2022-09-08

在大脑计算机界面（BCI）研究中，记录数据耗时且昂贵，这限制了对大数据集的访问。这可能会影响BCI系统的性能，因为机器学习方法在很大程度上取决于训练数据集的大小。出现重要的问题：考虑到神经元信号特征（例如，非平稳性），我们可以通过更多数据来实现更高的解码性能来训练解码器吗？在长期BCI研究的情况下，随着时间的推移进一步改善的观点是什么？在这项研究中，我们从两个主要角度研究了长期记录对电动图像解码的影响：有关数据集大小的模型要求和患者适应的潜力。我们评估了长期BCI和四边形NCT02550522的多线性模型和两个深度学习模型（DL）模型，其中包含43个由四脑术患者执行的ECOG记录的43次会议。在实验中，参与者使用运动图像模式执行了3D虚拟手工翻译。我们设计了多个计算实验，其中增加或翻译了训练数据集，以研究模型的性能与影响记录的不同因素之间的关系。我们的分析表明，在培训数据集中添加更多数据可能不会立即提高已经包含40分钟信号的数据集的性能。与多线性模型相比，DL解码器在数据集大小上显示出类似的要求，同时证明了更高的解码性能。此外，通过在实验后面记录的相对较小的数据集获得了高解码性能，这表明运动图像模式得到改善和患者适应。最后，我们提出了UMAP嵌入和局部固有维度，以可视化数据并可能评估数据质量。

translated by 谷歌翻译

Towards Sleep Scoring Generalization Through Self-Supervised Meta-Learning

Abdelhak Lemkhenter , Paolo Favaro

分类：机器学习

2022-07-27

在这项工作中，我们介绍了一种新型的元学习方法，用于基于自学学习的学习来进行睡眠评分。我们的方法旨在构建可以概括不同患者和记录设施的睡眠评分模型，但不需要进一步适应目标数据。为了实现这一目标，我们通过合并自我监督的学习（SSL）阶段并将其称为S2MAML，在模型不可知的元学习（MAML）框架上构建方法。我们表明S2MAML可以显着胜过MAML。性能的增长来自SSL阶段，我们以通用伪任务为基础，该任务限制了培训数据集中存在的特定主题模式。我们表明，S2MAML在SC，ST，ISRUC，UCD和CAP数据集上优于标准监督学习和MAML。

translated by 谷歌翻译

Data augmentation for learning predictive models on EEG: a systematic comparison

Cédric Rommel , Joseph Paillard , Thomas Moreau , Alexandre Gramfort

分类：机器学习 | 人工智能

2022-06-29

在过去的几年中，深度学习用于脑电图（EEG）分类任务一直在迅速增长，但其应用程序受到EEG数据集相对较小的限制。数据扩展包括在培训过程中人为地增加数据集的大小，它一直是在计算机视觉或语音等应用程序中获得最新性能的关键要素。尽管文献中已经提出了一些脑电图数据的增强转换，但它们对跨任务的绩效的积极影响仍然难以捉摸。在这项工作中，我们提出了对主要现有脑电图增强的统一和详尽的分析，该分析在常见的实验环境中进行了比较。我们的结果强调了为睡眠阶段分类和大脑计算机界面界面的最佳数据增强，在某些情况下显示预测功率改善大于10％。

translated by 谷歌翻译

CubeLearn: End-to-end Learning for Human Motion Recognition from Raw mmWave Radar Signals

Peijun Zhao , Chris Xiaoxuan Lu , Bing Wang , Niki Trigoni , Andrew Markham

分类：机器学习

2021-11-07

近年来，MMWave FMCW雷达吸引了人类居中应用的大量研究兴趣，例如人类姿态/活动识别。大多数现有的管道由传统的离散傅立叶变换（DFT）预处理和深神经网络分类器混合方法建立，其中大多数以前的作品专注于设计下游分类器以提高整体精度。在这项工作中，我们返回返回并查看预处理模块。为了避免传统DFT预处理的缺点，我们提出了一个名为Cubelearn的学习预处理模块，直接从原始雷达信号中提取特征，并为MMWAVE FMCW雷达运动识别应用构建端到端的深神经网络。广泛的实验表明，我们的立方体模块一直提高不同管道的分类准确性，特别是利益以前较弱的模型。我们提供关于所提出的模块的初始化方法和结构的消融研究，以及对PC和边缘设备上运行时间的评估。这项工作也用作不同方法对数据立方体切片的比较。通过我们的任务无关设计，我们向雷达识别问题提出了一步迈向通用端到端解决方案。

translated by 谷歌翻译

RRWaveNet: A Compact End-to-End Multi-Scale Residual CNN for Robust PPG Respiratory Rate Estimation

Pongpanut Osathitporn , Guntitat Sawadwuthikul , Punnawish Thuwajit , Kawisara Ueafuea , Thee Mateepithaktham , Narin Kunaseth , Tanut Choksatchawathi , Proadpran Punyabukkana , Emmanuel Mignot , Theerawit Wilaiprasitporn

分类：人工智能 | 计算机视觉 | 机器学习

2022-08-18

呼吸率（RR）是重要的生物标志物，因为RR变化可以反映严重的医学事件，例如心脏病，肺部疾病和睡眠障碍。但是，不幸的是，标准手动RR计数容易出现人为错误，不能连续执行。这项研究提出了一种连续估计RR，RRWAVENET的方法。该方法是一种紧凑的端到端深度学习模型，不需要特征工程，可以将低成本的原始光摄影学（PPG）用作输入信号。对RRWAVENET进行了独立于主题的测试，并与三个数据集（BIDMC，Capnobase和Wesad）中的基线进行了比较，并使用三个窗口尺寸（16、32和64秒）进行了比较。 RRWAVENET优于最佳窗口大小为1.66 \ pm 1.01、1.59 \ pm 1.08的最佳绝对错误的最新方法，每个数据集每分钟每分钟呼吸0.96。在远程监视设置（例如在WESAD数据集中），我们将传输学习应用于其他两个ICU数据集，将MAE降低到1.52 \ pm每分钟0.50呼吸，显示此模型可以准确且实用的RR对负担得起的可穿戴设备进行准确估算。我们的研究表明，在远程医疗和家里，远程RR监测的可行性。

translated by 谷歌翻译

Image Classification with Small Datasets: Overview and Benchmark

L. Brigato , B. Barz , L. Iocchi , J. Denzler

分类：计算机视觉 | 人工智能 | 神经与进化计算

2022-12-23

Image classification with small datasets has been an active research area in the recent past. However, as research in this scope is still in its infancy, two key ingredients are missing for ensuring reliable and truthful progress: a systematic and extensive overview of the state of the art, and a common benchmark to allow for objective comparisons between published methods. This article addresses both issues. First, we systematically organize and connect past studies to consolidate a community that is currently fragmented and scattered. Second, we propose a common benchmark that allows for an objective comparison of approaches. It consists of five datasets spanning various domains (e.g., natural images, medical imagery, satellite data) and data types (RGB, grayscale, multispectral). We use this benchmark to re-evaluate the standard cross-entropy baseline and ten existing methods published between 2017 and 2021 at renowned venues. Surprisingly, we find that thorough hyper-parameter tuning on held-out validation data results in a highly competitive baseline and highlights a stunted growth of performance over the years. Indeed, only a single specialized method dating back to 2019 clearly wins our benchmark and outperforms the baseline classifier.

translated by 谷歌翻译

Deep learning for time series classification: a review

Hassan Ismail Fawaz , Germain Forestier , Jonathan Weber , Lhassane Idoumghar , Pierre-Alain Muller

分类：

2018-09-12

Time Series Classification (TSC) is an important and challenging problem in data mining. With the increase of time series data availability, hundreds of TSC algorithms have been proposed. Among these methods, only a few have considered Deep Neural Networks (DNNs) to perform this task. This is surprising as deep learning has seen very successful applications in the last years. DNNs have indeed revolutionized the field of computer vision especially with the advent of novel deeper architectures such as Residual and Convolutional Neural Networks. Apart from images, sequential data such as text and audio can also be processed with DNNs to reach state-of-the-art performance for document classification and speech recognition. In this article, we study the current state-ofthe-art performance of deep learning algorithms for TSC by presenting an empirical study of the most recent DNN architectures for TSC. We give an overview of the most successful deep learning applications in various time series domains under a unified taxonomy of DNNs for TSC. We also provide an open source deep learning framework to the TSC community where we implemented each of the compared approaches and evaluated them on a univariate TSC benchmark (the UCR/UEA archive) and 12 multivariate time series datasets. By training 8,730 deep learning models on 97 time series datasets, we propose the most exhaustive study of DNNs for TSC to date.

translated by 谷歌翻译

Bridging the Gap Between Patient-specific and Patient-independent Seizure Prediction via Knowledge Distillation

Di Wu , Jie Yang , Mohamad Sawan

分类：机器学习 | 人工智能

2022-02-25

客观的。深度神经网络（DNNS）在各种脑机界面应用中表现出了前所未有的成功，例如癫痫发作预测。但是，由于癫痫信号的高度个性化特征，现有方法通常会以特定于患者的方式训练模型。因此，只能将每个受试者的标记录音数量有限用于培训。结果，由于训练数据的不足，目前基于DNN的方法在一定程度上表现出较差的泛化能力。另一方面，与患者无关的模型试图利用更多的患者数据通过将患者数据汇总在一起为所有患者培训通用模型。尽管采用了不同的技术，但结果表明，由于患者的个体差异很高，与患者独立的模型相比性能要比患者特异性模型差。因此，在患者特异性和与患者无关的模型之间存在很大的差距。方法。在本文中，我们提出了一种基于知识蒸馏的新型培训计划，该方案利用了来自多个受试者的大量数据。首先，它从具有预训练的通用模型的所有可用受试者的信号中提取信息。然后可以借助蒸馏知识和其他个性化数据获得患者特异性的模型。主要结果。通过我们建议的计划，对波士顿-MIT儿童医院的Seeg数据库进行了四种最先进的癫痫发作预测方法。由此产生的准确性，敏感性和错误的预测率表明，我们提出的培训方案一致地提高了最先进方法的预测性能。意义。拟议的训练方案显着改善了患者特异性癫痫发作预测因子的性能，并弥合了患者特异性和与患者无关的预测因子之间的差距。

translated by 谷歌翻译

How transferable are features in deep neural networks?

Jason Yosinski , Jeff Clune , Yoshua Bengio , Hod Lipson

分类：

2014-11-06

Many deep neural networks trained on natural images exhibit a curious phenomenon in common: on the first layer they learn features similar to Gabor filters and color blobs. Such first-layer features appear not to be specific to a particular dataset or task, but general in that they are applicable to many datasets and tasks. Features must eventually transition from general to specific by the last layer of the network, but this transition has not been studied extensively. In this paper we experimentally quantify the generality versus specificity of neurons in each layer of a deep convolutional neural network and report a few surprising results. Transferability is negatively affected by two distinct issues: (1) the specialization of higher layer neurons to their original task at the expense of performance on the target task, which was expected, and (2) optimization difficulties related to splitting networks between co-adapted neurons, which was not expected. In an example network trained on ImageNet, we demonstrate that either of these two issues may dominate, depending on whether features are transferred from the bottom, middle, or top of the network. We also document that the transferability of features decreases as the distance between the base task and target task increases, but that transferring features even from distant tasks can be better than using random features. A final surprising result is that initializing a network with transferred features from almost any number of layers can produce a boost to generalization that lingers even after fine-tuning to the target dataset.

translated by 谷歌翻译

Two Decades of Bengali Handwritten Digit Recognition: A Survey

A. B. M. Ashikur Rahman , Md. Bakhtiar Hasan , Sabbir Ahmed , Tasnim Ahmed , Md. Hamjajul Ashmafee , Mohammad Ridwan Kabir , Md. Hasanul Kabir

分类：计算机视觉

2022-06-05

手写数字识别（HDR）是光学特征识别（OCR）领域中最具挑战性的任务之一。不管语言如何，HDR都存在一些固有的挑战，这主要是由于个人跨个人的写作风格的变化，编写媒介和环境的变化，无法在反复编写任何数字等时保持相同的笔触。除此之外，特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来，研究人员开发了许多离线和在线HDR管道，其中不同的图像处理技术与传统的机器学习（ML）基于基于的和/或基于深度学习（DL）的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据，例如：英语，阿拉伯语，印度，法尔西，中文等，但几乎没有对孟加拉人HDR（BHDR）的调查，这缺乏对孟加拉语HDR（BHDR）的研究，而这些调查缺乏对孟加拉语HDR（BHDR）的研究。挑战，基础识别过程以及可能的未来方向。在本文中，已经分析了孟加拉语手写数字的特征和固有的歧义，以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外，还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编，煽动了对相关研究的新途径的探索，这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。

translated by 谷歌翻译

Analyzing the Impact of Varied Window Hyper-parameters on Deep CNN for sEMG based Motion Intent Classification

Frank Kulwa , Oluwarotimi Williams Samuel , Mojisola Grace Asogbon , Olumide Olayinka Obe , Guanglin Li

分类：计算机视觉

2022-09-13

通过从EMG信号中自动学习肌肉激活模式，在基于肌电图（EMG）的假体控制中使用深神经网络为手工制作的特征提供了一种有希望的替代方法。同时，将RAW EMG信号用作卷积神经网络（CNN）的输入提供了一种简单，快速且理想的方案，以有效控制假体。因此，这项研究研究了窗口长度和重叠之间的关系，这可能会影响用于在CNN中应用的强大原始EMG 2维（2D）信号的产生。以及这些参数正确组合可以保证最佳网络性能的经验法则。此外，我们研究了CNN接受窗口大小与原始EMG信号大小之间的关系。实验结果表明，CNN的性能随着生成的信号内的重叠的增加而增加，当重叠率为窗口长度的75％时，确定的精度最高9.49％，F1得分23.33％。同样，网络性能随接收窗口（内核）大小的增加而增加。这项研究的结果表明，2D EMG信号中75％重叠的组合和更广泛的网络内核可以为基于EMG-CNN的适当假体控制方案提供理想的运动意图分类。

translated by 谷歌翻译

AniWho : A Quick and Accurate Way to Classify Anime Character Faces in Images

Martinus Grady Naftali , Jason Sebastian Sulistyawan , Kelvin Julian , Felix Indra Kurniadi

分类：计算机视觉 | 机器学习

2022-08-23

本文旨在更深入地研究各种可用的模型，包括：InceptionV3，InceptionResnetv2，MobileNetV2和EdgitionNetB7使用转移学习，以对日本动画风格的角色面对面进行分类。本文表明，有效网络-B7的精度率最高，而85.08 \％top-1的精度，其次是MobileNetV2，其准确结果略有较低，但其益处的推理时间较低，所需参数数量较少。本文还使用了一些射击的学习框架，特别是原型网络，该网络可产生不错的结果，可以用作传统转移学习方法的替代方法。

translated by 谷歌翻译

Landmark-Aware and Part-based Ensemble Transfer Learning Network for Facial Expression Recognition from Static images

Rohan Wadhawan , Tapan K. Gandhi

分类：计算机视觉 | 机器学习 | 神经与进化计算

2021-04-22

来自静态图像的面部表情识别是计算机视觉应用中的一个具有挑战性的问题。卷积神经网络（CNN），用于各种计算机视觉任务的最先进的方法，在预测具有极端姿势，照明和闭塞条件的面部的表达式中已经有限。为了缓解这个问题，CNN通常伴随着传输，多任务或集合学习等技术，这些技术通常以增加的计算复杂性的成本提供高精度。在这项工作中，我们提出了一种基于零件的集合转移学习网络，其模型通过将面部特征的空间方向模式与特定表达相关来模拟人类如何识别面部表达。它由5个子网络组成，每个子网络从面部地标的五个子集中执行转移学习：眉毛，眼睛，鼻子，嘴巴或颌骨表达分类。我们表明我们所提出的集合网络使用从面部肌肉的电机运动发出的视觉模式来预测表达，并展示从面部地标定位转移到面部表情识别的实用性。我们在CK +，Jaffe和SFew数据集上测试所提出的网络，并且它分别优于CK +和Jaffe数据集的基准，分别为0.51％和5.34％。此外，所提出的集合网络仅包括1.65M的型号参数，确保在培训和实时部署期间的计算效率。我们所提出的集合的Grad-Cam可视化突出了其子网的互补性质，是有效集合网络的关键设计参数。最后，交叉数据集评估结果表明，我们建议的集合具有高泛化能力，使其适合现实世界使用。

translated by 谷歌翻译