智能论文笔记

Multi-Task and Transfer Learning for Federated Learning Applications

Cihat Keçeci , Mohammad Shaqfeh , Hayat Mbayed , Erchin Serpedin

分类：机器学习

2022-07-17

联合学习可以使许多应用程序受益于大量潜在数据持有客户的分布式和私人数据集。但是，不同客户通常就可以从数据中学到的任务具有自己的特定目标。因此，使用元学习工具（例如多任务学习和转移学习）来支持联合学习，将通过让不同但相关任务的客户共享可以进一步更新和更新和相关任务的客户来帮助扩大联合学习的潜在应用程序。由每个客户为其特定任务量身定制。在联合的多任务学习问题中，应对每个客户的各个目标进行训练的深度神经网络模型，同时共享一些参数以提高概括性。我们建议训练一个深层的神经网络模型，其更广泛的层更接近输入，并且更具个性化的层贴在输出中。我们通过引入层类型（例如预训练，常见，特定于任务和个人层）来实现这一目标。我们提供仿真结果，以突出特定的方案，在这种情况下，基于元学习的联合学习被证明是有用的。

translated by 谷歌翻译

MARLIN: Masked Autoencoder for facial video Representation LearnINg

Zhixi Cai , Shreya Ghosh , Kalin Stefanov , Abhinav Dhall , Jianfei Cai , Hamid Rezatofighi , Reza Haffari , Munawar Hayat

分类：计算机视觉

2022-11-12

This paper proposes a self-supervised approach to learn universal facial representations from videos, that can transfer across a variety of facial analysis tasks such as Facial Attribute Recognition (FAR), Facial Expression Recognition (FER), DeepFake Detection (DFD), and Lip Synchronization (LS). Our proposed framework, named MARLIN, is a facial video masked autoencoder, that learns highly robust and generic facial embeddings from abundantly available non-annotated web crawled facial videos. As a challenging auxiliary task, MARLIN reconstructs the spatio-temporal details of the face from the densely masked facial regions which mainly include eyes, nose, mouth, lips, and skin to capture local and global aspects that in turn help in encoding generic and transferable features. Through a variety of experiments on diverse downstream tasks, we demonstrate MARLIN to be an excellent facial video encoder as well as feature extractor, that performs consistently well across a variety of downstream tasks including FAR (1.13% gain over supervised benchmark), FER (2.64% gain over unsupervised benchmark), DFD (1.86% gain over unsupervised benchmark), LS (29.36% gain for Frechet Inception Distance), and even in low data regime. Our codes and pre-trained models will be made public.

translated by 谷歌翻译

Speech Forensics: Blind Voice Mimicry Detection

Sahar Al Ajmi , Khizar Hayat , Alaa M. Al Obaidi , Naresh Kumar , Munaf Najmuldeen , Baptiste Magnier

分类：人工智能 | 机器学习 | 神经与进化计算

2022-09-26

音频是人类交流最常用的方式之一，但与此同时，它很容易被欺骗人们滥用。随着AI的革命，几乎每个人都可以访问相关技术，从而使罪犯犯罪和伪造变得简单。在这项工作中，我们引入了一种深度学习方法，以开发一种分类器，该分类器将盲目地将输入音频分类为真实或模仿。提出的模型接受了从大型音频数据集提取的一组重要功能的培训，以获取分类器，该分类器已在不同音频的相同功能上进行了测试。为这项工作创建了两个数据集；所有英语数据集和混合数据集（阿拉伯语和英语）。这些数据集已通过GitHub提供，可在https://github.com/sass7/dataset上使用研究社区。为了进行比较，还通过人类检查对音频进行了分类，主题是母语人士。随之而来的结果很有趣，并且表现出强大的精度。

translated by 谷歌翻译

Hybrid Window Attention Based Transformer Architecture for Brain Tumor Segmentation

Himashi Peiris , Munawar Hayat , Zhaolin Chen , Gary Egan , Mehrtash Harandi

分类：计算机视觉

2022-09-16

由于MRI体积的强度在各机构之间是不一致的，因此必须将多模式MRI的通用特征提取到精确分段脑肿瘤。在这个概念中，我们提出了一个体积视觉变压器，遵循两种窗口策略，以提取精美特征和局部分配平滑度（LDS）在受虚拟对手训练（VAT）启发的模型训练过程中提取精美的特征和局部分配平滑度（LDS），以使模型可靠。我们在FETS Challenge 2022数据集上培训和评估了网络体系结构。我们在在线验证数据集上的性能如下：骰子相似性得分为81.71％，91.38％和85.40％； Hausdorff距离（95％）的14.81毫米，3.93毫米，11.18毫米，分别用于增强肿瘤，整个肿瘤和肿瘤核。总体而言，实验结果通过在每个肿瘤子区域的分割准确性中得出更好的性能来验证我们的方法的有效性。我们的代码实施公开可用：https：//github.com/himashi92/vizviva_fets_2022

translated by 谷歌翻译

Defense against Privacy Leakage in Federated Learning

Jing Wu , Munawar Hayat , Mingyi Zhou , Mehrtash Harandi

分类：机器学习 | 计算机视觉

2022-09-13

联邦学习（FL）提供了有希望的分布式学习范式，因为它试图通过不共享其私人培训数据来保护用户隐私。但是，最近的研究表明，FL容易受到模型反转攻击的影响，该攻击可以通过窃听共享梯度来重建用户的私人数据。现有的防御解决方案无法在更强烈的攻击中生存，并且在隐私和绩效之间表现不佳。在本文中，我们提出了一种直接而有效的防御策略，基于与隐藏数据相混淆敏感数据的梯度。具体而言，我们在迷你批次中更改一些样品，以模仿梯度水平的敏感数据。使用梯度投影技术，我们的方法试图在不牺牲FL性能的情况下模糊敏感数据。我们广泛的评估表明，与其他防御能力相比，我们的技术在保留FL性能的同时提供了最高水平的保护。我们的源代码位于存储库中。

translated by 谷歌翻译

ViT-ReT: Vision and Recurrent Transformer Neural Networks for Human Activity Recognition in Videos

James Wensel , Hayat Ullah , Arslan Munir , Erik Blasch

分类：计算机视觉

2022-08-16

人类活动识别是计算机视觉中的新出现和重要领域，旨在确定个体或个体正在执行的活动。该领域的应用包括从体育中生成重点视频到智能监视和手势识别。大多数活动识别系统依赖于卷积神经网络（CNN）的组合来从数据和复发性神经网络（RNN）中进行特征提取来确定数据的时间依赖性。本文提出并设计了两个用于人类活动识别的变压器神经网络：一个经常性变压器（RET），这是一个专门的神经网络，用于对数据序列进行预测，以及视觉变压器（VIT），一种用于提取显着的变压器的变压器（VIT）图像的特征，以提高活动识别的速度和可扩展性。我们在速度和准确性方面提供了对拟议的变压器神经网络与现代CNN和基于RNN的人类活动识别模型的广泛比较。

translated by 谷歌翻译

Human Activity Recognition Using Cascaded Dual Attention CNN and Bi-Directional GRU Framework

Hayat Ullah , Arslan Munir

分类：计算机视觉 | 人工智能

2022-08-09

基于视觉的人类活动识别已成为视频分析领域的重要研究领域之一。在过去的十年中，已经引入了许多先进的深度学习算法，以识别视频流中复杂的人类行为。这些深度学习算法对人类活动识别任务显示出令人印象深刻的表现。但是，这些新引入的方法仅专注于模型性能或这些模型在计算效率和鲁棒性方面的有效性，从而导致其解决挑战性人类活动识别问题的提议中的偏差折衷。为了克服当代深度学习模型对人类活动识别的局限性，本文提出了一个计算高效但通用的空间级联框架，该框架利用了深层歧视性的空间和时间特征，以识别人类活动的识别。为了有效地表示人类行动，我们提出了有效的双重注意卷积神经网络（CNN）体系结构，该结构利用统一的通道空间注意机制来提取视频框架中以人为中心的显着特征。双通道空间注意力层与卷积层一起学会在具有特征图数量的物体的空间接收场中更加专注。然后将提取的判别显着特征转发到堆叠的双向封闭式复发单元（BI-GRU），以使用前进和后传球梯度学习，以实现长期时间建模和对人类行为的识别。进行了广泛的实验，其中获得的结果表明，与大多数当代动作识别方法相比，所提出的框架的执行时间的改善最高167倍。

translated by 谷歌翻译

'Labelling the Gaps': A Weakly Supervised Automatic Eye Gaze Estimation

Shreya Ghosh , Abhinav Dhall , Jarrod Knibbe , Munawar Hayat

分类：计算机视觉

2022-08-03

在过去的几年中，在有限的监督下，在不受限制的环境中解释凝视方向一直引起人们的兴趣。由于数据策展和注释问题，将目光估计方法复制到其他平台（例如不受限制的户外或AR/VR）可能会导致性能大幅下降，因为对于模型培训的准确注释数据的可用性不足。在本文中，我们探讨了一个有趣但具有挑战性的凝视估计方法的问题，其标记数据有限。所提出的方法将知识从标记的子集中提炼出具有视觉特征。包括特定身份的外观，凝视轨迹的一致性和运动特征。给定凝视轨迹，该方法仅利用凝视序列的开始和终点的标签信息。提出的方法的扩展进一步减少了标记框架的需求，仅在生成标签的质量下略有下降的起始框架。我们评估了四个基准数据集（Cave，Tabletgaze，MPII和Gaze360）的建议方法以及Web craw的YouTube视频。我们提出的方法将注释工作降低到低至2.67％，对性能的影响很小。表明我们的模型的潜力实现了凝视估计的“野外”设置。

translated by 谷歌翻译

A Comparative Study on COVID-19 Fake News Detection Using Different Transformer Based Models

Sajib Kumar Saha Joy , Dibyo Fabian Dofadar , Riyo Hayat Khan , Md. Sabbir Ahmed , Rafeed Rahman

分类：自然语言处理 | 机器学习

2022-08-02

社交网络的快速发展以及互联网可用性的便利性加剧了虚假新闻和社交媒体网站上的谣言的泛滥。在共同19的流行病中，这种误导性信息通过使人们的身心生命处于危险之中，从而加剧了这种情况。为了限制这种不准确性的传播，从在线平台上确定虚假新闻可能是第一步。在这项研究中，作者通过实施了五个基于变压器的模型，例如Bert，Bert没有LSTM，Albert，Roberta和Bert＆Albert的混合体，以检测Internet的Covid 19欺诈新闻。Covid 19假新闻数据集已用于培训和测试模型。在所有这些模型中，Roberta模型的性能优于其他模型，通过在真实和虚假类中获得0.98的F1分数。

translated by 谷歌翻译

MedFuse: Multi-modal fusion with clinical time-series data and chest X-ray images

Nasir Hayat , Krzysztof J. Geras , Farah E. Shamout

分类：计算机视觉 | 机器学习

2022-07-14

多模式融合方法旨在整合来自不同数据源的信息。与天然数据集不同，例如在视听应用中，样本由“配对”模式组成，医疗保健中的数据通常异步收集。因此，对于给定样品需要所有方式，对于临床任务而言并不现实，并且在训练过程中显着限制了数据集的大小。在本文中，我们提出了Medfuse，这是一种概念上简单但有前途的基于LSTM的融合模块，可以容纳Uni-Mododal和多模式输入。我们使用MIMIC-IV数据集中的临床时间序列数据以及Mimic-CXR中的相应的胸部X射线图像，评估了融合方法，并引入了院内死亡率预测和表型分类的新基准结果。与更复杂的多模式融合策略相比，MEDFUSE在完全配对的测试集上的差距很大。它在部分配对的测试集中还保持了强大的稳定性，其中包含带有缺少胸部X射线图像的样品。我们发布了我们的可重复性代码，并在将来对竞争模型进行评估。

translated by 谷歌翻译