智能论文笔记

Explainable Biometrics in the Age of Deep Learning

Pedro C. Neto , Tiago Gonçalves , João Ribeiro Pinto , Wilson Silva , Ana F. Sequeira , Arun Ross , Jaime S. Cardoso

分类：计算机视觉

2022-08-19

能够分析和量化人体或行为特征的系统（称为生物识别系统）正在使用和应用变异性增长。由于其从手工制作的功能和传统的机器学习转变为深度学习和自动特征提取，因此生物识别系统的性能增加到了出色的价值。尽管如此，这种快速进步的成本仍然尚不清楚。由于其不透明度，深层神经网络很难理解和分析，因此，由错误动机动机动机的隐藏能力或决定是潜在的风险。研究人员已经开始将注意力集中在理解深度神经网络及其预测的解释上。在本文中，我们根据47篇论文的研究提供了可解释生物识别技术的当前状态，并全面讨论了该领域的发展方向。

translated by 谷歌翻译

No Pattern, No Recognition: a Survey about Reproducibility and Distortion Issues of Text Clustering and Topic Modeling

Marília Costa Rosendo Silva , Felipe Alves Siqueira , João Pedro Mantovani Tarrega , João Vitor Pataca Beinotti , Augusto Sousa Nunes , Miguel de Mattos Gardini , Vinícius Adolfo Pereira da Silva , Nádia Félix Felipe da Silva , André Carlos Ponce de Leon Ferreira de Carvalho

分类：机器学习 | 自然语言处理 | (统计)机器学习

2022-08-02

使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序，可以从无监督的学习（例如文本聚类和主题建模）中受益，包括探索性数据分析。但是，无监督的学习范式提出了可重复性问题。初始化可能会导致可变性，具体取决于机器学习算法。此外，关于群集几何形状，扭曲可能会产生误导。在原因中，异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关，但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述（2011-2022），并提出了共同的术语，因为类似的程序具有不同的术语。作者描述了研究机会，趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化，分解和聚类算法的理论背景。

translated by 谷歌翻译

Automatically Categorising GitHub Repositories by Application Domain

Francisco Zanartu , Christoph Treude , Bruno Cartaxo , Hudson Silva Borges , Pedro Moura , Markus Wagner , Gustavo Pinto

分类：机器学习

2022-07-30

GitHub是Internet上最大的开源软件主机。这个大型，可自由访问的数据库吸引了从业人员和研究人员的注意。但是，随着Github的增长的继续，越来越难以导航遍布广泛领域的大量存储库。过去的工作表明，考虑到应用程序域对于预测存储库的普及以及有关项目质量的推理的任务至关重要。在这项工作中，我们建立在先前注释的5,000个GitHub存储库的数据集上，以设计自动分类器，以通过其应用程序域对存储库进行分类。分类器使用最先进的自然语言处理技术和机器学习，根据五个应用程序域从多个数据源和目录存储库中学习。我们用（1）自动分类器贡献，该分类器可以将流行的存储库分配给每个应用程序域，至少具有70％的精度，（2）对该方法在不流行的存储库中的性能进行调查，以及（3）这种方法对这种方法的实际应用程序，用于回答软件工程实践的采用如何在应用程序域之间有何不同。我们的工作旨在帮助GitHub社区确定感兴趣的存储库，并为未来的工作开放有希望的途径，以调查来自不同应用领域的存储库之间的差异。

translated by 谷歌翻译

Sequence-aware multimodal page classification of Brazilian legal documents

Pedro H. Luz de Araujo , Ana Paula G. S. de Almeida , Fabricio A. Braz , Nilton C. da Silva , Flavio de Barros Vidal , Teofilo E. de Campos

分类：自然语言处理

2022-07-02

巴西最高法院每学期收到数万案件。法院员工花费数千个小时来执行这些案件的初步分析和分类 - 这需要努力从案件管理工作流的后部，更复杂的阶段进行努力。在本文中，我们探讨了来自巴西最高法院的文件多模式分类。我们在6,510起诉讼（339,478页）的新型多模式数据集上训练和评估我们的方法，并用手动注释将每个页面分配给六个类之一。每个诉讼都是页面的有序序列，它们既可以作为图像存储，又是通过光学特征识别提取的相应文本。我们首先训练两个单峰分类器：图像上对Imagenet进行了预先训练的重新编织，并且图像上进行了微调，并且具有多个内核尺寸过滤器的卷积网络在文档文本上从SCRATCH进行了训练。我们将它们用作视觉和文本特征的提取器，然后通过我们提出的融合模块组合。我们的融合模块可以通过使用学习的嵌入来处理缺失的文本或视觉输入，以获取缺少数据。此外，我们尝试使用双向长期记忆（BILSTM）网络和线性链条件随机字段进行实验，以模拟页面的顺序性质。多模式方法的表现都优于文本分类器和视觉分类器，尤其是在利用页面的顺序性质时。

translated by 谷歌翻译

Trajectory Planning for Hybrid Unmanned Aerial Underwater Vehicles with Smooth Media Transition

Pedro Miranda Pinheiro , Armando Alves Neto , Ricardo Bedin Grando , Cesar Bastos da Silva , Vivian Misaki Aoki , Dayana Cardoso , Alexandre Campos Horn , Paulo Lilles Jorge Drews-Jr

分类：机器人

2021-12-27

在过去的十年中，在杂交无人驾驶空中水下车辆的研究中努力，机器人可以轻松飞行和潜入水中的机械适应水平。然而，大多数文献集中在物理设计，建筑物的实际问题上，最近，低水平的控制策略。在高级情报的背景下，如运动规划和与现实世界的互动的情况下已经完成。因此，我们在本文中提出了一种轨迹规划方法，允许避免避免未知的障碍和空中媒体之间的平滑过渡。我们的方法基于经典迅速探索随机树的变体，其主要优点是处理障碍，复杂的非线性动力学，模型不确定性和外部干扰的能力。该方法使用\ Hydrone的动态模型，提出具有高水下性能的混合动力车辆，但我们认为它可以很容易地推广到其他类型的空中/水生平台。在实验部分中，我们在充满障碍物的环境中显示了模拟结果，其中机器人被命令执行不同的媒体运动，展示了我们的策略的适用性。

translated by 谷歌翻译

Predição de Incidência de Lesão por Pressão em Pacientes de UTI usando Aprendizado de Máquina

Henrique P. Silva , Arthur D. Reys , Daniel S. Severo , Dominique H. Ruther , Flávio A. O. B. Silva , Maria C. S. S. Guimarães , Roberto Z. A. Pinto , Saulo D. S. Pedro , Túlio P. Navarro , Danilo Silva

分类：机器学习

2021-12-23

压力溃疡在ICU患者中具有很高的患病率，但如果以初始阶段识别，则可预防。在实践中，布拉登规模用于分类高风险患者。本文通过使用MIMIC-III V1.4中可用的数据调查了在电子健康中使用机器学习记录数据的使用。制定了两个主要贡献：评估考虑在住宿期间所有预测的模型的新方法，以及用于机器学习模型的新培训方法。结果与现有技术相比，表现出卓越的性能;此外，所有型号在精密召回曲线中的每个工作点都超过了Braden刻度。 - - les \〜oes por按\〜ao possuem alta preval \ ^ encia em pacientes de Uti e s \〜ao preven \'iveis ao serem endicidificadas em Est \'agios Iniciais。 na pr \'atica materiza-se a escala de braden para classifica \ c {c} \〜ao de pacientes em risco。 Este Artigo Investiga o Uso de Apenizado de M \'Aquina Em Dados de Registros Eletr \ ^ Onicos Para Este Fim，Parir Da Base dados Mimic-III V1.4。 s \〜ao feitas duas contribui \ c {c} \〜oes principais：uma nova abordagem para a avalia \ c {c} \〜ao dos modelos e da escala da escala de braden levando em conta todas作为predi \ c {c} \ 〜oes feitas ao longo das interna \ c {c} \〜oes，euro novo m \'etodo de treinamento para os modelos de aprendizo de m \'aquina。 os结果os overidos superam o estado da arte everifica-se que os modelos superam意义a escala de braden em todos oS pontos de Opera \ c {c} \〜〜ao da curva de precis \〜ao por sensibilidade。

translated by 谷歌翻译

Predição da Idade Cerebral a partir de Imagens de Ressonância Magnética utilizando Redes Neurais Convolucionais

Victor H. R. Oliveira , Augusto Antunes , Alexandre S. Soares , Arthur D. Reys , Robson Z. Júnior , Saulo D. S. Pedro , Danilo Silva

分类：计算机视觉

2021-12-23

在这项工作中，研究了来自磁共振图像的脑年龄预测的深度学习技术，旨在帮助鉴定天然老化过程的生物标志物。生物标志物的鉴定可用于检测早期神经变性过程，以及预测与年龄相关或与非年龄相关的认知下降。在这项工作中实施并比较了两种技术：应用于体积图像的3D卷积神经网络和应用于从轴向平面的切片的2D卷积神经网络，随后融合各个预测。通过2D模型获得的最佳结果，其达到了3.83年的平均绝对误差。 - Neste Trabalho S \〜AO InvestigaDAS T \'Ecnicas de Aprendizado Profundo Para a previ \ c {c} \〜ate daade脑电站a partir de imagens de resson \ ^ ancia magn \'etica，Visando辅助Na Identifica \ c {C} \〜AO de BioMarcadores Do Processo Natural de Envelhecimento。一个identifica \ c {c} \〜ao de bioMarcarcores \'e \'util para a detec \ c {c} \〜ao de um processo neurodegenerativo em Est \'Agio无数，Al \'em de possibilitar Prever Um decl 'inio cognitivo relacionado ou n \〜ao \`一个懒惰。 Duas T \'ECICAS S \〜AO ImportyAdas E Comparadas Teste Trabalho：Uma Rede神经卷应3D APLICADA NA IMAGEM VOLUM \'ETRICA E UME REDE神经卷轴2D APLICADA A FATIAS DO PANIAS轴向，COM后面fus \〜AO DAS PREDI \ C {c} \ \ oes个人。 o Melhor ResultAdo Foi optido Pelo Modelo 2D，Que Alcan \ C {C} OU UM ERRO M \'EDIO ABSOLUTO DE 3.83 ANOS。

translated by 谷歌翻译

CapsProm: A Capsule Network For Promoter Prediction

Lauro Moraes , Pedro Silva , Eduardo Luz , Gladston Moreira

分类：机器学习

2021-12-07

在DNA序列中定位启动子区域对于生物信息学领域至关重要。这是文学中广泛研究的问题，但尚未完全解决。一些研究人员使用卷积网络提出了显着的结果，允许自动提取来自DNA链的特征。然而，尚未实现可能概括为若干生物的普遍架构，从而要求研究人员寻求新的架构和对每个新的生物体的近似数目。在这项工作中，我们提出了一种基于胶囊网络的多功能架构，可以精确地识别来自七种不同生物，真核和原核的原始DNA数据中的启动子序列。我们的模型是Capsprom，可以帮助在生物之间的学习转移并扩大其适用性。此外，CAPSPROM显示出具有竞争力的结果，克服了七个测试数据集中的五分之一的基线方法（F1分数）。模型和源代码在https://github.com/lauromoraes/capsnet-promoter提供。

translated by 谷歌翻译

Novel Features for Time Series Analysis: A Complex Networks Approach

Vanessa Freitas Silva , Maria Eduarda Silva , Pedro Ribeiro , Fernando Silva

分类：机器学习

2021-10-11

能够捕获与特征向量的时间序列的特征是具有多种应用的非常重要的任务，例如分类，聚类或预测。通常，该特征是从线性和非线性时间序列测量获得的特征，其可能存在若干数据相关的缺点。在这项工作中，我们将NetF介绍作为替代特征，包括时间序列的不同复杂网络映射的几种代表性拓扑测量。我们的方法不需要数据预处理，并且无论任何数据特征如何，都适用。探索我们的新颖特征向量，我们能够将映射的网络功能连接到多样化的时间序列模型中固有的属性，显示NetF可以有用的时间数据。此外，我们还展示了我们在聚类合成和基准时间序列组中的方法的适用性，比较其具有更多传统功能的性能，展示了Netf如何实现高精度集群。我们的结果非常有前途，具有来自不同映射方法的网络特征，捕获时间序列的不同属性，将不同且丰富的功能设置为文献。

translated by 谷歌翻译

Adversarial attacks and defenses on ML- and hardware-based IoT device fingerprinting and identification

Pedro Miguel Sánchez Sánchez , Alberto Huertas Celdrán , Gérôme Bovet , Gregorio Martínez Pérez

分类：人工智能

2022-12-30

In the last years, the number of IoT devices deployed has suffered an undoubted explosion, reaching the scale of billions. However, some new cybersecurity issues have appeared together with this development. Some of these issues are the deployment of unauthorized devices, malicious code modification, malware deployment, or vulnerability exploitation. This fact has motivated the requirement for new device identification mechanisms based on behavior monitoring. Besides, these solutions have recently leveraged Machine and Deep Learning techniques due to the advances in this field and the increase in processing capabilities. In contrast, attackers do not stay stalled and have developed adversarial attacks focused on context modification and ML/DL evaluation evasion applied to IoT device identification solutions. This work explores the performance of hardware behavior-based individual device identification, how it is affected by possible context- and ML/DL-focused attacks, and how its resilience can be improved using defense techniques. In this sense, it proposes an LSTM-CNN architecture based on hardware performance behavior for individual device identification. Then, previous techniques have been compared with the proposed architecture using a hardware performance dataset collected from 45 Raspberry Pi devices running identical software. The LSTM-CNN improves previous solutions achieving a +0.96 average F1-Score and 0.8 minimum TPR for all devices. Afterward, context- and ML/DL-focused adversarial attacks were applied against the previous model to test its robustness. A temperature-based context attack was not able to disrupt the identification. However, some ML/DL state-of-the-art evasion attacks were successful. Finally, adversarial training and model distillation defense techniques are selected to improve the model resilience to evasion attacks, without degrading its performance.

translated by 谷歌翻译