智能论文笔记

UPV at TREC Health Misinformation Track 2021 Ranking with SBERT and Quality Estimators

Ipek Baris Schlicht , Angel Felipe Magnossão de Paula , Paolo Rosso

分类：人工智能

2021-12-11

搜索引擎的健康误导是一个可能对个人或公共卫生产生负面影响的重要问题。为了减轻问题，TREC组织了健康错误信息轨道。本文介绍了这条赛道的提交。我们使用BM25和域特定的语义搜索引擎来检索初始文档。后来，我们检查了健康新闻架构以获得质量评估，并将其应用于重新排名的文件。我们通过使用互酷等级融合将分数与不同组件合并。最后，我们讨论了未来作品的结果并结束。

translated by 谷歌翻译

Sexism Prediction in Spanish and English Tweets Using Monolingual and Multilingual BERT and Ensemble Models

Angel Felipe Magnossão de Paula , Roberto Fray da Silva , Ipek Baris Schlicht

分类：自然语言处理 | 人工智能 | 机器学习

2021-11-08

社交媒体的普及创造了仇恨言论和性别歧视等问题。社交媒体中性别歧视的识别和分类是非常相关的任务，因为它们允许建立更健康的社会环境。尽管如此，这些任务很挑战。这项工作提出了一种使用多语种和单晶的BERT和数据点转换和与英语和西班牙语分类的策略的系统来使用多语种和单语的BERT和数据点转换和集合策略。它在社交网络中的性别歧视的背景下进行了2021年（存在2021年）任务，由Iberian语言评估论坛（Iberlef）提出。描述了所提出的系统及其主要组件，并进行深入的超公数分析。观察到的主要结果是：（i）该系统比基线模型获得了更好的结果（多语种伯爵）; （ii）集合模型比单声道模型获得了更好的结果; （iii）考虑所有单独模型和最佳标准化值的集合模型获得了两个任务的最佳精度和F1分数。这项工作在两个任务中获得的第一名，最高的精度（任务1和任务2的0.658.780）和F1分数（对于任务1的任务1和F1-宏为0.780的F1二进制）。

translated by 谷歌翻译

AI-UPV at IberLEF-2021 DETOXIS task: Toxicity Detection in Immigration-Related Web News Comments Using Transformers and Statistical Models

Angel Felipe Magnossão de Paula , Ipek Baris Schlicht

分类：自然语言处理 | 机器学习

2021-11-08

本文介绍了我们参与西班牙语（戒毒）共享任务2021的评论中毒性的检测，在伊比利亚语语言评估论坛的第三次研讨会上。共享任务分为两个相关的分类任务：（i）任务1：毒性检测和; （ii）任务2：毒性水平检测。他们专注于毒性评论的传播加剧了仇外问题，在与移民有关的不同在线新闻文章中发布。减轻这个问题的必要努力之一是检测评论中的毒性。我们的主要目标是在竞赛的官方指标基于竞争的官方指标：任务1的F1分数和任务2的亲密评估度量（CEM）的F1分数以及任务2的CO-Score 。要解决任务，我们使用两种类型的机器学习模型：（i）统计模型和（ii）用于语言理解（BERT）模型的深双双向变压器。我们在使用BETO的两个任务中获得了最佳结果，这是一款位于大型西班牙语法上的BERT模型。我们在任务1中获得了第三名官方排名，F1分数为0.5996，我们在任务2官方排名的第6位与0.7142的CEM达成了第6位。我们的结果表明：（i）伯特模型获得比文本评论中毒性检测的统计模型更好的结果; （ii）单语伯特模型在其预先训练的语言中的文本评论中具有多语言伯特模型的优势。

translated by 谷歌翻译

A Physics-Informed Neural Network to Model Port Channels

Marlon S. Mathias , Marcel R. de Barros , Jefferson F. Coelho , Lucas P. de Freitas , Felipe M. Moreno , Caio F. D. Netto , Fabio G. Cozman , Anna H. R. Costa , Eduardo A. Tannuri , Edson S. Gomi

分类：机器学习

2022-12-20

We describe a Physics-Informed Neural Network (PINN) that simulates the flow induced by the astronomical tide in a synthetic port channel, with dimensions based on the Santos - S\~ao Vicente - Bertioga Estuarine System. PINN models aim to combine the knowledge of physical systems and data-driven machine learning models. This is done by training a neural network to minimize the residuals of the governing equations in sample points. In this work, our flow is governed by the Navier-Stokes equations with some approximations. There are two main novelties in this paper. First, we design our model to assume that the flow is periodic in time, which is not feasible in conventional simulation methods. Second, we evaluate the benefit of resampling the function evaluation points during training, which has a near zero computational cost and has been verified to improve the final model, especially for small batch sizes. Finally, we discuss some limitations of the approximations used in the Navier-Stokes equations regarding the modeling of turbulence and how it interacts with PINNs.

translated by 谷歌翻译

Assessing Coarse-to-Fine Deep Learning Models for Optic Disc and Cup Segmentation in Fundus Images

Eugenia Moris , Nicolás Dazeo , Maria Paula Albina de Rueda , Francisco Filizzola , Nicolás Iannuzzo , Danila Nejamkin , Kevin Wignall , Mercedes Leguía , Ignacio Larrabide , José Ignacio Orlando

分类：计算机视觉

2022-09-28

底面图像中的自动化视盘（OD）和光杯（OC）分割与有效测量垂直杯盘比率（VCDR）是一种在眼科中常用的生物标志物，以确定胶状神经神经病变的程度。通常，这是使用粗到1的深度学习算法来解决的，其中第一阶段近似于OD，第二阶段使用该区域的作物来预测OD/OC掩码。尽管这种方法广泛应用于文献中，但尚无研究来分析其对结果的真正贡献。在本文中，我们介绍了使用5个公共数据库的不同粗到精细设计的全面分析，包括从标准分割的角度以及估算青光眼评估的VCDR。我们的分析表明，这些算法不一定超过标准的多级单阶段模型，尤其是当这些算法是从足够大而多样化的训练集中学习的。此外，我们注意到粗糙阶段比精细的OD分割结果更好，并且在第二阶段提供OD监督对于确保准确的OC掩码至关重要。此外，在多数据集设置上训练的单阶段和两阶段模型都表现出对成对的结果，甚至比其他最先进的替代方案更好，同时排名第一的OD/OC分段。最后，我们评估了VCDR预测的模型与Airogs图像子集中的六个眼科医生相比，以在观察者间可变性的背景下理解它们。我们注意到，即使从单阶段和粗至细节模型中恢复的VCDR估计值也可以获得良好的青光眼检测结果，即使它们与专家的手动测量不高度相关。

translated by 谷歌翻译

On the Automated Segmentation of Epicardial and Mediastinal Cardiac Adipose Tissues Using Classification Algorithms

Érick Oliveira Rodrigues , Felipe Fernandes Cordeiro de Morais , Aura Conci

分类：计算机视觉 | 机器学习

2022-08-30

对心脏周围环境的脂肪库的定量是评估与多种疾病相关的健康风险因素的准确程序。但是，由于人为的工作量，这种类型的评估并未在临床实践中广泛使用。这项工作提出了一种用于自动分割心脏脂肪垫的新技术。该技术基于将分类算法应用于心脏CT图像的分割。此外，我们广泛评估了几种算法在此任务上的性能，并讨论了提供了更好的预测模型。实验结果表明，心外膜和纵隔脂肪分类的平均准确性为98.4％，平均正面速率为96.2％。平均而言，关于分割的患者和地面真相的骰子相似性指数等于96.8％。因此，迄今为止，我们的技术已经获得了心脏脂肪自动分割的最准确结果。

translated by 谷歌翻译

DCNNV-19: Uma rede neural convolucional profunda para detecção de COVID-19 em tomografias computadorizadas torácicas

Victor Felipe Reis-Silva

分类：计算机视觉

2022-08-18

该技术报告建议将深卷卷神经网络用作初步的诊断方法，用于分析来自严重急性呼吸系统症状（SARS）症状的胸部计算机断层扫描图像（SARS）和怀疑的Covid-19疾病，尤其是在延迟时在RT-PCR结果和缺乏紧急护理的情况下，可能会导致严重的暂时，长期或永久性健康损害。该模型接受了83,391张图像的培训，并在15,297张验证，并在22,185个数字上进行了测试，在Cohen's Kappa中获得了98％的F1分数，准确性98.4％，损失为5.09％。与当前的金色标准检查，实时反向转录酶聚合酶链反应（RT-PCR）相比，证明高度准确的自动分类并提供的时间更少。 - o存在相关性\'orio t \'ecnico prop \ 〜oe a fituiliza \ c {c} \ 〜ao de uma de uma de uma de uma de uma de uma de uma rede refolucional refolucional profunda como m \'etodo' tomografia computadorizada tor \'accica em pacientes com sintomas de s \'indrome respirat \'oria aguda grave（srag） ^encia de cuidados ungratees poderia acartar graves danos temer \'arios，\`longo prazo，ou permanentes \ a a sa \'ude。 o Modelo Foi Treinado EM 83.391成像，VILEDADO EM 15.297，E TESTADO EM 22.185 FIGURAS，ATINGINDO PONTUA \ C {C} \ 〜AO no F1-SCORE DE 98％，97,59％EM COHEN KAPPA，98,4％DEACUR，98,4％DEACUR \'acia e 5,09％损失。 atestando uma classifica \ c {c} \ 〜ao aumatizada r \'apida e de alta precis \ 〜ao，e fornecendo resuldo exultado em tempo menor ao ao do exame padr \ 〜Ao-ao-outo atual，o实时反向转移酶聚合酶链链反应（RT-PCR）。

translated by 谷歌翻译

No Pattern, No Recognition: a Survey about Reproducibility and Distortion Issues of Text Clustering and Topic Modeling

Marília Costa Rosendo Silva , Felipe Alves Siqueira , João Pedro Mantovani Tarrega , João Vitor Pataca Beinotti , Augusto Sousa Nunes , Miguel de Mattos Gardini , Vinícius Adolfo Pereira da Silva , Nádia Félix Felipe da Silva , André Carlos Ponce de Leon Ferreira de Carvalho

分类：机器学习 | 自然语言处理 | (统计)机器学习

2022-08-02

使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序，可以从无监督的学习（例如文本聚类和主题建模）中受益，包括探索性数据分析。但是，无监督的学习范式提出了可重复性问题。初始化可能会导致可变性，具体取决于机器学习算法。此外，关于群集几何形状，扭曲可能会产生误导。在原因中，异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关，但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述（2011-2022），并提出了共同的术语，因为类似的程序具有不同的术语。作者描述了研究机会，趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化，分解和聚类算法的理论背景。

translated by 谷歌翻译

Careful What You Wish For: on the Extraction of Adversarially Trained Models

Kacem Khaled , Gabriela Nicolescu , Felipe Gohring de Magalhães

分类：机器学习

2022-07-21

最近对机器学习（ML）模型的攻击，例如逃避攻击，具有对抗性示例，并通过提取攻击窃取了一些模型，构成了几种安全性和隐私威胁。先前的工作建议使用对抗性训练从对抗性示例中保护模型，以逃避模型的分类并恶化其性能。但是，这种保护技术会影响模型的决策边界及其预测概率，因此可能会增加模型隐私风险。实际上，仅使用对模型预测输出的查询访问的恶意用户可以提取它并获得高智能和高保真替代模型。为了更大的提取，这些攻击利用了受害者模型的预测概率。实际上，所有先前关于提取攻击的工作都没有考虑到出于安全目的的培训过程中的变化。在本文中，我们提出了一个框架，以评估具有视觉数据集对对抗训练的模型的提取攻击。据我们所知，我们的工作是第一个进行此类评估的工作。通过一项广泛的实证研究，我们证明了受对抗训练的模型比在自然训练情况下获得的模型更容易受到提取攻击的影响。他们可以达到高达$ \ times1.2 $更高的准确性和同意，而疑问低于$ \ times0.75 $。我们还发现，与从自然训练的（即标准）模型中提取的DNN相比，从鲁棒模型中提取的对抗性鲁棒性能力可通过提取攻击（即从鲁棒模型提取的深神经网络（DNN）提取的深神网络（DNN））传递。

translated by 谷歌翻译

Sequence-aware multimodal page classification of Brazilian legal documents

Pedro H. Luz de Araujo , Ana Paula G. S. de Almeida , Fabricio A. Braz , Nilton C. da Silva , Flavio de Barros Vidal , Teofilo E. de Campos

分类：自然语言处理

2022-07-02

巴西最高法院每学期收到数万案件。法院员工花费数千个小时来执行这些案件的初步分析和分类 - 这需要努力从案件管理工作流的后部，更复杂的阶段进行努力。在本文中，我们探讨了来自巴西最高法院的文件多模式分类。我们在6,510起诉讼（339,478页）的新型多模式数据集上训练和评估我们的方法，并用手动注释将每个页面分配给六个类之一。每个诉讼都是页面的有序序列，它们既可以作为图像存储，又是通过光学特征识别提取的相应文本。我们首先训练两个单峰分类器：图像上对Imagenet进行了预先训练的重新编织，并且图像上进行了微调，并且具有多个内核尺寸过滤器的卷积网络在文档文本上从SCRATCH进行了训练。我们将它们用作视觉和文本特征的提取器，然后通过我们提出的融合模块组合。我们的融合模块可以通过使用学习的嵌入来处理缺失的文本或视觉输入，以获取缺少数据。此外，我们尝试使用双向长期记忆（BILSTM）网络和线性链条件随机字段进行实验，以模拟页面的顺序性质。多模式方法的表现都优于文本分类器和视觉分类器，尤其是在利用页面的顺序性质时。

translated by 谷歌翻译