智能论文笔记

Multi-Task Mixture Density Graph Neural Networks for Predicting Cu-based Single-Atom Alloy Catalysts for CO2 Reduction Reaction

Chen Liang , Bowen Wang , Shaogang Hao , Guangyong Chen , Pheng-Ann Heng , Xiaolong Zou

分类：机器学习

2022-09-15

图神经网络（GNN）从材料科学家那里引起了越来越多的关注，并证明了建立结构和属性之间的连接的高能力。但是，只有仅提供的未删除结构作为输入，很少有GNN模型可以预测带有可接受的误差水平的放松配置的热力学特性。在这项工作中，我们开发了基于Dimenet ++和混合密度网络的多任务（MT）体系结构，以提高此类任务的性能。将基于CU的单原子合金催化剂的共吸附作为例证，我们表明我们的方法可以可靠地估计CO的吸附能，其平均绝对误差为0.087 eV，从初始CO的吸附结构中，而无需昂贵的第一原则计算。此外，与其他最先进的GNN方法相比，我们的模型在预测具有看不见的底物表面或掺杂物种的催化性能时具有提高的概括能力。我们表明，拟议的GNN策略可以促进催化剂发现。

translated by 谷歌翻译

Aesthetic Language Guidance Generation of Images Using Attribute Comparison

Xin Jin , Qiang Deng , Jianwen Lv , Heng Huang , Hao Lou , Chaoen Xiao

分类：计算机视觉

2022-08-09

随着移动摄影技术的迅速发展，主要的手机制造商正在争先恐后地提高设备的拍摄能力和软件的照片美化算法。但是，智能设备和算法的改进不能取代人类的主观摄影技术。在本文中，我们提出了图像的美学语言指导（ALG）。我们根据指导规则是基于摄影模板还是指导图像，将ALG分为ALG-T和ALG-I。无论是ALG-T还是ALG-I，我们都会从三个颜色，照明和图像组成的属性中指导摄影。输入图像和摄影模板或指导图像之间的三个属性的差异用自然语言描述，即美学自然语言指导（ALG）。另外，由于景观图像和肖像图像之间的照明和组成差异，我们将输入图像分为景观图像和肖像图像。 ALG-T和ALG-I分别针对两种类型的输入图像（景观图像和肖像图像）进行美学指导。

translated by 谷歌翻译

Self-Supervised Contrastive Representation Learning for 3D Mesh Segmentation

Ayaan Haque , Hankyu Moon , Heng Hao , Sima Didari , Jae Oh Woo , Patrick Bangert

分类：计算机视觉 | 机器学习

2022-08-08

由于3D格式存储的大量信息，3D深度学习是一个越来越多的感兴趣领域。三角形网格是不规则，不均匀3D对象的有效表示。但是，由于其高几何复杂性，网格通常具有挑战性的注释。具体而言，为网格创建细分面具是乏味且耗时的。因此，希望使用有限标记的数据训练分割网络。自我监督的学习（SSL）是一种无监督的表示学习的一种形式，它是对完全监督学习的替代方法，可以减轻监督的培训负担。我们提出了SSL-MESHCNN，这是一种用于网格分割的预训练CNN的自我监督的对比学习方法。我们从传统的对比学习框架中汲取灵感来设计专门针对网格的新颖对比度学习算法。我们的初步实验显示了将网状分割所需的重型标记数据需求减少至少33％的有希望的结果。

translated by 谷歌翻译

Image Quality Assessment with Gradient Siamese Network

Heng Cong , Lingzhi Fu , Rongyu Zhang , Yusheng Zhang , Hao Wang , Jiarong He , Jin Gao

分类：计算机视觉

2022-08-08

在这项工作中，我们介绍了梯度暹罗网络（GSN）进行图像质量评估。所提出的方法熟练地捕获了全参考图像质量评估（IQA）任务中扭曲的图像和参考图像之间的梯度特征。我们利用中央微分卷积获得图像对中隐藏的语义特征和细节差异。此外，空间注意力指导网络专注于与图像细节相关的区域。对于网络提取的低级，中级和高级功能，我们创新设计了一种多级融合方法，以提高功能利用率的效率。除了常见的均方根错误监督外，我们还进一步考虑了批处理样本之间的相对距离，并成功地将KL差异丢失应用于图像质量评估任务。我们在几个公开可用的数据集上试验了提出的算法GSN，并证明了其出色的性能。我们的网络赢得了NTIRE 2022感知图像质量评估挑战赛1的第二名。

translated by 谷歌翻译

ORF-Net: Deep Omni-supervised Rib Fracture Detection from Chest CT Scans

Zhizhong Chai , Huangjing Lin , Luyang Luo , Pheng-Ann Heng , Hao Chen

分类：计算机视觉

2022-07-05

大多数现有对象检测工作都是基于边界框注释：每个对象都有一个精确的注释框。然而，对于肋骨骨折，边界盒注释非常有劳动力密集型且耗时，因为放射科医生需要以切片为基础调查和注释肋骨骨折。尽管一些研究提出了弱监督的方法或半监督方法，但他们不能同时处理不同形式的监督。在本文中，我们提出了一个新颖的Omni监督对象检测网络，该网络可以利用多种不同形式的注释数据以进一步改善检测性能。具体而言，所提出的网络包含一个监督的检测头，其中每种形式的注释数据对应于唯一的分类分支。此外，我们为不同的注释数据形式提出了动态标签分配策略，以促进每个分支的更好学习。此外，我们还设计了一种自信的分类损失，以高度信心强调样本并进一步改善模型的性能。在测试数据集上进行的广泛实验表明，我们所提出的方法始终超过其他最先进的方法，这证明了深度全米诺的学习对改善肋骨断裂检测性能的功效。

translated by 谷歌翻译

Pseudo Bias-Balanced Learning for Debiased Chest X-ray Classification

Luyang Luo , Dunyuan Xu , Hao Chen , Tien-Tsin Wong , Pheng-Ann Heng

分类：计算机视觉

2022-03-18

经常报告深度学习模型以从数据集偏见等快捷方式中学习。由于深度学习在现代医疗保健系统中起着越来越重要的作用，因此在医疗数据中与快捷方式学习以及发展公正和可信赖的模型非常需要。在本文中，我们研究了从有偏见的训练数据中开发出偏见的胸部X射线诊断模型的问题，而又不知道偏置标签。我们从观察到偏见分布的不平衡是引起快捷键学习的关键原因之一，并且模型比预期的功能更容易学习，而数据集偏见则由模型偏爱。基于这些观察结果，我们提出了一种新型算法，即伪平衡的学习，该学习首先通过广义跨熵损失捕获并预测每样本偏差标签，然后使用伪偏置标签和偏见平衡的软性软性功能来训练一个模型。我们使用各种数据集偏置情况构建了几个胸部X射线数据集，并通过广泛的实验证明了我们所提出的方法对其他最新方法进行了一致的改进。

translated by 谷歌翻译

Pseudo-labelling and Meta Reweighting Learning for Image Aesthetic Quality Assessment

Xin Jin , Hao Lou , Huang Heng , Xiaodong Li , Shuai Cui , Xiaokun Zhang , Xiqiao Li

分类：计算机视觉

2022-01-08

在图像美学质量评估的任务中，由于美学数据集的正常分布，难以达到高分区域和低得分面积。为了减少标签中的错误并解决正常数据分布的问题，我们提出了一个具有名为AMD-CR的分类和回归的新的美学混合数据集，我们培训了元重传网络以重新重量培训数据的损失不同。此外，我们还提供了一种基于二进制分类任务的伪标签的不同阶段的培训策略，然后我们将其用于审美培训，该课程涉及分类和回归任务的不同阶段。在网络结构的构造中，我们构建一种可以适应输入图像的任何大小的美学自适应块（AAB）结构。此外，我们还使用高效的通道注意力（ECA）来加强每个任务的特征提取能力。实验结果表明，与SROCC中的常规方法相比，我们的方法改善了0.1112。该方法还可以帮助找到无人驾驶飞行器（UAV）和车辆的最佳审美路径规划。

translated by 谷歌翻译

Rethinking Annotation Granularity for Overcoming Shortcuts in Deep Learning-based Radiograph Diagnosis: A Multicenter Study

Luyang Luo , Hao Chen , Yongjie Xiao , Yanning Zhou , Xi Wang , Varut Vardhanabhuti , Mingxiang Wu , Chu Han , Zaiyi Liu , Xin Hao Benjamin Fang

分类：计算机视觉

2021-04-21

使用X光片级注释（是或否疾病）和细粒病变级注释（病变边界框）开发了两个DL模型，分别为Chexnet和ChexDet。在测试集（n = 2,922）中比较了模型的内部分类性能和病变定位性能，在NIH-Google（n = 4,376）和Padchest（n = 24,536）数据集上比较了外部分类性能，以及外部病变的本地化性能性能在NIH-Chestx-Ray14数据集（n = 880）上进行了比较。还将模型与内部测试集子集的放射学家进行了比较（n = 496）。鉴于足够的训练数据，这两个模型都与放射科医生相当。 CHEXDET对外部分类有了显着改善，例如在NIH-Google上分类（ROC曲线下的ChexDet区域[AUC]：0.67：Chexnet AUC：0.51; P <.001）和PadChest（ChexDet AUC：0.78，Chexnet AUC，Chexnet AUC，Chexnet AUC，Chexnet auc：chexnet auc auc：chexnet auc auc auc：0.78，chexnet auc auc：：0.55; p <.001）。对于所有数据集的大多数异常，例如在内部集合中检测气胸（Chexdet Jacknife替代自由响应ROC的功绩[JAFROC-FOM]：0.87，0.87，CHEXNET JAFROC-FOM：0.113） ; p <.001）和NIH-Chestx-Ray14（Chexdet Jafroc-fom：0.55，Chexnet Jafroc-fom：0.04; p <.001）。总结，细粒的注释克服了快捷方式学习并启用了DL模型，以识别正确的病变模式，从而改善模型的概括性。

translated by 谷歌翻译

Highly Efficient Representation and Active Learning Framework and Its Application to Imbalanced Medical Image Classification

Heng Hao , Hankyu Moon , Sima Didari , Jae Oh Woo , Patrick Bangert

分类：计算机视觉 | 机器学习

2021-02-25

我们为图像分类提出了一个高度数据效率的主动学习框架。我们的新框架结合了：（1）卷积神经网络的无监督表示学习和（2）Gaussian Process（GP）方法，以实现高度数据和标记有效分类。此外，由于没有标签和（2）GP的贝叶斯性质所学的（1）功能，这两个元素对普遍且具有挑战性的阶级不平衡问题的敏感性不太敏感。 GP提供的不确定性估计可以通过根据不确定性对样本进行排名和选择性标记样品来表现出较高的不确定性，从而实现主动学习。我们将这种新颖的组合应用于Covid-19胸部X射线分类和Nerthus结肠镜检查分类的严重不平衡病例。我们只证明这一点。需要10％的标记数据来达到培训所有可用标签的准确性。我们还将模型架构和建议的框架应用于具有预期成功的更广泛的数据集。

translated by 谷歌翻译

More is Better: A Database for Spontaneous Micro-Expression with High Frame Rates

Sirui Zhao , Huaying Tang , Xinglong Mao , Shifeng Liu , Hanqing Tao , Hao Wang , Tong Xu , Enhong Chen

分类：计算机视觉

2023-01-03

As one of the most important psychic stress reactions, micro-expressions (MEs), are spontaneous and transient facial expressions that can reveal the genuine emotions of human beings. Thus, recognizing MEs (MER) automatically is becoming increasingly crucial in the field of affective computing, and provides essential technical support in lie detection, psychological analysis and other areas. However, the lack of abundant ME data seriously restricts the development of cutting-edge data-driven MER models. Despite the recent efforts of several spontaneous ME datasets to alleviate this problem, it is still a tiny amount of work. To solve the problem of ME data hunger, we construct a dynamic spontaneous ME dataset with the largest current ME data scale, called DFME (Dynamic Facial Micro-expressions), which includes 7,526 well-labeled ME videos induced by 671 participants and annotated by more than 20 annotators throughout three years. Afterwards, we adopt four classical spatiotemporal feature learning models on DFME to perform MER experiments to objectively verify the validity of DFME dataset. In addition, we explore different solutions to the class imbalance and key-frame sequence sampling problems in dynamic MER respectively on DFME, so as to provide a valuable reference for future research. The comprehensive experimental results show that our DFME dataset can facilitate the research of automatic MER, and provide a new benchmark for MER. DFME will be published via https://mea-lab-421.github.io.

translated by 谷歌翻译