智能论文笔记

Biomedical image analysis competitions: The state of current participation practice

Matthias Eisenmann , Annika Reinke , Vivienn Weru , Minu Dietlinde Tizabi , Fabian Isensee , Tim J. Adler , Patrick Godau , Veronika Cheplygina , Michal Kozubek , Sharib Ali

分类：计算机视觉 | 机器学习

2022-12-16

The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.

translated by 谷歌翻译

A Coarse-to-fine Cascaded Evidence-Distillation Neural Network for Explainable Fake News Detection

Zhiwei Yang , Jing Ma , Hechang Chen , Hongzhan Lin , Ziyang Luo , Yi Chang

分类：自然语言处理

2022-09-29

现有的假新闻检测方法旨在将新闻分类为真或错误，并提供真实的解释，从而实现出色的表现。但是，他们经常根据有限的新闻报道和揭穿延误来定制手动事实检查报告的自动解决方案。如果尚未对一段新闻进行事实检查或揭穿事实，通常会在各种媒体上传播一定数量的相关原始报告，其中包含人群的智慧来验证新闻声明并解释其判决。在本文中，我们提出了一个新颖的粗到十五级别的级联证据依据（COFCED）神经网络，以根据此类原始报告来解释假新闻检测，从而减轻了对事实检查的依赖性。具体而言，我们首先使用层次结构编码器来用于Web文本表示，然后开发两个级联的选择器，以粗略至上的方式在所选的Top-K报告之上选择最可解释的句子。此外，我们构建了两个可解释的假新闻数据集，这些数据集可公开使用。实验结果表明，我们的模型显着优于最先进的基线，并从不同的评估角度产生高质量的解释。

translated by 谷歌翻译

LSAP: Rethinking Inversion Fidelity, Perception and Editability in GAN Latent Space

Cao Pu , Lu Yang , Dongxv Liu , Zhiwei Liu , Wenguan Wang , Shan Li , Qing Song

分类：计算机视觉 | 人工智能 | 机器学习

2022-09-26

随着方法的发展，反转主要分为两个步骤。第一步是图像嵌入，其中编码器或优化过程嵌入图像以获取相应的潜在代码。之后，第二步旨在完善反转和编辑结果，我们将其命名为“结果”。尽管第二步显着提高了忠诚度，但感知和编辑性几乎没有变化，深处取决于第一步中获得的反向潜在代码。因此，一个关键问题是在保留重建保真度的同时获得更好的感知和编辑性的潜在代码。在这项工作中，我们首先指出，这两个特征与合成分布的逆代码的对齐程度（或不对准）有关。然后，我们提出了潜在空间比对反转范式（LSAP），该范式由评估度量和解决方案组成。具体来说，我们引入了归一化样式空间（$ \ Mathcal {s^n} $ space）和$ \ Mathcal {s^n} $ cosine距离（SNCD）以测量反转方法的不对准。由于我们提出的SNCD是可区分的，因此可以在基于编码器和基于优化的嵌入方法中进行优化，以执行均匀的解决方案。在各个域中进行的广泛实验表明，SNCD有效地反映了感知和编辑性，并且我们的对齐范式在两个步骤中都归档了最新的。代码可在https://github.com/caopulan/ganinverter上找到。

translated by 谷歌翻译

Self-supervised Image Clustering from Multiple Incomplete Views via Constrastive Complementary Generation

Jiatai Wang , Zhiwei Xu , Xuewen Yang , Dongjin Guo , Limin Liu

分类：计算机视觉

2022-09-24

不完整的多视图聚类旨在通过使用来自多种模式的数据来增强聚类性能。尽管已经提出了几种研究此问题的方法，但以下缺点仍然存在：1）很难学习潜在的互补性但不使用标签信息而保持一致性的潜在表示； 2）因此，当完整的数据稀缺时，在不完整的数据中未能充分利用不完整数据中的隐藏信息会导致次优群集性能。在本文中，我们提出了与生成对抗网络（CIMIC-GAN）的对比度不完整的多视图图像聚类，该网络使用GAN填充不完整的数据并使用双对比度学习来学习完整和不完整的数据的一致性。更具体地说，考虑到多种方式之间的多样性和互补信息，我们将完整和不完整数据的自动编码表示为双对比度学习，以实现学习一致性。将gan集成到自动编码过程中不仅可以充分利用不完整数据的新功能，而且可以在存在高数据缺失率的情况下更好地概括该模型。在\ textColor {black} {四}广泛使用的数据集上进行的实验表明，cimic-gan优于最先进的不完整的多视图聚类方法。

translated by 谷歌翻译

Model-Guided Multi-Contrast Deep Unfolding Network for MRI Super-resolution Reconstruction

Gang Yang , Li Zhang , Man Zhou , Aiping Liu , Xun Chen , Zhiwei Xiong , Feng Wu

分类：计算机视觉

2022-09-15

具有高分辨率（HR）的磁共振成像（MRI）提供了更详细的信息，以进行准确的诊断和定量图像分析。尽管取得了重大进展，但大多数现有的医学图像重建网络都有两个缺陷：1）所有这些缺陷都是在黑盒原理中设计的，因此缺乏足够的解释性并进一步限制其实际应用。可解释的神经网络模型引起了重大兴趣，因为它们在处理医学图像时增强了临床实践所需的可信赖性。 2）大多数现有的SR重建方法仅使用单个对比度或使用简单的多对比度融合机制，从而忽略了对SR改进至关重要的不同对比度之间的复杂关系。为了解决这些问题，在本文中，提出了一种新颖的模型引导的可解释的深层展开网络（MGDUN），用于医学图像SR重建。模型引导的图像SR重建方法求解手动设计的目标函数以重建HR MRI。我们通过将MRI观察矩阵和显式多对比度关系矩阵考虑到末端到端优化期间，将迭代的MGDUN算法展示为新型模型引导的深层展开网络。多对比度IXI数据集和Brats 2019数据集进行了广泛的实验，证明了我们提出的模型的优势。

translated by 谷歌翻译

CAMO-MOT: Combined Appearance-Motion Optimization for 3D Multi-Object Tracking with Camera-LiDAR Fusion

Li Wang , Xinyu Zhang , Wenyuan Qin , Xiaoyu Li , Lei Yang , Zhiwei Li , Lei Zhu , Hong Wang , Jun Li , Huaping Liu

分类：计算机视觉

2022-09-06

3D多对象跟踪（MOT）确保在连续动态检测过程中保持一致性，有利于自动驾驶中随后的运动计划和导航任务。但是，基于摄像头的方法在闭塞情况下受到影响，准确跟踪基于激光雷达的方法的对象的不规则运动可能是具有挑战性的。某些融合方法效果很好，但不认为在遮挡下出现外观特征的不可信问题。同时，错误检测问题也显着影响跟踪。因此，我们根据组合的外观运动优化（Camo-Mot）提出了一种新颖的相机融合3D MOT框架，该框架使用相机和激光镜数据，并大大减少了由遮挡和错误检测引起的跟踪故障。对于遮挡问题，我们是第一个提出遮挡头来有效地选择最佳对象外观的人，从而减少了闭塞的影响。为了减少错误检测在跟踪中的影响，我们根据置信得分设计一个运动成本矩阵，从而提高了3D空间中的定位和对象预测准确性。由于现有的多目标跟踪方法仅考虑一个类别，因此我们还建议建立多类损失，以在多类别场景中实现多目标跟踪。在Kitti和Nuscenes跟踪基准测试上进行了一系列验证实验。我们提出的方法在KITTI测试数据集上的所有多模式MOT方法中实现了最先进的性能和最低的身份开关（IDS）值（CAR为23，行人为137）。并且我们提出的方法在Nuscenes测试数据集上以75.3％的AMOTA进行了所有算法中的最新性能。

translated by 谷歌翻译

ContrastVAE: Contrastive Variational AutoEncoder for Sequential Recommendation

Yu Wang , Hengrui Zhang , Zhiwei Liu , Liangwei Yang , Philip S. Yu

分类：机器学习

2022-08-27

Aiming at exploiting the rich information in user behaviour sequences, sequential recommendation has been widely adopted in real-world recommender systems. However, current methods suffer from the following issues: 1) sparsity of user-item interactions, 2) uncertainty of sequential records, 3) long-tail items. In this paper, we propose to incorporate contrastive learning into the framework of Variational AutoEncoders to address these challenges simultaneously. Firstly, we introduce ContrastELBO, a novel training objective that extends the conventional single-view ELBO to two-view case and theoretically builds a connection between VAE and contrastive learning from a two-view perspective. Then we propose Contrastive Variational AutoEncoder (ContrastVAE in short), a two-branched VAE model with contrastive regularization as an embodiment of ContrastELBO for sequential recommendation. We further introduce two simple yet effective augmentation strategies named model augmentation and variational augmentation to create a second view of a sequence and thus making contrastive learning possible. Experiments on four benchmark datasets demonstrate the effectiveness of ContrastVAE and the proposed augmentation methods. Codes are available at https://github.com/YuWang-1024/ContrastVAE

translated by 谷歌翻译

Dynamic Local Aggregation Network with Adaptive Clusterer for Anomaly Detection

Zhiwei Yang , Peng Wu , Jing Liu , Xiaotao Liu

分类：计算机视觉

2022-07-22

基于内存仪器的自动编码器（AE）的异常检测方法的现有方法具有以下缺点：（1）建立内存库需要额外的内存空间。（2）主观假设的固定原型数量忽略了数据特征差异和多样性。为了克服这些缺点，我们引入了DLAN-AC，这是一种具有自适应簇的动态局部聚合网络，用于异常检测。首先，所提出的DLAN可以自动从AE学习和汇总高级特征，以获得更多代表性的原型，同时释放额外的存储空间。其次，所提出的AC可以适应性聚类视频数据，以推导具有先验信息的初始原型。此外，我们还提出了动态冗余聚类策略（DRC），以使DLAN能够自动消除不影响原型的特征簇。基准的广泛实验表明，DLAN-AC的表现优于大多数现有方法，从而验证了我们方法的有效性。我们的代码可在https://github.com/beyond-zw/dlan-ac上公开获取。

translated by 谷歌翻译

A Safe Semi-supervised Graph Convolution Network

Zhi Yang , Yadong Yan , Haitao Gan , Jing Zhao , Zhiwei Ye

分类：机器学习 | 计算机视觉

2022-07-05

在半监督的学习领域中，作为GNN的变体模型，图形卷积网络（GCN）通过将卷积引入GNN来实现非欧盟数据的有希望的结果。但是，GCN及其变体模型无法安全地使用风险未标记数据的信息，这将降低半监督学习的性能。因此，我们提出了一个安全的GCN框架（SAFE-GCN），以提高学习绩效。在Safe-GCN中，我们设计了一个迭代过程来标记未标记的数据。在每次迭代中，学会了GCN及其监督版本（S-GCN），以高信任地找到未标记的数据。然后将高信心的未标记数据及其伪标签添加到标签集中。最后，两者都添加了未标记的数据和标记的数据来训练S-GCN，该S-GCN可以安全地探索风险未标记的数据，并可以安全使用大量未标记的数据。在三个众所周知的引用网络数据集上评估了安全性GCN的性能，并且获得的结果证明了该框架对几种基于图的半监督学习方法的有效性。

translated by 谷歌翻译

FlowNAS: Neural Architecture Search for Optical Flow Estimation

Zhiwei Lin , Tingting Liang , Taihong Xiao , Yongtao Wang , Zhi Tang , Ming-Hsuan Yang

分类：计算机视觉

2022-07-04

现有的光流估计器通常采用通常用于图像分类的网络体系结构作为提取人均功能的编码器。但是，由于任务之间的自然差异，用于图像分类的架构可能是最佳的流量估计。为了解决此问题，我们建议一种名为Falownas的神经体系结构搜索方法，以自动找到用于流估计任务的更好的编码器体系结构。我们首先设计一个合适的搜索空间，包括各种卷积运算符，并构建一个体重共享的超级网络，以有效评估候选体系结构。然后，为了更好地训练超级网络，我们提出了特征对齐蒸馏，该蒸馏利用训练有素的流量估计器来指导超级网络的训练。最后，利用资源约束的进化算法找到最佳体系结构（即子网络）。实验结果表明，从超级网络继承的权重的发现的结构达到了4.67 \％f1-able kitti上的误差，这是RAFT基线的8.4 \％降低，超过了先进的手工制作的型号GMA和AGFlow，同时降低模型的复杂性和延迟。源代码和训练有素的模型将在https://github.com/vdigpku/flownas中发布。

translated by 谷歌翻译