智能论文笔记

Multimodal Learning for Non-small Cell Lung Cancer Prognosis

Yujiao Wu , Yaxiong Wang , Xiaoshui Huang , Fan Yang , Sai Ho Ling , Steven Weidong Su

分类：计算机视觉 | 人工智能

2022-11-07

This paper focuses on the task of survival time analysis for lung cancer. Although much progress has been made in this problem in recent years, the performance of existing methods is still far from satisfactory. Traditional and some deep learning-based survival time analyses for lung cancer are mostly based on textual clinical information such as staging, age, histology, etc. Unlike existing methods that predicting on the single modality, we observe that a human clinician usually takes multimodal data such as text clinical data and visual scans to estimate survival time. Motivated by this, in this work, we contribute a smart cross-modality network for survival analysis network named Lite-ProSENet that simulates a human's manner of decision making. Extensive experiments were conducted using data from 422 NSCLC patients from The Cancer Imaging Archive (TCIA). The results show that our Lite-ProSENet outperforms favorably again all comparison methods and achieves the new state of the art with the 89.3% on concordance. The code will be made publicly available.

translated by 谷歌翻译

Data-driven and machine-learning based prediction of wave propagation behavior in dam-break flood

Changli Li , Zheng Han , Yange Li , Ming Li , Weidong Wang

分类： (统计)机器学习

2022-09-19

大坝破洪水中波传播的计算预测是流体动力和水文学中的长期问题。到目前为止，基于圣人方程的常规数值模型是主要方法。在这里，我们表明，以最少的数据训练的机器学习模型可以帮助预测一维大坝破洪水的长期动态行为，其精度令人满意。为此，我们使用lax-wendroff数值方案为一维大坝洪水方案求解了圣人方程，并通过模拟结果训练储层计算机网络（RC-ESN），由模拟结果组成时间序列深度。我们展示了RC-ESN模型的良好预测能力，该模型预测波传播行为286在大坝破洪水中，均方根误差（RMSE）小于0.01，表现优于传统的长期短期内存（LSTM）模型仅达到仅81个时步的可比RMSE。为了显示RC-ESN模型的性能，我们还提供了有关关键参数（包括训练集大小，储层大小和光谱半径）的预测准确性的灵敏度分析。结果表明，RC-ESN较少依赖训练集尺寸，介质储层尺寸k = 1200〜2600就足够了。我们确认光谱半径\ r {ho}对预测准确性显示了复杂的影响，并建议当前较小的光谱半径\ r {ho}。通过更改大坝断裂的初始流程深度，我们还得出了一个结论，即RC-ESN的预测范围大于LSTM的预测范围。

translated by 谷歌翻译

Multi-Attention Network for Compressed Video Referring Object Segmentation

Weidong Chen , Dexiang Hong , Yuankai Qi , Zhenjun Han , Shuhui Wang , Laiyun Qing , Qingming Huang , Guorong Li

分类：计算机视觉

2022-07-26

引用视频对象细分旨在分割给定语言表达式所引用的对象。现有作品通常需要压缩视频bitstream在分割之前将其解码为RGB帧，从而增加了计算和存储要求，并最终减慢了推断。这可能会妨碍其在现实世界计算资源有限的场景中的应用，例如自动驾驶汽车和无人机。为了减轻此问题，在本文中，我们探讨了压缩视频的引用对象细分任务，即原始视频数据流。除了视频引用对象分割任务本身的固有难度外，从压缩视频中获得歧视性表示也很具有挑战性。为了解决这个问题，我们提出了一个多发网络，该网络由双路线双注意模块和一个基于查询的跨模式变压器模块组成。具体而言，双路线双意见模块旨在从三种模态的压缩数据中提取有效表示，即i框架，运动矢量和残留。基于查询的跨模式变压器首先对语言和视觉方式之间的相关性进行建模，然后使用融合的多模式特征来指导对象查询以生成内容感知的动态内核并预测最终的分割掩码。与以前的作品不同，我们建议只学习一个内核，因此，它可以删除现有方法的复杂后掩模匹配程序。在三个具有挑战性的数据集上进行的广泛有希望的实验结果表明，与几种用于处理RGB数据的最新方法相比，我们的方法的有效性。源代码可在以下网址获得：https：//github.com/dexianghong/manet。

translated by 谷歌翻译

Winning the CVPR'2022 AQTC Challenge: A Two-stage Function-centric Approach

Shiwei Wu , Weidong He , Tong Xu , Hao Wang , Enhong Chen

分类：计算机视觉

2022-06-20

Egentric Assistant（AQTC）以负担中心为中心的问题驱动的任务完成是一项新颖的任务，可帮助AI助手从教学视频和脚本中学习，并逐步指导用户。在本文中，我们通过以两个阶段函数为中心的方法来处理AQTC，该方法由问题2函数模块组成，以使用相关函数和功能2answer模块将问题扎根，以基于历史步骤来预测操作。我们评估了每个模块中的几种可能的解决方案，并与给定基准相比获得了显着的收益。我们的代码可在\ url {https://github.com/starsholic/loveu-cvpr22-aqtc}上找到。

translated by 谷歌翻译

Decompose to Adapt: Cross-domain Object Detection via Feature Disentanglement

Dongnan Liu , Chaoyi Zhang , Yang Song , Heng Huang , Chenyu Wang , Michael Barnett , Weidong Cai

分类：计算机视觉

2022-01-06

无监督域适应（UDA）技术的最新进展在跨域计算机视觉任务中有巨大的成功，通过弥合域分布差距来增强数据驱动的深度学习架构的泛化能力。对于基于UDA的跨域对象检测方法，其中大多数通过对抗性学习策略引导域不变特征产生来缓解域偏差。然而，由于不稳定的对抗性培训过程，他们的域名鉴别器具有有限的分类能力。因此，它们引起的提取特征不能完全域不变，仍然包含域私有因素，使障碍物进一步缓解跨域差异。为了解决这个问题，我们设计一个域分离rcnn（DDF），以消除特定于检测任务学习的特定信息。我们的DDF方法促进了全局和本地阶段的功能解剖，分别具有全局三联脱离（GTD）模块和实例相似性解剖（ISD）模块。通过在四个基准UDA对象检测任务上表现出最先进的方法，对我们的DDF方法进行了宽阔的适用性。

translated by 谷歌翻译

MoCoPnet: Exploring Local Motion and Contrast Priors for Infrared Small Target Super-Resolution

Xinyi Ying , Yingqian Wang , Longguang Wang , Weidong Sheng , Li Liu , Zaipin Lin , Shilin Zhou

分类：计算机视觉

2022-01-04

红外小目标超分辨率（SR）旨在从其低分辨率对应物中恢复具有高度控制目标的可靠和详细的高分辨率图像。由于红外小目标缺乏颜色和精细结构信息，因此利用序列图像之间的补充信息来提高目标是很重要的。在本文中，我们提出了名为局部运动和对比的第一红外小目标SR方法，以前驱动的深网络（MoCopnet）将红外小目标的域知识集成到深网络中，这可以减轻红外小目标的内在特征稀缺性。具体而言，通过在时空维度之前的局部运动的动机，我们提出了局部时空注意力模块，以执行隐式帧对齐并结合本地时空信息以增强局部特征（特别是对于小目标）来增强局部特征。通过在空间尺寸之前的局部对比的动机，我们提出了一种中心差异残留物，将中心差卷积纳入特征提取骨架，这可以实现以中心为导向的梯度感知特征提取，以进一步提高目标对比度。广泛的实验表明，我们的方法可以恢复准确的空间依赖性并改善目标对比度。比较结果表明，MoCopnet在SR性能和目标增强方面可以优于最先进的视频SR和单图像SR方法。基于SR结果，我们进一步调查了SR对红外小型目标检测的影响，实验结果表明MoCopnet促进了检测性能。代码可在https://github.com/xinyiying/mocopnet上获得。

translated by 谷歌翻译

3D Medical Point Transformer: Introducing Convolution to Attention Networks for Medical Point Cloud Analysis

Jianhui Yu , Chaoyi Zhang , Heng Wang , Dingxin Zhang , Yang Song , Tiange Xiang , Dongnan Liu , Weidong Cai

分类：计算机视觉

2021-12-09

对于不同的任务，已经越来越多地研究了一般点云，并且提出了最近的基于变换器的网络，用于点云分析。然而，医疗点云几乎没有相关的作品，这对疾病检测和治疗很重要。在这项工作中，我们提出了专门用于医疗点云的关注模型，即3D医疗点变压器（3Dmedpt），以检查复杂的生物结构。通过增强上下文信息并在查询时总结本地响应，我们的注意模块可以捕获本地上下文和全局内容功能交互。然而，医疗数据的培训样本不足可能导致特征学习差，因此我们应用位置嵌入，以学习准确的局部几何和多图形推理（MGR）来检查通过通道图的全局知识传播，以丰富特征表示。在数据集内进行的实验证明了3DMedpt的优越性，在那里我们达到了最佳分类和分割结果。此外，我们的方法的有希望的泛化能力在一般的3D点云基准测试中验证：ModelNet40和ShapenetPart。代码即将发布。

translated by 谷歌翻译

TAG: Toward Accurate Social Media Content Tagging with a Concept Graph

Jiuding Yang , Weidong Guo , Bang Liu , Yakun Yu , Chaoyue Wang , Jinwen Luo , Linglong Kong , Di Niu , Zhen Wen

分类：机器学习 | 人工智能

2021-10-13

尽管概念化已经在语义和知识表示中进行了广泛研究，但找到最准确的概念短语来表征在快速增长的社交媒体上表征文本片段的主要思想仍然具有挑战性。这部分归因于以下事实：大多数知识库都包含世界的一般术语，例如树木和汽车，它们没有定义的力量或对社交媒体应用程序用户不够有趣。另一个原因是，自然语言的复杂性允许使用时态，否定和语法改变语言的逻辑或重点，从而传达了完全不同的含义。在本文中，我们提出了标签，这是一个高质量的概念匹配的数据集，该数据集由10,000个标记的精细概念和网络风格的自然语言句子组成，并从开放域社交媒体中挖出。我们考虑的概念代表了在线用户的趋势兴趣。与标签相关的是这些细粒度概念和实体的概念图，以提供结构上下文信息。我们在标签上评估了广泛的流行神经文本匹配模型以及预先训练的语言模型，并指出他们以最合适的概念标记社交媒体内容的不足。我们进一步提出了一种新颖的图形匹配方法，该方法通过更好地利用概念图中的结构上下文和句子中语义单元之间的逻辑相互作用在句子中通过句法依赖性解析来展示出色的抽象和概括性能。我们开源标签数据集和提出进一步研究的建议方法。

translated by 谷歌翻译

Multiple Sclerosis Lesion Analysis in Brain Magnetic Resonance Images: Techniques and Clinical Applications

Yang Ma , Chaoyi Zhang , Mariano Cabezas , Yang Song , Zihao Tang , Dongnan Liu , Weidong Cai , Michael Barnett , Chenyu Wang

分类：计算机视觉

2021-04-20

多发性硬化症（MS）是中枢神经系统的慢性炎症和退行性疾病，其特征在于，白色和灰质的外观与个体患者的神经症状和标志进行地平整相关。磁共振成像（MRI）提供了详细的体内结构信息，允许定量和分类MS病变，其批判性地通知疾病管理。传统上，MS病变在2D MRI切片上手动注释，一个流程效率低，易于观察室内误差。最近，已经提出了自动统计成像分析技术以基于MRI体素强度检测和分段段病变。然而，它们的有效性受到MRI数据采集技术的异质性和MS病变的外观的限制。通过直接从图像学习复杂的病变表现，深度学习技术已经在MS病变分割任务中取得了显着的突破。在这里，我们提供了全面审查最先进的自动统计和深度学习MS分段方法，并讨论当前和未来的临床应用。此外，我们审查了域适应等技术策略，以增强现实世界临床环境中的MS病变分段。

translated by 谷歌翻译

Rethinking Rotation Invariance with Point Cloud Registration

Jianhui Yu , Chaoyi Zhang , Weidong Cai

分类：计算机视觉

2022-12-31

Recent investigations on rotation invariance for 3D point clouds have been devoted to devising rotation-invariant feature descriptors or learning canonical spaces where objects are semantically aligned. Examinations of learning frameworks for invariance have seldom been looked into. In this work, we review rotation invariance in terms of point cloud registration and propose an effective framework for rotation invariance learning via three sequential stages, namely rotation-invariant shape encoding, aligned feature integration, and deep feature registration. We first encode shape descriptors constructed with respect to reference frames defined over different scales, e.g., local patches and global topology, to generate rotation-invariant latent shape codes. Within the integration stage, we propose Aligned Integration Transformer to produce a discriminative feature representation by integrating point-wise self- and cross-relations established within the shape codes. Meanwhile, we adopt rigid transformations between reference frames to align the shape codes for feature consistency across different scales. Finally, the deep integrated feature is registered to both rotation-invariant shape codes to maximize feature similarities, such that rotation invariance of the integrated feature is preserved and shared semantic information is implicitly extracted from shape codes. Experimental results on 3D shape classification, part segmentation, and retrieval tasks prove the feasibility of our work. Our project page is released at: https://rotation3d.github.io/.

translated by 谷歌翻译