智能论文笔记

Comparison of Representation Learning Techniques for Tracking in time resolved 3D Ultrasound

Daniel Wulff , Jannis Hagenah , Floris Ernst

分类：计算机视觉 | 机器学习

2022-01-10

3D超声（3DU）由于其能力在不使用电离辐射的情况下实时提供体积图像而导致的辐射治疗中的目标跟踪变得更有趣。在不使用基准的情况下潜在地用于跟踪。为此，用于学习有意义的表示的方法对于识别表示空间（R-Space）的不同时间帧中的解剖结构是有用的。在这项研究中，使用传统的AutoEncoder，变形自动级别和切片 - Wassersein AutoEncoder减少了3DUS斑块进入128维R空间。在R-空间中，研究了分离不同的超声贴片的能力以及识别类似斑块的基于肝脏图像的数据集进行比较。提出了评估R-空间中的跟踪能力的两个指标。结果表明，可以区分具有不同解剖结构的超声波贴片，并且可以在R空间中聚集类似的贴片。结果表明，调查的AutoEncoders对3DU中的目标跟踪具有不同的可用性水平。

translated by 谷歌翻译

Generative Myocardial Motion Tracking via Latent Space Exploration with Biomechanics-informed Prior

Chen Qin , Shuo Wang , Chen Chen , Wenjia Bai , Daniel Rueckert

分类：计算机视觉

2022-06-08

心肌运动和变形是表征心脏功能的丰富描述符。图像注册是心肌运动跟踪最常用的技术，是一个不当的反问题，通常需要先前对解决方案空间进行假设。与大多数现有的方法相反，它们强加了明确的通用正则化（例如平滑度），在这项工作中，我们提出了一种新的方法，该方法可以隐式地学习了特定于应用程序的生物力学知识，并将其嵌入了神经网络参数化转换模型中。尤其是，提出的方法利用基于变异自动编码器的生成模型来学习生物力学上合理变形的多种多样。然后，可以通过穿越学习的歧管来搜索最佳转换时，在考虑序列信息时搜索最佳转换。该方法在三个公共心脏Cine MRI数据集中进行了验证，并具有全面的评估。结果表明，所提出的方法可以胜过其他方法，从而获得更高的运动跟踪精度，并具有合理的量保存和更好地变化数据分布的概括性。它还可以更好地估计心肌菌株，这表明该方法在表征时空特征以理解心血管疾病方面的潜力。

translated by 谷歌翻译

Affinity-VAE for disentanglement, clustering and classification of objects in multidimensional image data

Jola Mirecka , Marjan Famili , Anna Kotańska , Nikolai Juraschko , Beatriz Costa-Gomes , Colin M. Palmer , Jeyan Thiyagalingam , Tom Burnley , Mark Basham , Alan R. Lowe

分类：计算机视觉 | 机器学习

2022-09-09

在这项工作中，我们介绍了亲和力-VAE：基于其相似性在多维图像数据中自动聚类和对象分类的框架。该方法扩展了$ \ beta $ -vaes的概念，其基于亲和力矩阵驱动的知情相似性损失组件。与标准的$ \ beta $ -VAE相比，该亲和力VAE能够在潜在表示中创建旋转不变的，形态上均匀的簇，并具有改进的群集分离。我们探讨了2D和3D图像数据上潜在空间的潜在分离和连续性的程度，包括模拟的生物电子冷冻术（Cryo-ET）体积，作为科学应用的一个例子。

translated by 谷歌翻译

Deep Contrastive Patch-Based Subspace Learning for Camera Image Signal Processing

Yunhao Yang , Yuhan Zheng , Yi Wang , Chandrajit Bajaj

分类：计算机视觉 | 机器学习

2021-04-01

相机图像信号处理（ISP）管道，包括深度学习训练的版本，可以在不同的图像信号处理任务中获得吸引力的结果。但是，大多数这些方法（如果不是全部）倾向于在整个图像上应用单个滤波器。当对任务训练编码器类型的深度体系结构时，也尤其如此。但是，自然要将摄像机图像视为异质，因为即使在单个图像的两个维度域上，颜色强度和人造噪声也大不相同。多样化的Moire响起，运动裂，颜色射或基于镜头的投影失真都可能导致异质图像伪影滤波问题。在本文中，我们提出了一个基于贴片的本地子空间深神经网络，该网络可改善相机ISP对异质伪像（尤其是图像denoising）具有稳健性。我们称我们的三倍训练的模型为补丁子空间学习自动编码器（PSL-AE）。 PSL-AE不一定假设图像失真级别，也不重复或相似的伪影类型。相反，PSL-AE首先诊断编码从嘈杂和干净的图像对提取的斑块，具有不同的人工类型和失真级别，相比之下。然后，使用先前的混合模型将每个图像的贴片编码为适当的潜在子空间的软群。最后，PSL-AE的解码器还以针对每个软群集中图像贴片的无监督方式进行训练。我们的实验结果表明，通过合成的伪影，又是现实的SIDD图像对，通过改进的异质过滤可以实现的灵活性和性能。

translated by 谷歌翻译

Learning Implicit Fields for Generative Shape Modeling

Zhiqin Chen , Hao Zhang

分类：

2018-12-06

We advocate the use of implicit fields for learning generative models of shapes and introduce an implicit field decoder, called IM-NET, for shape generation, aimed at improving the visual quality of the generated shapes. An implicit field assigns a value to each point in 3D space, so that a shape can be extracted as an iso-surface. IM-NET is trained to perform this assignment by means of a binary classifier. Specifically, it takes a point coordinate, along with a feature vector encoding a shape, and outputs a value which indicates whether the point is outside the shape or not. By replacing conventional decoders by our implicit decoder for representation learning (via IM-AE) and shape generation (via IM-GAN), we demonstrate superior results for tasks such as generative shape modeling, interpolation, and single-view 3D reconstruction, particularly in terms of visual quality. Code and supplementary material are available at https://github.com/czq142857/implicit-decoder.

translated by 谷歌翻译

Xp-GAN: Unsupervised Multi-object Controllable Video Generation

Bahman Rouhani , Mohammad Rahmati

分类：计算机视觉 | 机器学习

2021-11-19

由于其各种潜在应用及其众多挑战，视频生成是机器学习中相对较新的，但流行的主题。视频生成中的当前方法为用户提供了很少或根本没有控制通过对生成视频中的对象被移动并位于每个帧的精确规范，即，用户无法明确控制每个对象如何视频应该移动。在本文中，我们提出了一种新颖的方法，该方法允许用户通过在这些对象上绘制边界框，然后在所需路径中移动这些框来移动所有数量的单个初始帧的对象。我们的模型利用两个AutoEncoders完全分解视频中的运动和内容信息，并实现与众所周知的基线和现有方法的结果相当。

translated by 谷歌翻译

Real-time Virtual Intraoperative CT for Image Guided Surgery

Yangming Li , Neeraja Konuthula , Ian M. Humphreys , Kris Moe , Blake Hannaford , Randall Bly

分类：计算机视觉 | 机器学习 | 机器人

2021-12-05

抽象的。目的：本文提出了一种用于产生虚拟术中CT扫描的方案，以改善内窥镜窦手术（ESS）的手术完整性。方法：该工作呈现三种方法，基于尖端运动，基于尖端轨迹的基于仪器，以及基于仪器，以及虚拟术中CT生成的非参数平滑和高斯过程回归。结果：所提出的方法研究，并在尸体上进行的ESS进行了比较。外科结果表明，所有三种方法都改善了骰子相似系数> 86％，F分数> 92％和精度> 89.91％。发现基于尖端轨迹的方法具有最佳性能，并在外科完整性评估中获得了96.87％的精度。结论：这项工作表明，虚拟术中CT扫描改善了实际手术场景与参考模型之间的一致性，并提高了ESS中的手术完整性。与实际的术中CT扫描相比，该方案对现有的外科议定书没有影响，不需要除了最多的ESS中已经提供的额外硬件克服了高成本，重复辐射和由实际术中引起的细长麻醉CTS，并在ESS中实用。

translated by 谷歌翻译

Quantifying Topology In Pancreatic Tubular Networks From Live Imaging 3D Microscopy

Kasra Arnavaz , Oswin Krause , Kilian Zepf , Jelena M. Krivokapic , Silja Heilmann , Jakob Andreas Bærentzen , Pia Nyeng , Aasa Feragen

分类：计算机视觉 | 机器学习

2021-05-20

由胰腺管网络的具有挑战性的分割任务激发，本文解决了两个通常遇到生物医学成像问题的问题：分割的拓扑一致性，以及昂贵或困难的注释。我们的贡献如下：a）我们提出了一个拓扑评分，该评分衡量了预测和地面真理分割之间的拓扑和几何一致性，应用于模型选择和验证。 b）我们在时间序列图像数据上为这一困难的嘈杂任务提供了完整的深度学习方法。在我们的方法中，我们首先使用半监管的U-NET体系结构，适用于通用分割任务，该任务共同训练自动编码器和分割网络。然后，随着时间的流逝，我们使用循环的跟踪来进一步改善预测的拓扑。这种半监督的方法使我们能够利用未经通知的数据来学习特征表示，尽管我们的带注释的培训数据的变化非常有限，但该特征表示具有较高可变性的数据。我们的贡献在具有挑战性的分割任务上得到了验证，从嘈杂的实时成像共聚焦显微镜中定位胎儿胰腺中的管状结构。我们表明，我们的半监督模型不仅优于完全监督和预训练的模型，而且还优于在训练过程中考虑拓扑一致性的方法。此外，与经过平均循环得分为0.762的CLDICE的U-NET相比，我们的方法的平均环路得分为0.808。

translated by 谷歌翻译

Attri-VAE: attribute-based interpretable representations of medical images with variational autoencoders

Irem Cetin , Maialen Stephens , Oscar Camara , Miguel Angel Gonzalez Ballester

分类：计算机视觉 | 机器学习

2022-03-20

Deep learning (DL) methods where interpretability is intrinsically considered as part of the model are required to better understand the relationship of clinical and imaging-based attributes with DL outcomes, thus facilitating their use in the reasoning behind medical decisions. Latent space representations built with variational autoencoders (VAE) do not ensure individual control of data attributes. Attribute-based methods enforcing attribute disentanglement have been proposed in the literature for classical computer vision tasks in benchmark data. In this paper, we propose a VAE approach, the Attri-VAE, that includes an attribute regularization term to associate clinical and medical imaging attributes with different regularized dimensions in the generated latent space, enabling a better-disentangled interpretation of the attributes. Furthermore, the generated attention maps explained the attribute encoding in the regularized latent space dimensions. Using the Attri-VAE approach we analyzed healthy and myocardial infarction patients with clinical, cardiac morphology, and radiomics attributes. The proposed model provided an excellent trade-off between reconstruction fidelity, disentanglement, and interpretability, outperforming state-of-the-art VAE approaches according to several quantitative metrics. The resulting latent space allowed the generation of realistic synthetic data in the trajectory between two distinct input samples or along a specific attribute dimension to better interpret changes between different cardiac conditions.

translated by 谷歌翻译

SynthStrip: Skull-Stripping for Any Brain Image

Andrew Hoopes , Jocelyn S. Mora , Adrian V. Dalca , Bruce Fischl , Malte Hoffmann

分类：计算机视觉

2022-03-18

从磁共振成像（MRI）数据（称为颅骨条状）中去除非脑信号是许多神经图像分析流的组成部分。尽管它们很丰富，但通常是针对具有特定采集特性的图像量身定制的，即近乎各向异性的分辨率和T1加权（T1W）MRI对比度，这些分辨率在研究环境中很普遍。结果，现有的工具倾向于适应其他图像类型，例如在诊所常见的快速旋转回声（FSE）MRI中获得的厚切片。尽管近年来基于学习的大脑提取方法已获得吸引力，但这些方法面临着类似的负担，因为它们仅对训练过程中看到的图像类型有效。为了在成像协议的景观中实现强大的颅骨缠身，我们引入了Synthstrip，这是一种快速，基于学习的脑萃取工具。通过利用解剖学分割来生成具有解剖学，强度分布和远远超过现实医学图像范围的完全合成训练数据集，Synthstrip学会了成功推广到各种真实获得的大脑图像，从而消除了使用训练数据的需求目标对比。我们证明了合成条的功效对受试者人群的各种图像采集和决议的功效，从新生儿到成人。我们显示出与流行的颅骨基线的准确性的实质性提高 - 所有这些基线都采用单个训练有素的模型。我们的方法和标记的评估数据可在https://w3id.org/synthstrip上获得。

translated by 谷歌翻译

Self-Supervised Tracking via Target-Aware Data Synthesis

Xin Li , Wenjie Pei , Zikun Zhou , Zhenyu He , Huchuan Lu , Ming-Hsuan Yang

分类：计算机视觉

2021-06-21

虽然基于深度学习的跟踪方法取得了大量的进展，但它们需要大规模和高质量的注释数据，以进行足够的培训。为了消除昂贵和彻底的注释，我们研究自我监督的学习，以便进行视觉跟踪。在这项工作中，我们开发了作物变换粘贴操作，该操作能够通过在跟踪期间模拟各种外观变化来综合足够的训练数据，包括对象和背景干扰的外观变化。由于目标状态在所有合成数据中都是已知的，因此可以使用没有人为注释的合成数据在日常方式培训现有的深度跟踪器。所提出的目标感知数据综合方法在没有算法改变的情况下适应自我监督的学习框架内的现有跟踪方法。因此，所提出的自我监督学习机制可以无缝地集成到现有的跟踪框架中以进行培训。广泛的实验表明，我们的方法1）在有限注释下的案件下实现了对监督学习计划的有利性能; 2）有助于处理各种跟踪挑战，例如由于其可操纵性导致的物体变形，闭塞或背景杂波; 3）对最先进的无监督的跟踪方法表现有利; 4）提高各种最先进的监督学习框架的性能，包括SiamRPN ++，DIMP和Transt（基于变压器）。

translated by 谷歌翻译

Unsupervised Anomaly Localization with Structural Feature-Autoencoders

Felix Meissen , Johannes Paetzold , Georgios Kaissis , Daniel Rueckert

分类：计算机视觉

2022-08-23

无监督的异常检测已成为一种流行的方法，可以检测医学图像中的病理，因为它不需要监督或标签进行训练。最常见的是，异常检测模型会生成输入映像的“正常”版本，而Pixel $ l^p $ - 两者的差异用于本地化异常。但是，大多数医学图像中存在的复杂解剖结构的不完善重建通常是由于不完善的重建而发生的。该方法还无法检测到没有与周围组织的强度差异很大的异常。我们建议使用特征映射功能解决此问题，该功能将输入强度图像转换为具有多个通道的空间，在该空间中可以沿着从原始图像提取的不同判别特征地图检测到异常。然后，我们使用结构相似性损失在该空间中训练自动编码器模型，该模型不仅考虑强度差异，而且考虑对比度和结构。我们的方法大大提高了大脑MRI的两个医学数据集的性能。代码和实验可从https://github.com/felime/feature-autoencoder获得

translated by 谷歌翻译

AudioViewer: Learning to Visualize Sounds

Yuchi Zhang , Chunjin Song , Willis Peng , Parmis Mohaghegh , Bastian Wandt , Helge Rhodin

分类：计算机视觉 | 机器学习

2020-12-22

在感官替代领域的长期目标是通过可视化音频内容来实现对聋人的声音感知。与语音和文本或文本和图像之间的现有模型不同，我们针对即时和低级音频到视频翻译，适用于通用环境声音以及人类语音。由于这种替代是人为的，没有监督学习的标签，我们的核心贡献是通过高级约束来建立从音频到视频的映射。对于言语，我们通过将它们映射到共同的解除不诚格的潜在空间来释放型号（性别和方言）的内容（电话）。包括用户学习的定性和定量结果表明，我们的未配对翻译方法在生成的视频中保持了重要的音频功能，并且面孔和数字的视频非常适合可视化可以通过人类解析的高维音频特征和区分声音，单词和扬声器。

translated by 谷歌翻译

Automated Antenna Testing Using Encoder-Decoder-based Anomaly Detection

Hans Hao-Hsun Hsu , Jiawen Xu , Ravi Sama , Matthias Kovatsch

分类：机器学习

2021-11-27

我们提出了一种用于测试使用吸收材料记录辐射电磁（EM）场的天线阵列的新方法，并使用条件编码器解码器模型通过AI评估所得到的热图像串。鉴于馈送到每个阵列元件的信号的功率和相位，我们能够通过我们训练的模型重建正常序列，并将其与热相机观察到的真实序列进行比较。这些热图仅包含低级模式，例如各种形状的斑点。然后，基于轮廓的异常检测器可以将重建误差矩阵映射到异常的分数，以识别故障的天线阵列，并将分类F量度（F-M）增加到46％。我们在天线测试系统收集的时间序列热量量表上展示了我们的方法。传统上，变形自身摩擦（VAE）学习观察噪声可以产生比具有恒定噪声假设的VAE更好的结果。然而，我们证明这不是对这种低级模式的异常检测的情况，有两个原因。首先，结合所学到的观察噪声的基线度量重建概率不能分化异常模式。其次，具有较低观察噪声假设的VAE的接收器操作特性（ROC）曲线下的区域比具有学习噪声的VAE高出11.83％。

translated by 谷歌翻译

Landmark Tracking in Liver US images Using Cascade Convolutional Neural Networks with Long Short-Term Memory

Yupei Zhang , Xianjin Dai , Zhen Tian , Yang Lei , Jacob F. Wynne , Pretesh Patel , Yue Chen , Tian Liu , Xiaofeng Yang

分类：计算机视觉

2022-09-14

这项研究提出了一种基于深度学习的超声（US）图像引导放射疗法的跟踪方法。拟议的级联深度学习模型由注意力网络，基于掩模区域的卷积神经网络（Mask R-CNN）和长期短期记忆（LSTM）网络组成。注意网络从美国图像到可疑的具有里程碑意义的运动区域，以减少搜索区域。然后，面膜R-CNN在减少区域中产生多个利益区域（ROI）建议，并通过三个网络头确定拟议的地标：边界框回归，提案分类和地标分段。 LSTM网络对连续的图像框架之间的时间关系建模，以进行边界框回归和建议分类。为了合并最终建议，根据顺序框架之间的相似性设计选择方法。该方法在肝脏美国跟踪数据集中测试了医疗图像计算和计算机辅助干预措施（MICCAI）2015年的挑战，其中有三位经验丰富的观察者注释了地标，以获得其平均位置。在24个鉴于我们具有地面真相的序列的24个序列上，所有地标的平均跟踪误差为0.65 +/- 0.56毫米，所有地标的误差均在2 mm之内。我们进一步测试了从测试数据集中的69个地标上提出的模型，该模型具有与训练模式相似的图像模式，从而导致平均跟踪误差为0.94 +/- 0.83 mm。我们的实验结果表明，我们提出的方法使用US图像跟踪肝解剖学地标的可行性和准确性，为放射治疗期间的主动运动管理提供了潜在的解决方案。

translated by 谷歌翻译

Domain-Adaptive 3D Medical Image Synthesis: An Efficient Unsupervised Approach

Qingqiao Hu , Hongwei Li , Jianguo Zhang

分类：计算机视觉

2022-07-02

医疗图像合成引起了人们的关注，因为它可能会产生缺失的图像数据，改善诊断并受益于许多下游任务。但是，到目前为止，开发的合成模型并不适应显示域移位的看不见的数据分布，从而限制了其在临床常规中的适用性。这项工作着重于探索3D图像到图像合成模型的域适应性（DA）。首先，我们强调了分类，分割和合成模型之间DA的技术差异。其次，我们提出了一种基于近似3D分布的2D变异自动编码器的新型有效适应方法。第三，我们介绍了有关适应数据量和关键超参数量的影响的经验研究。我们的结果表明，所提出的方法可以显着提高3D设置中未见域的合成精度。该代码可在https://github.com/winstonhutiger/2d_vae_uda_for_3d_sythesis上公开获得。

translated by 谷歌翻译

Esophageal virtual disease landscape using mechanics-informed machine learning

Sourav Halder , Jun Yamasaki , Shashank Acharya , Wenjun Kou , Guy Elisha , Dustin A. Carlson , Peter J. Kahrilas , John E. Pandolfino , Neelesh A. Patankar

分类：机器学习

2021-11-19

食管障碍的发病机制与食管壁力学有关。因此，要了解各种食管障碍背后的潜在基本机制，将基于食管壁力学的参数映射到与改变的推注途径和超级性IBP对应的生理和病理生理学条件至关重要。在这项工作中，我们提出了一种混合框架，将流体力学和机器学习结合，以识别各种食管障碍的底层物理，并将它们映射到我们称之为虚拟疾病景观（VDL）的参数空间上。一维逆模型处理来自食道诊断装置的输出，称为内窥镜功能腔成像探针（endoflip）来估计食道的机械“健康”，通过预测一组基于机械基的参数，例如食道壁刚度，肌肉收缩食管墙的模式和活跃放松。然后使用基于机械基的参数来训练由改变空间（VAE）组成的神经网络，其产生潜在空间和侧面网络，该侧面网络预测用于估计食道古代结动性的机械工作度量。潜在的矢量以及一组基于基于机械的参数定义VDL并形成与各种食管疾病相对应的簇。 VDL不仅区分不同的疾病，而且还可用于预测疾病进展及时。最后，我们还证明了该框架的临床适用性，用于估算治疗后治疗和追踪患者状况的有效性。

translated by 谷歌翻译

PatchRD: Detail-Preserving Shape Completion by Learning Patch Retrieval and Deformation

Bo Sun , Vladimir G. Kim , Noam Aigerman , Qixing Huang , Siddhartha Chaudhuri

分类：计算机视觉

2022-07-24

本文介绍了一种数据驱动的形状完成方法，该方法着重于完成3D形状缺失区域的几何细节。我们观察到，现有的生成方法缺乏训练数据和表示能力，可以通过复杂的几何形状和拓扑合成合理的，细粒度的细节。我们的关键见解是从部分输入复制和变形补丁以完成缺失区域。这使我们能够保留本地几何特征的风格，即使它与培训数据有很大不同。我们的全自动方法分为两个阶段。首先，我们学会从输入形状检索候选补丁。其次，我们选择并变形了一些检索到的候选者，以无缝将它们融合到完整的形状中。该方法结合了两种最常见的完成方法的优点：基于相似性的单稳定性完成，以及通过学习形状空间来完成。我们通过从部分输入中检索贴片来利用重复模式，并通过使用神经网络来指导检索和变形步骤来学习全球结构先验。实验结果表明，我们的方法在多个数据集和形状类别上的表现非常优于基线。代码和数据可在https://github.com/gitbosun/patchrd上找到。

translated by 谷歌翻译

Learning Disentangled Representations in the Imaging Domain

Xiao Liu , Pedro Sanchez , Spyridon Thermos , Alison Q. O'Neil , Sotirios A. Tsaftaris

分类：计算机视觉 | 机器学习

2021-08-26

甚至在没有受限，监督的情况下，也提出了甚至在没有受限或有限的情况下学习普遍陈述的方法。使用适度数量的数据可以微调新的目标任务，或者直接在相应任务中实现显着性能的无奈域中使用的良好普遍表示。这种缓解数据和注释要求为计算机愿景和医疗保健的应用提供了诱人的前景。在本辅导纸上，我们激励了对解散的陈述，目前关键理论和详细的实际构建块和学习此类表示的标准的需求。我们讨论医学成像和计算机视觉中的应用，强调了在示例钥匙作品中进行的选择。我们通过呈现剩下的挑战和机会来结束。

translated by 谷歌翻译

Data Augmentation techniques in time series domain: A survey and taxonomy

Edgar Talavera , Guillermo Iglesias , Ángel González-Prieto , Alberto Mozo , Sandra Gómez-Canaval

分类：机器学习 | 人工智能

2022-06-25

随着深度学习生成模型的最新进展，它在时间序列领域的出色表现并没有花费很长时间。用于与时间序列合作的深度神经网络在很大程度上取决于培训中使用的数据集的广度和一致性。这些类型的特征通常在现实世界中不丰富，在现实世界中，它们通常受到限制，并且通常具有必须保证的隐私限制。因此，一种有效的方法是通过添加噪声或排列并生成新的合成数据来使用\ gls {da}技术增加数据数。它正在系统地审查该领域的当前最新技术，以概述所有可用的算法，并提出对最相关研究的分类法。将评估不同变体的效率；作为过程的重要组成部分，将分析评估性能的不同指标以及有关每个模型的主要问题。这项研究的最终目的是摘要摘要，这些领域的进化和性能会产生更好的结果，以指导该领域的未来研究人员。

translated by 谷歌翻译