智能论文笔记

Visual Transformers with Primal Object Queries for Multi-Label Image Classification

Vacit Oguz Yazici , Joost van de Weijer , Longlong Yu

分类：计算机视觉

2021-12-10

多标签映像分类是预测一组类标签，可以视为有序的顺序数据。变形金刚整体处理顺序数据，因此它们本质上擅长设置预测。第一个基于视觉的变压器模型，提出了对象检测任务，引入了对象查询的概念。对象查询是可学习的位置编码，其被解码器层中的注意模块使用，以使用图像中的兴趣区域对对象类或边界框进行解码。但是，将相同的对象查询集输入到不同的解码器层阻碍了培训：它会导致性能下降和延迟收敛。在本文中，我们提出了仅在变压器解码器堆栈开始时提供的原始对象查询的使用。此外，我们改进了为多标签分类提出的混合技术。具有原始对象查询的所提出的变压器模型可提高最先进的阶级明智的F1度量2.1％和1.8％;并分别在MS-COCO和NUS范围的数据集中速度提高79.0％和38.6％。

translated by 谷歌翻译

Cats: Complementary CNN and Transformer Encoders for Segmentation

Hao Li , Dewei Hu , Han Liu , Jiacheng Wang , Ipek Oguz

分类：计算机视觉

2022-08-24

最近，深度学习方法已经在许多医学图像分割任务中实现了最先进的表现。其中许多是基于卷积神经网络（CNN）。对于这种方法，编码器是从输入图像中提取全局和局部信息的关键部分。然后将提取的特征传递给解码器以预测分割。相比之下，最近的几部作品显示了使用变压器的卓越性能，可以更好地对远程空间依赖性进行建模并捕获低级细节。但是，对于某些任务无法有效替换基于卷积的编码器的某些任务，变形金刚作为唯一的编码器表现不佳。在本文中，我们提出了一个带有双重编码器的模型，用于3D生物医学图像分割。我们的模型是带有独立变压器编码器的U形CNN。我们融合了卷积编码器和变压器的信息，并将其传递给解码器以获得结果。我们从三个不同的挑战中评估了三个公共数据集上的方法：BTCV，MODA和DECHANLON。与在每个任务上有和没有变压器的最先进模型相比，我们提出的方法在整个方面都获得了更高的骰子分数。

translated by 谷歌翻译

Nonlinear Optical Data Transformer for Machine Learning

Mustafa Yildirim , Ilker Oguz , Fabian Kaufmann , Marc Reig Escale , Rachel Grange , Demetri Psaltis , Christophe Moser

分类：人工智能 | 机器学习

2022-08-19

现代机器学习模型使用大型数据集使用越来越多的参数（GPT-3参数1750亿参数），以获得更好的性能。更大的是常态。光学计算已被恢复为通过执行线性操作的同时降低电力的光学加速器的大规模计算的潜在解决方案。但是，要用光实现有效的计算，在光学上而不是电子上创建和控制非线性仍然是一个挑战。这项研究探讨了一种储层计算方法（RC）方法，通过该方法，在绝缘体上的Linbo3中的14毫米长的几种模式波导被用作复杂的非线性光学处理器。数据集在飞秒脉冲的频谱上进行数字编码，然后在波导中启动。输出频谱非线性取决于输入。我们通过实验表明，与非转换数据相比，使用波导的输出谱提高了几个数据库的分类精度，使用来自波导的输出频谱具有784个参数的简单数字线性分类器，约为10 $ \％$。相比之下，必须具有40000个参数的深数字神经网络（NN）才能达到相同的准确性。将参数的数量减少$ \ sim $ 50，这说明了紧凑的光RC方法可以与深数字NN一起执行。

translated by 谷歌翻译

Machine Learning Based Radiomics for Glial Tumor Classification and Comparison with Volumetric Analysis

Sevcan Turk , Kaya Oguz , Mehmet Orman , Emre Caliskan , Yesim Ertan , Erkin Ozgiray , Taner Akalin , Ashok Srinivasan , Omer Kitis

分类：计算机视觉 | 机器学习

2022-08-13

目的;这项研究的目的是通过将机器学习应用于多模式MRI特征，将神经胶质肿瘤分为II，III和IV类别，与体积分析相比。方法;我们回顾性地研究了57例在3T MRI上获取的T2加权，T2加权，Flair图像和ADC MAP的胶质瘤患者。使用ITK-SNAP开源工具的半小局分割，将肿瘤分割为增强和非增强部分，肿瘤坏死，囊肿和水肿。我们测量了总肿瘤量，增强的非肿瘤，水肿，坏死体积以及与总肿瘤量的比率。对培训载体机（SVM）分类器和人工神经网络（ANN）进行了标记的数据，旨在回答感兴趣的问题。通过ROC分析计算预测的特异性，灵敏度和AUC。使用Kruskall Wallis评估了组之间连续度量的差异，并进行了事后DUNN校正以进行多次比较。结果;当我们比较组之间的体积比时，IV级和II-III级神经胶质肿瘤之间的统计学显着差异。 IV级神经胶质肿瘤的水肿和肿瘤坏死比率高于II和III级。体积比分析无法成功区分II和III级肿瘤。但是，SVM和ANN以高达98％和96％的精度正确分类了每个组。结论;在临床环境中，可以将机器学习方法应用于MRI特征，以无创，更容易地对脑肿瘤进行分类。

translated by 谷歌翻译

Object Detection and Tracking with Autonomous UAV

A. Huzeyfe Demir , Berke Yavas , Mehmet Yazici , Dogukan Aksu , M. Ali Aydin

分类：机器人 | 计算机视觉

2022-06-26

在本文中，在模拟环境中对战斗无人机（UAV）进行了建模。旋转翼无人机成功执行了各种任务，例如锁定目标，跟踪并与周围车辆共享相关数据。采用了不同的软件技术，例如API通信，地面控制站配置，自主运动算法，计算机视觉和深度学习。

translated by 谷歌翻译

Universal Speech Enhancement with Score-based Diffusion

Joan Serrà , Santiago Pascual , Jordi Pons , R. Oguz Araz , Davide Scaini

分类：机器学习

2022-06-07

从语音音频中删除背景噪音一直是大量研究和努力的主题，尤其是由于虚拟沟通和业余声音录制的兴起，近年来。然而，背景噪声并不是唯一可以防止可理解性的不愉快干扰：混响，剪裁，编解码器工件，有问题的均衡，有限的带宽或不一致的响度同样令人不安且无处不在。在这项工作中，我们建议将言语增强的任务视为一项整体努力，并提出了一种普遍的语音增强系统，同时解决了55种不同的扭曲。我们的方法由一种使用基于得分的扩散的生成模型以及一个多分辨率调节网络，该网络通过混合密度网络进行增强。我们表明，这种方法在专家听众执行的主观测试中大大优于艺术状态。我们还表明，尽管没有考虑任何特定的快速采样策略，但它仅通过4-8个扩散步骤就可以实现竞争性的目标得分。我们希望我们的方法论和技术贡献都鼓励研究人员和实践者采用普遍的语音增强方法，可能将其作为一项生成任务。

translated by 谷歌翻译

ModDrop++: A Dynamic Filter Network with Intra-subject Co-training for Multiple Sclerosis Lesion Segmentation with Missing Modalities

Han Liu , Yubo Fan , Hao Li , Jiacheng Wang , Dewei Hu , Can Cui , Ho Hin Lee , Huahong Zhang , Ipek Oguz

分类：计算机视觉

2022-03-07

多发性硬化症（MS）是一种慢性神经炎症性疾病，多模态MRIS通常用于监测MS病变。许多自动MS病变细分模型已经开发并达到了人类水平的性能。但是，大多数已建立的方法都假定在训练过程中使用的MRI模式在测试过程中也可以使用，这在临床实践中不能保证。以前，已将称为模式辍学的训练策略应用于MS病变细分，以实现最先进的性能，而缺失了模态。在本文中，我们提出了一种称为ModDrop ++的新方法，以训练统一的网络适应于任意数量的输入MRI序列。 ModDrop ++以两种关键方式升级ModDrop的主要思想。首先，我们设计一个插件动态头，并采用过滤器缩放策略来提高网络的表现力。其次，我们设计了一种共同训练策略，以利用完全模态和缺失方式之间的主体内关系。具体而言，主体内共同训练策略旨在指导动态头部在同一主题的全模式数据和缺失模式数据之间生成相似的特征表示。我们使用两个公共MS数据集来显示ModDrop ++的优势。源代码和训练有素的模型可在https://github.com/han-liu/moddropplusplus上获得。

translated by 谷歌翻译

CrossMoDA 2021 challenge: Benchmark of Cross-Modality Domain Adaptation techniques for Vestibular Schwnannoma and Cochlea Segmentation

Reuben Dorent , Aaron Kujawa , Marina Ivory , Spyridon Bakas , Nicola Rieke , Samuel Joutard , Ben Glocker , Jorge Cardoso , Marc Modat , Kayhan Batmanghelich

分类：计算机视觉

2022-01-08

域适应（DA）最近在医学影像社区提出了强烈的兴趣。虽然已经提出了大量DA技术进行了用于图像分割，但大多数这些技术已经在私有数据集或小公共可用数据集上验证。此外，这些数据集主要解决了单级问题。为了解决这些限制，与第24届医学图像计算和计算机辅助干预（Miccai 2021）结合第24届国际会议组织交叉模态域适应（Crossmoda）挑战。 Crossmoda是无监督跨型号DA的第一个大型和多级基准。挑战的目标是分割参与前庭施瓦新瘤（VS）的后续和治疗规划的两个关键脑结构：VS和Cochleas。目前，使用对比度增强的T1（CET1）MRI进行VS患者的诊断和监测。然而，使用诸如高分辨率T2（HRT2）MRI的非对比度序列越来越感兴趣。因此，我们创建了一个无人监督的跨模型分段基准。训练集提供注释CET1（n = 105）和未配对的非注释的HRT2（n = 105）。目的是在测试集中提供的HRT2上自动对HRT2进行单侧VS和双侧耳蜗分割（n = 137）。共有16支球队提交了评估阶段的算法。顶级履行团队达成的表现水平非常高（最佳中位数骰子 - vs：88.4％; Cochleas：85.7％）并接近完全监督（中位数骰子 - vs：92.5％;耳蜗：87.7％）。所有顶级执行方法都使用图像到图像转换方法将源域图像转换为伪目标域图像。然后使用这些生成的图像和为源图像提供的手动注释进行培训分割网络。

translated by 谷歌翻译

Learning to Execute: Efficient Learning of Universal Plan-Conditioned Policies in Robotics

Ingmar Schubert , Danny Driess , Ozgur S. Oguz , Marc Toussaint

分类：人工智能 | 机器人

2021-11-15

强化学习（RL）在机器人中的应用通常受高数据需求的限制。另一方面，许多机器人场景中容易获得近似模型，使基于模型的方法，如规划数据有效的替代方案。尽管如此，这些方法的性能遭受了模型不精确或错误。从这个意义上讲，RL和基于模型的规划者的各个优势和弱点是。在目前的工作中，我们调查如何将两种方法集成到结合其优势的一个框架中。我们介绍了学习执行（L2E），从而利用近似计划中包含的信息学习有关计划的普遍政策。在我们的机器人操纵实验中，与纯RL，纯规划或基线方法相比，L2E在结合学习和规划的基线方法时表现出增加的性能。

translated by 谷歌翻译

Unsupervised Cross-Modality Domain Adaptation for Segmenting Vestibular Schwannoma and Cochlea with Data Augmentation and Model Ensemble

Hao Li , Dewei Hu , Qibang Zhu , Kathleen E. Larson , Huahong Zhang , Ipek Oguz

分类：计算机视觉

2021-09-24

磁共振图像（MRI）被广泛用于量化前庭切片瘤和耳蜗。最近，深度学习方法显示了用于分割这些结构的最先进的性能。但是，培训细分模型可能需要目标域中的手动标签，这是昂贵且耗时的。为了克服这个问题，域的适应是一种有效的方法，可以利用来自源域的信息来获得准确的分割，而无需在目标域中进行手动标签。在本文中，我们提出了一个无监督的学习框架，以分割VS和耳蜗。我们的框架从对比增强的T1加权（CET1-W）MRI及其标签中利用信息，并为T2加权MRIS产生分割，而目标域中没有任何标签。我们首先应用了一个发电机来实现图像到图像翻译。接下来，我们从不同模型的集合中集合输出以获得最终的分割。为了应对来自不同站点/扫描仪的MRI，我们在培训过程中应用了各种“在线”增强量，以更好地捕获几何变异性以及图像外观和质量的可变性。我们的方法易于构建和产生有希望的分割，在验证集中，VS和耳蜗的平均骰子得分分别为0.7930和0.7432。

translated by 谷歌翻译