智能论文笔记

Estimating Parameters of the Tree Root in Heterogeneous Soil Environments via Mask-Guided Multi-Polarimetric Integration Neural Network

Hai-Han Sun , Yee Hui Lee , Qiqi Dai , Chongyi Li , Genevieve Ow , Mohamed Lokman Mohd Yusof , Abdulkadir C. Yucel

分类：计算机视觉

2021-12-27

地面穿透雷达（GPR）已被用作树根检验的非破坏性工具。从GPR Radargrams估算从GPR Radargrams的与根系相关的参数都促进了根系健康监测和成像。然而，随着根反射是多根参数和根方向的复杂函数，估计根相关参数的任务是具有挑战性的。现有方法只能在不考虑其他参数和根取向的影响的时间内估计单根参数，导致不同根状况下的估计精度有限。此外，土壤异质性在GPR雷达格中引入了杂波，使数据处理和解释甚至更难。为了解决这些问题，提出了一种名为掩模引导的多偏振积分神经网络（MMI-Net）的新型神经网络架构，以自动估计异构土壤环境中的多个与多种根相关参数。 MMI-Net包括两个子网络：一个掩码，用于预测掩模以突出显示根反射区域以消除干扰环境杂波，以及使用预测掩码的Paranet作为集成，提取，并强调多个中的信息特征的指导Polariemetric radargrams，用于精确估计五个关键的根系相关参数。参数包括根深度，直径，相对介电常数，水平和垂直方向角。实验结果表明，所提出的MMI-Net在这些与相关参数中实现了高估计精度。这是第一项工作，它考虑了根参数和空间方向的组合贡献，并同时估计多个与多个与根相关的参数。本文中实现的数据和代码可以在https://haihan-sun.github.io/gpr.html中找到。

translated by 谷歌翻译

A Review of Indoor Millimeter Wave Device-based Localization and Device-free Sensing Technologies

Anish Shastri , Neharika Valecha , Enver Bashirov , Harsh Tataria , Michael Lentmaier , Fredrik Tufvesson , Michele Rossi , Paolo Casari

分类：机器学习

2021-12-10

低成本毫米波（MMWAVE）通信和雷达设备的商业可用性开始提高消费市场中这种技术的渗透，为第五代（5G）的大规模和致密的部署铺平了道路（5G） - 而且以及6G网络。同时，普遍存在MMWAVE访问将使设备定位和无设备的感测，以前所未有的精度，特别是对于Sub-6 GHz商业级设备。本文使用MMWAVE通信和雷达设备在基于设备的定位和无设备感应中进行了现有技术的调查，重点是室内部署。我们首先概述关于MMWAVE信号传播和系统设计的关键概念。然后，我们提供了MMWaves启用的本地化和感应方法和算法的详细说明。我们考虑了在我们的分析中的几个方面，包括每个工作的主要目标，技术和性能，每个研究是否达到了一定程度的实现，并且该硬件平台用于此目的。我们通过讨论消费者级设备的更好算法，密集部署的数据融合方法以及机器学习方法的受过教育应用是有前途，相关和及时的研究方向的结论。

translated by 谷歌翻译

Dim but not entirely dark: Extracting the Galactic Center Excess' source-count distribution with neural nets

Florian List , Nicholas L. Rodd , Geraint F. Lewis

分类：机器学习

2021-07-19

$ \ Texit {Fermi} $数据中的银河系中多余（GCE）的两个领先假设是一个未解决的微弱毫秒脉冲条件（MSP）和暗物质（DM）湮灭。这些解释之间的二分法通常通过将它们建模为两个单独的发射组分来反映。然而，诸如MSP的点源（PSS）在超微弱的极限中具有统计变质的泊松发射（正式的位置，预期每个来源平均贡献远低于一个光子），导致可能提出问题的歧义如排放是否是PS样或性质中的泊松人。我们提出了一种概念上的新方法，以统一的方式描述PS和泊松发射，并且刚刚从此获得的结果中获得了对泊松组件的约束。为了实现这种方法，我们利用深度学习技术，围绕基于神经网络的方法，用于直方图回归，其表达量数量的不确定性。我们证明我们的方法对许多困扰先前接近的系统，特别是DM / PS误操作来稳健。在$ \ texit {fermi} $数据中，我们发现由$ \ sim4 \ times 10 ^ {-11} \ \ text {counts} \ {counts} \ text {counts} \ text {counts} \ \ text {cm} ^ { - 2} \ \ text {s} ^ { - 1} $（对应于$ \ sim3 - 4 $每pL期望计数），这需要$ n \ sim \ mathcal {o}（ 10 ^ 4）$源来解释整个过剩（中位数价值$ n = \文本{29,300} $横跨天空）。虽然微弱，但这种SCD允许我们获得95％信心的Poissonian比赛的约束$ \ eta_p \ leq 66 \％$。这表明大量的GCE通量是由于PSS 。

translated by 谷歌翻译

Two Decades of Bengali Handwritten Digit Recognition: A Survey

A. B. M. Ashikur Rahman , Md. Bakhtiar Hasan , Sabbir Ahmed , Tasnim Ahmed , Md. Hamjajul Ashmafee , Mohammad Ridwan Kabir , Md. Hasanul Kabir

分类：计算机视觉

2022-06-05

手写数字识别（HDR）是光学特征识别（OCR）领域中最具挑战性的任务之一。不管语言如何，HDR都存在一些固有的挑战，这主要是由于个人跨个人的写作风格的变化，编写媒介和环境的变化，无法在反复编写任何数字等时保持相同的笔触。除此之外，特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来，研究人员开发了许多离线和在线HDR管道，其中不同的图像处理技术与传统的机器学习（ML）基于基于的和/或基于深度学习（DL）的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据，例如：英语，阿拉伯语，印度，法尔西，中文等，但几乎没有对孟加拉人HDR（BHDR）的调查，这缺乏对孟加拉语HDR（BHDR）的研究，而这些调查缺乏对孟加拉语HDR（BHDR）的研究。挑战，基础识别过程以及可能的未来方向。在本文中，已经分析了孟加拉语手写数字的特征和固有的歧义，以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外，还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编，煽动了对相关研究的新途径的探索，这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。

translated by 谷歌翻译

Neural Network Normal Estimation and Bathymetry Reconstruction from Sidescan Sonar

Yiping Xie , Nils Bore , John Folkesson

分类：机器人 | 人工智能

2022-06-15

侧扫声纳强度编码有关海床表面正常变化的信息。但是，其他因素（例如海底几何形状及其材料组成）也会影响回流强度。可以建模这些强度从向前方向上的变化从从测深图和物理特性到测量强度的表面正常的变化，或者可以使用逆模型，该模型从强度开始并模拟表面正常。在这里，我们使用一个逆模型，该模型利用深度学习能够从数据中学习的能力；卷积神经网络用于估计侧扫的正常表面。因此，海床的内部特性仅是隐式学习的。一旦估算了此信息，就可以通过优化框架重建测深图，该框架还包括高度计读数，以提供稀疏的深度轮廓作为约束。最近提出了隐式神经表示学习，以代表这种优化框架中的测深图。在本文中，我们使用神经网络来表示地图并在高度计点的约束和侧can的估计表面正常状态下进行优化。通过从几个侧扫线的不同角度融合多个观测值，通过优化改善了估计的结果。我们通过使用大型侧扫调查的侧扫数据重建高质量的测深，通过重建高质量的测深，证明了该方法的效率和可伸缩性。我们比较了提出的数据驱动的逆模型方法，该方法将侧扫形成前向兰伯特模型。我们通过将每个重建的质量与由多光束传感器构建的数据进行比较来评估它的质量。因此，我们能够讨论每种方法的优点和缺点。

translated by 谷歌翻译

EMC2A-Net: An Efficient Multibranch Cross-channel Attention Network for SAR Target Classification

Xiang Yu , Zhe Geng , Xiaohua Huang , Qinglu Wang , Daiyin Zhu

分类：计算机视觉

2022-08-03

近年来，卷积神经网络（CNN）在合成孔径雷达（SAR）目标识别方面表现出巨大的潜力。 SAR图像具有强烈的粒度感，并且具有不同的纹理特征，例如斑点噪声，目标优势散射器和目标轮廓，这些轮廓很少在传统的CNN模型中被考虑。本文提出了两个残留块，即具有多尺度接收场（RFS）的EMC2A块，基于多型结构，然后设计了有效的同位素体系结构深CNN（DCNN），EMC2A-net。 EMC2A阻止使用不同的扩张速率利用平行的扩张卷积，这可以有效地捕获多尺度上下文特征而不会显着增加计算负担。为了进一步提高多尺度功能融合的效率，本文提出了多尺度特征跨通道注意模块，即EMC2A模块，采用了局部的多尺度特征交互策略，而无需降低维度。该策略通过有效的一维（1D） - 圆形卷积和Sigmoid函数适应每个通道的权重，以指导全球通道明智的关注。 MSTAR数据集上的比较结果表明，EMC2A-NET优于相同类型的现有模型，并且具有相对轻巧的网络结构。消融实验结果表明，仅使用一些参数和适当的跨渠道相互作用，EMC2A模块可显着提高模型的性能。

translated by 谷歌翻译

Towards Practical Single-shot Phase Retrieval with Physics-Driven Deep Neural Network

Qiuliang Ye , Li-Wen Wang , Daniel Pak-Kong Lun

分类：人工智能 | 计算机视觉

2022-08-18

相位检索（PR）是从其仅限强度测量中恢复复杂值信号的长期挑战，由于其在数字成像中的广泛应用，引起了很大的关注。最近，开发了基于深度学习的方法，这些方法在单发PR中取得了成功。这些方法需要单个傅立叶强度测量，而无需对测量数据施加任何其他约束。然而，由于PR问题的输入和输出域之间存在很大的差异，香草深神经网络（DNN）并没有提供良好的性能。物理信息的方法试图将傅立叶强度测量结果纳入提高重建精度的迭代方法。但是，它需要一个冗长的计算过程，并且仍然无法保证准确性。此外，其中许多方法都在模拟数据上工作，这些数据忽略了一些常见问题，例如实用光学PR系统中的饱和度和量化错误。在本文中，提出了一种新型的物理驱动的多尺度DNN结构，称为PPRNET。与其他基于深度学习的PR方法类似，PPRNET仅需要一个傅立叶强度测量。物理驱动的是，网络被指导遵循不同尺度的傅立叶强度测量，以提高重建精度。 PPRNET具有前馈结构，可以端到端训练。因此，它比传统物理驱动的PR方法更快，更准确。进行了实用光学平台上的大量模拟和实验。结果证明了拟议的PPRNET比传统的基于基于学习的PR方法的优势和实用性。

translated by 谷歌翻译

ResDepth: A Deep Residual Prior For 3D Reconstruction From High-resolution Satellite Images

Corinne Stucker , Konrad Schindler

分类：计算机视觉

2021-06-15

现代光学卫星传感器使高分辨率立体声重建。但是在观察地球从空间推动立体声匹配时挑战成像条件。在实践中，由此产生的数字表面模型（DSM）相当嘈杂，并且通常不会达到3D城市建模等高分辨率应用所需的准确性。可以说，基于低电平图像相似性的立体声对应不足，并且应该互补关于超出基本局部平滑度的预期表面几何的先验知识。为此，我们介绍了Resptepth，这是一个卷积神经网络，其在示例数据之前学习如此表达几何。 Restepth在调节图像上的细化时改进初始原始的立体声DSM。即，它充当了一个智能，学习的后处理过滤器，可以无缝地补充任何立体声匹配管道。在一系列实验中，我们发现所提出的方法始终如一地改善了定量和定性的立体声DSM。我们表明，网络权重中的先前编码捕获了城市设计的有意义的几何特征，这也概括了不同地区，甚至从一个城市到另一个城市。此外，我们证明，通过对各种立体对的训练，RESPTH可以在成像条件和采集几何体中获得足够的不变性。

translated by 谷歌翻译

Learning Calibrated-Guidance for Object Detection in Aerial Images

Zongqi Wei , Dong Liang , Dong Zhang , Liyan Zhang , Qixiang Geng , Mingqiang Wei , Huiyu Zhou

分类：计算机视觉

2021-03-21

对象检测是计算机视觉领域中最基本而具有挑战性的研究主题之一。最近，在航拍图像中的这一主题的研究取得了巨大的进步。然而，复杂的背景和更糟糕的成像质量是空中物体检测中的明显问题。大多数最先进的方法倾向于开发具有艰巨计算复杂性的时空特征校准的精心关注机制，同时令人惊讶地忽略了通道中特征校准的重要性。在这项工作中，我们提出了一种简单而有效的校准引导（CG）方案，以增强特征变压器时尚中的信道通信，其可以基于全局特征亲和力相关性自适应地确定每个信道的校准权重。具体地，对于给定的一组特征映射，CG首先将每个信道和剩余信道之间的特征相似性计算为中间校准引导。然后，通过通过引导操作聚合加权加权的所有信道来重新表示每个信道。我们的CG是一般模块，可以插入任何深度神经网络，该网络被命名为CG-Net。为了展示其有效性和效率，在航空图像中的定向对象检测任务和水平物体检测任务中进行了广泛的实验。两个具有挑战性的基准（DotA和HRSC2016）的实验结果表明，我们的CG-Net可以通过公平计算开销的准确性实现新的最先进的性能。源代码已在https://github.com/weizongqi/cg-net中开放源

translated by 谷歌翻译

LDNet: End-to-End Lane Marking Detection Approach Using a Dynamic Vision Sensor

Farzeen Munir , Shoaib Azam , Moongu Jeon , Byung-Geun Lee , Witold Pedrycz

分类：计算机视觉

2020-09-17

现代车辆配备各种驾驶员辅助系统，包括自动车道保持，这防止了无意的车道偏离。传统车道检测方法采用了手工制作或基于深度的学习功能，然后使用基于帧的RGB摄像机进行通道提取的后处理技术。用于车道检测任务的帧的RGB摄像机的利用易于照明变化，太阳眩光和运动模糊，这限制了车道检测方法的性能。在自主驾驶中的感知堆栈中结合了一个事件摄像机，用于自动驾驶的感知堆栈是用于减轻基于帧的RGB摄像机遇到的挑战的最有希望的解决方案之一。这项工作的主要贡献是设计车道标记检测模型，它采用动态视觉传感器。本文探讨了使用事件摄像机通过设计卷积编码器后跟注意引导的解码器的新颖性应用了车道标记检测。编码特征的空间分辨率由致密的区域空间金字塔池（ASPP）块保持。解码器中的添加剂注意机制可提高促进车道本地化的高维输入编码特征的性能，并缓解后处理计算。使用DVS数据集进行通道提取（DET）的DVS数据集进行评估所提出的工作的功效。实验结果表明，多人和二进制车道标记检测任务中的5.54 \％$ 5.54 \％$ 5.54 \％$ 5.03 \％$ 5.03 \％$ 5.03。此外，在建议方法的联盟（$ iou $）分数上的交叉点将超越最佳最先进的方法，分别以6.50 \％$ 6.50 \％$ 6.5.37 \％$ 9.37 \％$ 。

translated by 谷歌翻译

Estimating Cardiac Tissue Conductivity from Electrograms with Fully Convolutional Networks

Konstantinos Ntagiantas , Eduardo Pignatelli , Nicholas S. Peters , Chris D. Cantwell , Rasheda A. Chowdhury , Anil A. Bharath

分类：机器学习

2022-12-06

Atrial Fibrillation (AF) is characterized by disorganised electrical activity in the atria and is known to be sustained by the presence of regions of fibrosis (scars) or functional cellular remodeling, both of which may lead to areas of slow conduction. Estimating the effective conductivity of the myocardium and identifying regions of abnormal propagation is therefore crucial for the effective treatment of AF. We hypothesise that the spatial distribution of tissue conductivity can be directly inferred from an array of concurrently acquired contact electrograms (EGMs). We generate a dataset of simulated cardiac AP propagation using randomised scar distributions and a phenomenological cardiac model and calculate contact electrograms at various positions on the field. A deep neural network, based on a modified U-net architecture, is trained to estimate the location of the scar and quantify conductivity of the tissue with a Jaccard index of $91$%. We adapt a wavelet-based surrogate testing analysis to confirm that the inferred conductivity distribution is an accurate representation of the ground truth input to the model. We find that the root mean square error (RMSE) between the ground truth and our predictions is significantly smaller ($p_{val}=0.007$) than the RMSE between the ground truth and surrogate samples.

translated by 谷歌翻译

Deep Depth Completion from Extremely Sparse Data: A Survey

Junjie Hu , Chenyu Bao , Mete Ozay , Chenyou Fan , Qing Gao , Honghai Liu , Tin Lun Lam

分类：计算机视觉

2022-05-11

深度完成旨在预测从深度传感器（例如Lidars）中捕获的极稀疏图的密集像素深度。它在各种应用中起着至关重要的作用，例如自动驾驶，3D重建，增强现实和机器人导航。基于深度学习的解决方案已经证明了这项任务的最新成功。在本文中，我们首次提供了全面的文献综述，可帮助读者更好地掌握研究趋势并清楚地了解当前的进步。我们通过通过对现有方法进行分类的新型分类法提出建议，研究网络体系结构，损失功能，基准数据集和学习策略的设计方面的相关研究。此外，我们在包括室内和室外数据集（包括室内和室外数据集）上进行了三个广泛使用基准测试的模型性能进行定量比较。最后，我们讨论了先前作品的挑战，并为读者提供一些有关未来研究方向的见解。

translated by 谷歌翻译

Country-wide Retrieval of Forest Structure From Optical and SAR Satellite Imagery With Bayesian Deep Learning

Alexander Becker , Stefania Russo , Stefano Puliti , Nico Lang , Konrad Schindler , Jan Dirk Wegner

分类：计算机视觉 | 机器学习

2021-11-25

以知情方式监测和管理地球林是解决生物多样性损失和气候变化等挑战的重要要求。虽然森林评估的传统或空中运动提供了在区域一级分析的准确数据，但将其扩展到整个国家，以外的高度分辨率几乎不可能。在这项工作中，我们提出了一种贝叶斯深度学习方法，以10米的分辨率为全国范围的森林结构变量，使用自由可用的卫星图像作为输入。我们的方法将Sentinel-2光学图像和Sentinel-1合成孔径雷达图像共同变换为五种不同的森林结构变量的地图：95th高度百分位，平均高度，密度，基尼系数和分数盖。我们从挪威的41个机载激光扫描任务中培训和测试我们的模型，并证明它能够概括取消测试区域，从而达到11％和15％之间的归一化平均值误差，具体取决于变量。我们的工作也是第一个提出贝叶斯深度学习方法的工作，以预测具有良好校准的不确定性估计的森林结构变量。这些提高了模型的可信度及其适用于需要可靠的信心估计的下游任务，例如知情决策。我们提出了一组广泛的实验，以验证预测地图的准确性以及预测的不确定性的质量。为了展示可扩展性，我们为五个森林结构变量提供挪威地图。

translated by 谷歌翻译

HyperNet: Self-Supervised Hyperspectral Spatial-Spectral Feature Understanding Network for Hyperspectral Change Detection

Meiqi Hu , Chen Wu , Liangpei Zhang

分类：计算机视觉

2022-07-20

自我监督学习的快速发展降低了从大量未标记的数据中的条形学习特征表示形式，并触发了一系列有关遥感图像的变更检测的研究。从自然图像分类到遥感图像的自我监督学习的挑战是从两个任务之间的差异引起的。对于像素级的精确更改检测，学习的补丁级特征表示不满意。在本文中，我们提出了一种新颖的像素级自我观察的高光谱空间传播理解网络（HyperNet），以完成像素的特征表示，以有效地进行高光谱变化检测。具体而言，不是斑块，而是整个图像被馈入网络，并且通过像素比较多个颞空间光谱特征。提出了一个强大的空间光谱注意模块，而不是处理二维成像空间和光谱响应维度，而是提出了一个强大的空间光谱注意模块，以探索分别分别的多个颞高光谱图像（HSIS）的空间相关性和判别光谱特征。仅创建并被迫对齐双期HSI的同一位置的正样品，旨在学习光谱差异不变的特征。此外，提出了一种新的相似性损失函数，以解决不平衡的简单和硬阳性样品比较的问题，其中这些硬样品的重量被扩大并突出显示以促进网络训练。已经采用了六个高光谱数据集来测试拟议的HyperNET的有效性和概括。广泛的实验表明，在下游高光谱变化检测任务上，HyperNET优于最先进的算法。

translated by 谷歌翻译

MDPose: Human Skeletal Motion Reconstruction Using WiFi Micro-Doppler Signatures

Chong Tang , Wenda Li , Shelly Vishwakarma , Fangzhan Shi , Simon Julier , Kevin Chetty

分类：计算机视觉

2022-01-11

基于光学传感器的运动跟踪系统通常遭受问题，例如差的照明条件，遮挡，有限的覆盖，并且可以提高隐私问题。最近，已经出现了使用商业WiFi设备的基于射频（RF）的方法，这些方法提供了低成本的普遍感感知，同时保留隐私。然而，RF感测系统的输出，例如范围多普勒谱图，不能直观地代表人类运动，并且通常需要进一步处理。在本研究中，提出了基于WiFi微多普勒签名的人类骨骼运动重建的新颖框架。它提供了一种有效的解决方案，通过重建具有17个关键点的骨架模型来跟踪人类活动，这可以帮助以更易于理解的方式解释传统的RF感测输出。具体地，MDPose具有各种增量阶段来逐渐地解决一系列挑战：首先，实现去噪算法以去除可能影响特征提取的任何不需要的噪声，并增强弱多普勒签名。其次，应用卷积神经网络（CNN）-Recurrent神经网络（RNN）架构用于从清洁微多普勒签名和恢复关键点的速度信息学习时间空间依赖性。最后，采用姿势优化机制来估计骨架的初始状态并限制误差的增加。我们在各种环境中使用了许多受试者进行了全面的测试，其中许多受试者具有单个接收器雷达系统，以展示MDPOST的性能，并在所有关键点位置报告29.4mm的绝对误差，这优于最先进的RF-基于姿势估计系统。

translated by 谷歌翻译

Advances in Multi-Variate Analysis Methods for New Physics Searches at the Large Hadron Collider

Anna Stakia , Tommaso Dorigo , Giovanni Banelli , Daniela Bortoletto , Alessandro Casa , Pablo de Castro , Christophe Delaere , Julien Donini , Livio Finos , Michele Gallinaro

分类：机器学习

2021-05-16

在2015年和2019年之间，地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”，研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用，并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人，仍然在测试阶段，承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中，在研究和开发的那些中，最相关的新工具以及对其性能的评估。

translated by 谷歌翻译

Overview of Deep Learning-based CSI Feedback in Massive MIMO Systems

Jiajia Guo , Chao-Kai Wen , Shi Jin , Geoffrey Ye Li

分类：机器学习

2022-06-29

通过大量多输入和多重输出实现的许多性能增长取决于发射机（基站）下链路通道状态信息（CSI）的准确性，这通常是通过在接收器（用户终端）估算并馈入的。到发射器。 CSI反馈的开销占据了大量的上行链路带宽资源，尤其是当传输天线数量较大时。基于深度学习（DL）的CSI反馈是指基于DL的自动编码器的CSI压缩和重建，并且可以大大减少反馈开销。在本文中，提供了有关该主题的最新研究的全面概述，首先是在CSI反馈中广泛使用的基本DL概念，然后对一些现有的基于DL的反馈作品进行分类和描述。重点是新型的神经网络体系结构和沟通专家知识的利用来提高CSI反馈准确性。还介绍了有关CSI反馈和CSI反馈与其他通信模块的联合设计的作品，并讨论了一些实际问题，包括培训数据集收集，在线培训，复杂性，概括和标准化效果。在本文的最后，确定了与未来无线通信系统中基于DL的CSI反馈相关的一些挑战和潜在的研究方向。

translated by 谷歌翻译

Computer Vision on X-ray Data in Industrial Production and Security Applications: A survey

Mehdi Rafiei , Jenni Raitoharju , Alexandros Iosifidis

分类：计算机视觉

2022-11-10

X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.

translated by 谷歌翻译

TriPINet: Tripartite Progressive Integration Network for Image Manipulation Localization

Wei-Yun Liang , Jing Xu , Xiao Jin

分类：计算机视觉

2022-12-25

Image manipulation localization aims at distinguishing forged regions from the whole test image. Although many outstanding prior arts have been proposed for this task, there are still two issues that need to be further studied: 1) how to fuse diverse types of features with forgery clues; 2) how to progressively integrate multistage features for better localization performance. In this paper, we propose a tripartite progressive integration network (TriPINet) for end-to-end image manipulation localization. First, we extract both visual perception information, e.g., RGB input images, and visual imperceptible features, e.g., frequency and noise traces for forensic feature learning. Second, we develop a guided cross-modality dual-attention (gCMDA) module to fuse different types of forged clues. Third, we design a set of progressive integration squeeze-and-excitation (PI-SE) modules to improve localization performance by appropriately incorporating multiscale features in the decoder. Extensive experiments are conducted to compare our method with state-of-the-art image forensics approaches. The proposed TriPINet obtains competitive results on several benchmark datasets.

translated by 谷歌翻译

Attention Mechanisms in Computer Vision: A Survey

Meng-Hao Guo , Tian-Xing Xu , Jiang-Jiang Liu , Zheng-Ning Liu , Peng-Tao Jiang , Tai-Jiang Mu , Song-Hai Zhang , Ralph R. Martin , Ming-Ming Cheng , Shi-Min Hu

分类：计算机视觉

2021-11-15

人类自然有效地在复杂的场景中找到突出区域。通过这种观察的动机，引入了计算机视觉中的注意力机制，目的是模仿人类视觉系统的这一方面。这种注意机制可以基于输入图像的特征被视为动态权重调整过程。注意机制在许多视觉任务中取得了巨大的成功，包括图像分类，对象检测，语义分割，视频理解，图像生成，3D视觉，多模态任务和自我监督的学习。在本调查中，我们对计算机愿景中的各种关注机制进行了全面的审查，并根据渠道注意，空间关注，暂时关注和分支注意力进行分类。相关的存储库https：//github.com/menghaoguo/awesome-vision-tions致力于收集相关的工作。我们还建议了未来的注意机制研究方向。

translated by 谷歌翻译