智能论文笔记

Crowd Counting on Heavily Compressed Images with Curriculum Pre-Training

Arian Bakhtiarnia , Qi Zhang , Alexandros Iosifidis

分类：计算机视觉

2022-08-15

JPEG图像压缩算法是一种广泛使用的技术，用于降低边缘和云计算设置。但是，将这种有损压缩应用于深神网络处理的图像上，可能会导致明显的准确性降解。受课程学习范式的启发，我们提出了一种新颖的培训方法，称为课程预训练（CPT），用于人群计数压缩图像，这减轻了由于有损压缩而导致的准确性下降。我们通过对三个人群计数数据集的大量实验，两个人群计数DNN模型和各种压缩级别来验证方法的有效性。我们提出的训练方法对超参数并不过于敏感，并减少了误差，尤其是对于重压图像，最高为19.70％。

translated by 谷歌翻译

Efficient High-Resolution Deep Learning: A Survey

Arian Bakhtiarnia , Qi Zhang , Alexandros Iosifidis

分类：计算机视觉

2022-07-26

现代设备（例如智能手机，卫星和医疗设备）中的摄像机能够捕获非常高分辨率的图像和视频。这种高分辨率数据通常需要通过深度学习模型来处理癌症检测，自动化道路导航，天气预测，监视，优化农业过程和许多其他应用。使用高分辨率的图像和视频作为深度学习模型的直接输入，由于其参数数量大，计算成本，推理延迟和GPU内存消耗而造成了许多挑战。简单的方法（例如将图像调整为较低的分辨率大小）在文献中很常见，但是它们通常会显着降低准确性。文献中的几项作品提出了更好的替代方案，以应对高分辨率数据的挑战并提高准确性和速度，同时遵守硬件限制和时间限制。这项调查描述了这种高效的高分辨率深度学习方法，总结了高分辨率深度学习的现实应用程序，并提供了有关可用高分辨率数据集的全面信息。

translated by 谷歌翻译

Analysis of the Effect of Low-Overhead Lossy Image Compression on the Performance of Visual Crowd Counting for Smart City Applications

Arian Bakhtiarnia , Błażej Leporowski , Lukas Esterle , Alexandros Iosifidis

分类：计算机视觉

2022-07-20

在整个智能城市中放置的相机捕获的相机捕获的图像和视频帧通常会通过网络传输到服务器，以通过深层神经网络处理各种任务。原始图像的传输，即没有任何形式的压缩，需要高带宽，并可能导致拥堵问题和传输延迟。使用有损图像压缩技术的使用可以降低图像的质量，从而导致准确性降解。在本文中，我们分析了应用低空损耗的图像压缩方法对视觉人群计数准确性的影响，并测量带宽降低和获得的准确性之间的权衡。

translated by 谷歌翻译

Dynamic Split Computing for Efficient Deep Edge Intelligence

Arian Bakhtiarnia , Nemanja Milošević , Qi Zhang , Dragana Bajović , Alexandros Iosifidis

分类：计算机视觉

2022-05-23

由于其计算资源有限，在物联网和移动设备上部署深层神经网络（DNN）是一项艰巨的任务。因此，苛刻的任务通常完全被卸载到可以加速推理的边缘服务器上，但是，这也会导致沟通成本并唤起隐私问题。此外，这种方法使端设备的计算能力未使用。拆分计算是一个范式，其中DNN分为两个部分。第一部分是在终点设备上执行的，并且输出将传输到执行最终部分的边缘服务器。在这里，我们介绍动态拆分计算，其中最佳拆分位置是根据通信通道的状态动态选择的。通过使用现代DNN体系结构中已经存在的天然瓶颈，动态拆分计算避免了再培训和超参数优化，并且对DNN的最终准确性没有任何负面影响。通过广泛的实验，我们表明动态拆分计算在数据速率和服务器负载随时间变化的边缘计算环境中的推断速度更快。

translated by 谷歌翻译

Continual Transformers: Redundancy-Free Attention for Online Inference

Lukas Hedegaard , Arian Bakhtiarnia , Alexandros Iosifidis

分类：人工智能 | 计算机视觉

2022-01-17

Transformers in their common form are inherently limited to operate on whole token sequences rather than on one token at a time. Consequently, their use during online inference on time-series data entails considerable redundancy due to the overlap in successive token sequences. In this work, we propose novel formulations of the Scaled Dot-Product Attention, which enable Transformers to perform efficient online token-by-token inference on a continual input stream. Importantly, our modifications are purely to the order of computations, while the outputs and learned weights are identical to those of the original Transformer Encoder. We validate our Continual Transformer Encoder with experiments on the THUMOS14, TVSeries and GTZAN datasets with remarkable results: Our Continual one- and two-block architectures reduce the floating point operations per prediction by up to 63x and 2.6x, respectively, while retaining predictive performance.

translated by 谷歌翻译

Single-Layer Vision Transformers for More Accurate Early Exits with Less Overhead

Arian Bakhtiarnia , Qi Zhang , Alexandros Iosifidis

分类：机器学习 | 计算机视觉

2021-05-19

将深度学习模型部署在具有有限计算资源的时间关键性应用程序中，例如在边缘计算系统和IoT网络中，是一项具有挑战性的任务，通常依赖于动态推理方法（例如早期退出）。在本文中，我们介绍了一种基于视觉变压器体系结构的新型架构，用于早期退出，以及一种微调策略，该策略与传统方法相比，在引入较少的开销的同时，显着提高了早期出口分支的准确性。通过有关图像和音频分类以及视听人群计数的广泛实验，我们表明我们的方法在分类和回归问题以及单模式设置中都适用于分类和回归问题。此外，我们引入了一种新颖的方法，用于在视听数据分析的早期出口中整合音频和视觉方式，这可能导致更细粒度的动态推断。

translated by 谷歌翻译

Efficient Pix2Vox++ for 3D Cardiac Reconstruction from 2D echo views

David Stojanovski , Uxio Hermida , Marica Muffoletto , Pablo Lamata , Arian Beqiri , Alberto Gomez

分类：人工智能 | 计算机视觉

2022-07-27

人心脏的准确几何定量是诊断多种心脏疾病的关键步骤，以及心脏患者的治疗。超声成像是心脏成像的主要方式，但是采集需要高操作员的技能，由于工件，其解释和分析很困难。在3D中重建心脏解剖结构可以使发现新的生物标志物，并使成像降低对操作员专业知识的依赖，但是大多数超声系统仅具有2D成像功能。我们提出了对PIX2VOX ++网络的简单变化，以大大降低存储器使用和计算复杂性，以及从2D标准心脏视图中对3D解剖结构进行重建的管道，从而有效地从有限的2D数据中启用了3D解剖学重建。我们使用合成生成的数据来评估管道，从而从只有两个标准的解剖学2D视图中获得准确的3D全心重建（峰值相交> 0.88）。我们还使用真实的回声图像显示了初步结果。

translated by 谷歌翻译

ML-Based Approach for NFL Defensive Pass Interference Prediction Using GPS Tracking Data

Arian Skoki , Jonatan Lerga , Ivan Štajduhar

分类：机器学习 | 人工智能

2022-06-24

防御性通行干扰（DPI）是NFL中最有影响力的处罚之一。 DPI是一个犯规的犯规，首先是自动的，该团队拥有。有了对游戏的影响，裁判没有犯错的余地。这也是一个非常罕见的事件，每100次通行证尝试发生1-2次。随着技术的改进，将许多物联网可穿戴设备放在运动员那里以收集有价值的数据，因此，应用机器学习（ML）技术有一个坚实的基础来改善游戏的各个方面。这里介绍的工作是使用播放器跟踪GPS数据预测DPI的首次尝试。在2018年常规赛中，NFL的下一个Gen Stats收集了我们使用的数据。我们提出了高度不平衡时间序列分类的ML模型：LSTM，GRU，ANN和多元LSTM-FCN。结果表明，使用GPS跟踪数据预测DPI的成功有限。最佳性能模型的召回率很高，因此导致许多假阳性示例的分类。仔细观察数据证实，没有足够的信息来确定是否犯规。这项研究可能是用于视频序列分类的多步管道的过滤器，可以解决此问题。

translated by 谷歌翻译

The Role of Depth, Width, and Activation Complexity in the Number of Linear Regions of Neural Networks

Alexis Goujon , Arian Etemadi , Michael Unser

分类：机器学习 | (统计)机器学习

2022-06-17

许多前馈神经网络会产生连续和分段线性（CPWL）映射。具体而言，它们将输入域分配给映射为仿射函数的区域。这些所谓的线性区域的数量提供了自然度量标准，可以表征CPWL映射的表现力。尽管该数量的精确确定通常是无法触及的，但已经针对包括众所周知的Relu和Maxout网络提出了界限。在这项工作中，我们提出了一个更一般的观点，并基于三种表达能力来源：深度，宽度和激活复杂性，就CPWL网络的最大线性区域数量提供精确的界限。我们的估计依赖于凸形分区的组合结构，并突出了深度的独特作用，该作用本身能够呈指数级增加区域数量。然后，我们引入了一个互补的随机框架，以估计CPWL网络体系结构产生的线性区域的平均数量。在合理的假设下，沿任何一维路径的线性区域的预期密度都受深度，宽度和激活复杂度度量（最高缩放系数）的量的限制。这对三种表达能力产生了相同的作用：不再观察到深度的指数增长。

translated by 谷歌翻译

CRISP - Reliable Uncertainty Estimation for Medical Image Segmentation

Thierry Judge , Olivier Bernard , Mihaela Porumb , Agis Chartsias , Arian Beqiri , Pierre-Marc Jodoin

分类：计算机视觉

2022-06-15

准确的不确定性估计是医学成像社区的关键需求。已经提出了多种方法，所有直接扩展分类不确定性估计技术。独立像素的不确定性估计通常基于神经网络的概率解释，不考虑解剖学的先验知识，因此为许多细分任务提供了次优的结果。因此，我们提出了不确定性预测方法的酥脆图像分割。 Crisp以其核心实现了一种对比的方法来学习一个共同的潜在空间，该方法编码有效分割及其相应图像的分布。我们使用此联合潜在空间将预测与数千个潜在矢量进行比较，并提供解剖学上一致的不确定性图。在涉及不同方式和器官的四个医学图像数据库上进行的综合研究强调了我们方法的优势与最先进的方法相比。

translated by 谷歌翻译