智能论文笔记

Airport Taxi Time Prediction and Alerting: A Convolutional Neural Network Approach

Erik Vargo , Alex Tien , Arian Jafari

分类：机器学习 | 人工智能

2021-11-17

本文提出了一种新的方法来预测，并确定机场的平均出租时间是否超过下一小时运营中的预定阈值。该领域的事先工作专注于预测飞行的飞行基础上的出租车，这需要大量努力和关于从大门到跑道建模出租车活动的数据。直接从表面雷达信息学习，加工最小，提出了一种基于计算机视觉的模型，以便隐式地利用适应特定信息（例如，跑道配置，滑行过程中的飞机状态）的方式结合了机场表面数据并自动由人工智能（AI）。

translated by 谷歌翻译

Continuation KD: Improved Knowledge Distillation through the Lens of Continuation Optimization

Aref Jafari , Ivan Kobyzev , Mehdi Rezagholizadeh , Pascal Poupart , Ali Ghodsi

分类：机器学习 | 自然语言处理

2022-12-12

Knowledge Distillation (KD) has been extensively used for natural language understanding (NLU) tasks to improve a small model's (a student) generalization by transferring the knowledge from a larger model (a teacher). Although KD methods achieve state-of-the-art performance in numerous settings, they suffer from several problems limiting their performance. It is shown in the literature that the capacity gap between the teacher and the student networks can make KD ineffective. Additionally, existing KD techniques do not mitigate the noise in the teacher's output: modeling the noisy behaviour of the teacher can distract the student from learning more useful features. We propose a new KD method that addresses these problems and facilitates the training compared to previous techniques. Inspired by continuation optimization, we design a training procedure that optimizes the highly non-convex KD objective by starting with the smoothed version of this objective and making it more complex as the training proceeds. Our method (Continuation-KD) achieves state-of-the-art performance across various compact architectures on NLU (GLUE benchmark) and computer vision tasks (CIFAR-10 and CIFAR-100).

translated by 谷歌翻译

Driving Safety Prediction and Safe Route Mapping Using In-vehicle and Roadside Data

Yufei Huang , Mohsen Jafari , Peter Jin

分类：机器学习

2022-09-12

通常根据历史崩溃数据来实践道路的风险评估。有时缺少有关驾驶员行为和实时交通情况的信息。在本文中，安全的路线映射（SRM）模型是一种开发道路动态风险热图的方法，可扩展在做出预测时考虑驾驶员行为。 Android应用程序旨在收集驱动程序的信息并将其上传到服务器。在服务器上，面部识别提取了驱动程序的数据，例如面部地标，凝视方向和情绪。检测到驾驶员的嗜睡和分心，并评估驾驶性能。同时，动态的流量信息由路边摄像头捕获并上传到同一服务器。采用基于纵向扫描的动脉交通视频分析来识别视频中的车辆以建立速度和轨迹概况。基于这些数据，引入了LightGBM模型，以预测接下来一两秒钟的驾驶员的冲突指数。然后，使用模糊逻辑模型合并了多个数据源，包括历史崩溃计数和预测的交通冲突指标，以计算道路细分的风险评分。使用从实际的交通交叉点和驾驶模拟平台收集的数据来说明所提出的SRM模型。预测结果表明该模型是准确的，并且增加的驱动程序行为功能将改善模型的性能。最后，为可视化目的而生成风险热图。当局可以使用动态热图来指定安全的走廊，并调度执法部门以及驱动程序，以预警和行程计划。

translated by 谷歌翻译

Automated Temporal Segmentation of Orofacial Assessment Videos

Saeid Alavi Naeini , Leif Simmatis , Deniz Jafari , Diego L. Guarin , Yana Yunusova , Babak Taati

分类：计算机视觉

2022-08-22

计算机视觉技术可以帮助自动化或部分自动化口面损伤的临床检查，以提供准确和客观的评估。为了开发此类自动化系统，我们评估了两种在口面评估视频中检测和时间分段（分析）重复的方法。从多伦多神经曲面数据集获得了患有肌萎缩性侧索硬化症（ALS）和健康对照（HC）个体的参与者的录制视频。检查了两种重复检测和解析方法：一种基于轨迹地标的工程特征和上嘴唇和下唇的朱红色 - 二连交界之间的距离（基线分析）的峰值检测（基线分析），另一种是使用预训练的变压器 - 基于repnet的基于深度学习模型（Dwibedi等，2020），该模型自动检测周期性，并在视频数据中解析周期性和半周期重复。在对两项口面评估任务的实验评估中 - 重复最大的口腔张开（打开）并重复“购买Bobby a Puppy”（BBP）（BBP） - repnet提供了比基于具有里程碑意义的方法更好的解析，并通过较高的平均相交量化的方法来量化。联合（IOU）关于地面真理手动解析。使用Repnet自动解析还根据BBP重复的持续时间清楚地分离了HC和ALS参与者，而基于里程碑的方法则不能。

translated by 谷歌翻译

Crowd Counting on Heavily Compressed Images with Curriculum Pre-Training

Arian Bakhtiarnia , Qi Zhang , Alexandros Iosifidis

分类：计算机视觉

2022-08-15

JPEG图像压缩算法是一种广泛使用的技术，用于降低边缘和云计算设置。但是，将这种有损压缩应用于深神网络处理的图像上，可能会导致明显的准确性降解。受课程学习范式的启发，我们提出了一种新颖的培训方法，称为课程预训练（CPT），用于人群计数压缩图像，这减轻了由于有损压缩而导致的准确性下降。我们通过对三个人群计数数据集的大量实验，两个人群计数DNN模型和各种压缩级别来验证方法的有效性。我们提出的训练方法对超参数并不过于敏感，并减少了误差，尤其是对于重压图像，最高为19.70％。

translated by 谷歌翻译

Multi-Stage NMPC for a MAV based Collision Free Navigation under Varying Communication Delays

Andreas Papadimitriou , Hedyeh Jafari , Sina Sharif Mansouri , George Nikolakopoulos

分类：机器人

2022-08-07

通信网络中的时间延迟是通过边缘部署机器人的主要关注点之一。本文提出了一个多阶段的非线性模型预测控制（NMPC），该控制能够处理不同的网络引起的时间延迟，以建立控制框架，以确保无碰撞的无碰撞微型航空车（MAVS）导航。这项研究介绍了一种新颖的方法，该方法通过与现有的典型多阶段NMPC相反的离散化场景树来考虑不同的采样时间，在这种情况下，系统不确定性是由场景树建模的。此外，该方法根据通信链接中时间延迟的概率考虑了多阶段NMPC方案的自适应权重。由于多阶段NMPC，获得的最佳控制动作对于多个采样时间有效。最后，在各种测试和不同的模拟环境中证明了所提出的新型控制框架的总体有效性。

translated by 谷歌翻译

Efficient Pix2Vox++ for 3D Cardiac Reconstruction from 2D echo views

David Stojanovski , Uxio Hermida , Marica Muffoletto , Pablo Lamata , Arian Beqiri , Alberto Gomez

分类：人工智能 | 计算机视觉

2022-07-27

人心脏的准确几何定量是诊断多种心脏疾病的关键步骤，以及心脏患者的治疗。超声成像是心脏成像的主要方式，但是采集需要高操作员的技能，由于工件，其解释和分析很困难。在3D中重建心脏解剖结构可以使发现新的生物标志物，并使成像降低对操作员专业知识的依赖，但是大多数超声系统仅具有2D成像功能。我们提出了对PIX2VOX ++网络的简单变化，以大大降低存储器使用和计算复杂性，以及从2D标准心脏视图中对3D解剖结构进行重建的管道，从而有效地从有限的2D数据中启用了3D解剖学重建。我们使用合成生成的数据来评估管道，从而从只有两个标准的解剖学2D视图中获得准确的3D全心重建（峰值相交> 0.88）。我们还使用真实的回声图像显示了初步结果。

translated by 谷歌翻译

Efficient High-Resolution Deep Learning: A Survey

Arian Bakhtiarnia , Qi Zhang , Alexandros Iosifidis

分类：计算机视觉

2022-07-26

现代设备（例如智能手机，卫星和医疗设备）中的摄像机能够捕获非常高分辨率的图像和视频。这种高分辨率数据通常需要通过深度学习模型来处理癌症检测，自动化道路导航，天气预测，监视，优化农业过程和许多其他应用。使用高分辨率的图像和视频作为深度学习模型的直接输入，由于其参数数量大，计算成本，推理延迟和GPU内存消耗而造成了许多挑战。简单的方法（例如将图像调整为较低的分辨率大小）在文献中很常见，但是它们通常会显着降低准确性。文献中的几项作品提出了更好的替代方案，以应对高分辨率数据的挑战并提高准确性和速度，同时遵守硬件限制和时间限制。这项调查描述了这种高效的高分辨率深度学习方法，总结了高分辨率深度学习的现实应用程序，并提供了有关可用高分辨率数据集的全面信息。

translated by 谷歌翻译

Analysis of the Effect of Low-Overhead Lossy Image Compression on the Performance of Visual Crowd Counting for Smart City Applications

Arian Bakhtiarnia , Błażej Leporowski , Lukas Esterle , Alexandros Iosifidis

分类：计算机视觉

2022-07-20

在整个智能城市中放置的相机捕获的相机捕获的图像和视频帧通常会通过网络传输到服务器，以通过深层神经网络处理各种任务。原始图像的传输，即没有任何形式的压缩，需要高带宽，并可能导致拥堵问题和传输延迟。使用有损图像压缩技术的使用可以降低图像的质量，从而导致准确性降解。在本文中，我们分析了应用低空损耗的图像压缩方法对视觉人群计数准确性的影响，并测量带宽降低和获得的准确性之间的权衡。

translated by 谷歌翻译

ML-Based Approach for NFL Defensive Pass Interference Prediction Using GPS Tracking Data

Arian Skoki , Jonatan Lerga , Ivan Štajduhar

分类：机器学习 | 人工智能

2022-06-24

防御性通行干扰（DPI）是NFL中最有影响力的处罚之一。 DPI是一个犯规的犯规，首先是自动的，该团队拥有。有了对游戏的影响，裁判没有犯错的余地。这也是一个非常罕见的事件，每100次通行证尝试发生1-2次。随着技术的改进，将许多物联网可穿戴设备放在运动员那里以收集有价值的数据，因此，应用机器学习（ML）技术有一个坚实的基础来改善游戏的各个方面。这里介绍的工作是使用播放器跟踪GPS数据预测DPI的首次尝试。在2018年常规赛中，NFL的下一个Gen Stats收集了我们使用的数据。我们提出了高度不平衡时间序列分类的ML模型：LSTM，GRU，ANN和多元LSTM-FCN。结果表明，使用GPS跟踪数据预测DPI的成功有限。最佳性能模型的召回率很高，因此导致许多假阳性示例的分类。仔细观察数据证实，没有足够的信息来确定是否犯规。这项研究可能是用于视频序列分类的多步管道的过滤器，可以解决此问题。

translated by 谷歌翻译