智能论文笔记

Computational Complexity of Sub-linear Convergent Algorithms

Hilal AlQuabeh , Farha AlBreiki

分类：机器学习

2022-09-29

优化用于解决目标函数的机器学习算法引起了极大的兴趣。探索了优化常见算法的几种方法，例如梯度下降和随机梯度下降。这些方法之一是通过自适应采样来降低梯度方差，以解决大规模优化的经验风险最小化（ERM）问题。在本文中，我们将探讨如何从少量样本开始，然后几何增加它并使用先前样品ERM的解决方案来计算新的ERM。这将解决sublinear收敛的一阶优化算法，但计算复杂性较低。本文从该方法的理论证明开始，然后进行了两个实验，将梯度下降与梯度下降的自适应采样和ADAM进行了比较，并在不同数据集上使用自适应采样ADAM进行了比较。

translated by 谷歌翻译

Self-supervised Learning for Unintentional Action Prediction

Olga Zatsarynna , Yazan Abu Farha , Juergen Gall

分类：计算机视觉

2022-09-24

区分动作是按预期执行的，还是预期的动作失败是人类不仅具有的重要技能，而且对于在人类环境中运行的智能系统也很重要。但是，由于缺乏带注释的数据，认识到一项行动是无意的还是预期的，是否会失败。尽管可以在互联网中发现无意或失败动作的视频，但高注释成本是学习网络的主要瓶颈。因此，在这项工作中，我们研究了对无意采取行动预测的自学代表学习的问题。虽然先前的作品学习基于本地时间社区的表示形式，但我们表明需要视频的全局上下文来学习三个下游任务的良好表示：无意的动作分类，本地化和预期。在补充材料中，我们表明学习的表示形式也可用于检测视频中的异常情况。

translated by 谷歌翻译

Efficient Utility Function Learning for Multi-Objective Parameter Optimization with Prior Knowledge

Farha A. Khan , Jörg P. Dietrich , Christian Wirth

分类：机器学习 | 人工智能

2022-08-22

多目标优化中的当前最新技术假设具有给定的效用函数，可以交互性地学习效用函数或试图确定完整的帕累托前部，需要对首选结果进行后启发。但是，现实世界中的问题的结果通常是基于隐式和明确的专家知识，因此很难定义效用功能，而交互式学习或启发后需要重复且昂贵的专家参与。为了减轻这种情况，我们使用偏好学习的专家知识来离线学习实用功能。与其他作品相比，我们不仅使用（成对）结果偏好，而且还使用有关实用程序功能空间的粗略信息。这使我们能够改善效用函数估计，尤其是在使用很少的结果时。此外，我们对实用程序功能学习任务中发生的不确定性进行建模，并通过整个优化链传播它们。我们学习公用事业功能的方法消除了重复专家参与的需求，同时仍导致高质量的结果。我们显示了在4个域中提出的方法的样本效率和质量提高，尤其是在替代效用函数无法精确捕获真正的专家效用函数的情况下。我们还表明，要获得良好的结果，重要的是要考虑诱发的不确定性并分析偏置样本的效果，这在现实世界中是一个常见的问题。

translated by 谷歌翻译

On the Robustness of 3D Object Detectors

Fatima Albreiki , Sultan Abughazal , Jean Lahoud , Rao Anwer , Hisham Cholakkal , Fahad Khan

分类：计算机视觉 | 机器学习

2022-07-20

近年来，由于3D数据收集和深度学习技术的进步，对点云的3D对象检测已取得了重大进展。然而，3D场景表现出很多变化，并且容易出现传感器的不准确性以及预处理过程中的信息丢失。因此，对于针对这些变化的设计技术至关重要。这需要详细的分析和理解此类变化的影响。这项工作旨在分析和基准基于流行的基于点的3D对象检测器，以针对几个数据损坏。据我们所知，我们是第一个研究基于点的3D对象探测器的鲁棒性的人。为此，我们设计和评估涉及数据添加，减少和更改的损坏。我们进一步研究了不同模块对局部和全球变化的鲁棒性。我们的实验结果揭示了一些有趣的发现。例如，与在点级别上使用变压器相比，我们表明在补丁或对象级别集成变压器的方法会增加鲁棒性。

translated by 谷歌翻译

MS-TCN: Multi-Stage Temporal Convolutional Network for Action Segmentation

Yazan Abu Farha , Juergen Gall

分类：

2019-03-05

Temporally locating and classifying action segments in long untrimmed videos is of particular interest to many applications like surveillance and robotics. While traditional approaches follow a two-step pipeline, by generating framewise probabilities and then feeding them to high-level temporal models, recent approaches use temporal convolutions to directly classify the video frames. In this paper, we introduce a multi-stage architecture for the temporal action segmentation task. Each stage features a set of dilated temporal convolutions to generate an initial prediction that is refined by the next one. This architecture is trained using a combination of a classification loss and a proposed smoothing loss that penalizes over-segmentation errors. Extensive evaluation shows the effectiveness of the proposed model in capturing long-range dependencies and recognizing action segments. Our model achieves state-of-the-art results on three challenging datasets: 50Salads, Georgia Tech Egocentric Activities (GTEA), and the Breakfast dataset.

translated by 谷歌翻译