整体场景的理解对于自动机器的性能至关重要。在本文中,我们提出了一个新的端到端模型,用于共同执行语义细分和深度完成。最近的绝大多数方法已发展为独立任务的语义细分和深度完成。我们的方法取决于RGB和稀疏深度作为我们模型的输入,并产生密集的深度图和相应的语义分割图像。它由特征提取器,深度完成分支,语义分割分支和联合分支组成,该分支进一步处理语义和深度信息。在Virtual Kitti 2数据集上进行的实验,证明并提供了进一步的证据,即在多任务网络中将两个任务,语义细分和深度完成都结合在一起,可以有效地提高每个任务的性能。代码可从https://github.com/juanb09111/smantic Depth获得。
translated by 谷歌翻译
Understanding 3D environments semantically is pivotal in autonomous driving applications where multiple computer vision tasks are involved. Multi-task models provide different types of outputs for a given scene, yielding a more holistic representation while keeping the computational cost low. We propose a multi-task model for panoptic segmentation and depth completion using RGB images and sparse depth maps. Our model successfully predicts fully dense depth maps and performs semantic segmentation, instance segmentation, and panoptic segmentation for every input frame. Extensive experiments were done on the Virtual KITTI 2 dataset and we demonstrate that our model solves multiple tasks, without a significant increase in computational cost, while keeping high accuracy performance. Code is available at https://github.com/juanb09111/PanDepth.git
translated by 谷歌翻译
Most benchmarks for studying surgical interventions focus on a specific challenge instead of leveraging the intrinsic complementarity among different tasks. In this work, we present a new experimental framework towards holistic surgical scene understanding. First, we introduce the Phase, Step, Instrument, and Atomic Visual Action recognition (PSI-AVA) Dataset. PSI-AVA includes annotations for both long-term (Phase and Step recognition) and short-term reasoning (Instrument detection and novel Atomic Action recognition) in robot-assisted radical prostatectomy videos. Second, we present Transformers for Action, Phase, Instrument, and steps Recognition (TAPIR) as a strong baseline for surgical scene understanding. TAPIR leverages our dataset's multi-level annotations as it benefits from the learned representation on the instrument detection task to improve its classification capacity. Our experimental results in both PSI-AVA and other publicly available databases demonstrate the adequacy of our framework to spur future research on holistic surgical scene understanding.
translated by 谷歌翻译
Predictive monitoring is a subfield of process mining that aims to predict how a running case will unfold in the future. One of its main challenges is forecasting the sequence of activities that will occur from a given point in time -- suffix prediction -- . Most approaches to the suffix prediction problem learn to predict the suffix by learning how to predict the next activity only, not learning from the whole suffix during the training phase. This paper proposes a novel architecture based on an encoder-decoder model with an attention mechanism that decouples the representation learning of the prefixes from the inference phase, predicting only the activities of the suffix. During the inference phase, this architecture is extended with a heuristic search algorithm that improves the selection of the activity for each index of the suffix. Our approach has been tested using 12 public event logs against 6 different state-of-the-art proposals, showing that it significantly outperforms these proposals.
translated by 谷歌翻译
社会互动网络是建立文明的基材。通常,我们与我们喜欢的人建立新的纽带,或者认为通过第三方的干预,我们的关系损害了。尽管它们的重要性和这些过程对我们的生活产生的巨大影响,但对它们的定量科学理解仍处于起步阶段,这主要是由于很难收集大量的社交网络数据集,包括个人属性。在这项工作中,我们对13所学校的真实社交网络进行了彻底的研究,其中3,000多名学生和60,000名宣布正面关系和负面关系,包括对所有学生的个人特征的测试。我们引入了一个度量标准 - “三合会影响”,该指标衡量了最近的邻居在其接触关系中的影响。我们使用神经网络来预测关系,并根据他们的个人属性或三合会的影响来提取两个学生是朋友或敌人的可能性。或者,我们可以使用网络结构的高维嵌入来预测关系。值得注意的是,三合会影响(一个简单的一维度量)在预测两个学生之间的关系方面达到了最高的准确性。我们假设从神经网络中提取的概率 - 三合会影响的功能和学生的个性 - 控制真实社交网络的演变,为这些系统的定量研究开辟了新的途径。
translated by 谷歌翻译
几项作品已经研究了主观文本,因为它们可以在用户中引起某些行为。大多数工作都集中在社交网络中的用户生成的文本上,但是其他一些文本也包括对某些主题的观点,可能会影响政治决策期间的判断标准。在这项工作中,我们解决了针对新闻头条领域的有针对性情绪分析的任务,该领域由主要渠道在2019年阿根廷总统大选期间发布。为此,我们介绍了1,976个头条新闻的极性数据集,该数据集在2019年选举中以目标级别提及候选人。基于预训练的语言模型的最先进的分类算法的初步实验表明,目标信息有助于此任务。我们公开提供数据和预培训模型。
translated by 谷歌翻译
有必要开发负担得起且可靠的诊断工具,该工具允许包含COVID-19的扩散。已经提出了机器学习(ML)算法来设计支持决策系统以评估胸部X射线图像,事实证明,这些图像可用于检测和评估疾病进展。许多研究文章围绕此主题发表,这使得很难确定未来工作的最佳方法。本文介绍了使用胸部X射线图像应用于COVID-19检测的ML的系统综述,旨在就方法,体系结构,数据库和当前局限性为研究人员提供基线。
translated by 谷歌翻译
大多数机器学习(ML)方法假设训练阶段使用的数据来自目标人群。但是,实际上,一个经常会面对数据集偏移,如果考虑到未正确考虑的话,可能会降低ML模型的预测性能。通常,如果从业人员知道正在发生哪种轮班类型(例如,协变量转移或标签转移),他们可能会采用转移学习方法来获得更好的预测。不幸的是,当前用于检测移位的方法仅设计用于检测特定类型的偏移或无法正式测试其存在。我们介绍了一个一般和统一的框架,该框架通过检测不同类型的变化和量化它们的强度来提供有关如何改善预测方法的见解。我们的方法可用于任何数据类型(表格/图像/文本)以及分类和回归任务。此外,它使用正式的假设测试来控制虚假警报。我们说明了我们的框架在实践中使用人工和真实数据集的实践有用,包括一个示例,说明了我们的框架如何导致洞察力确实可以提高监督模型的预测能力。我们用于数据集偏移检测的软件包可以在https://github.com/felipemaiapolo/detectshift中找到。
translated by 谷歌翻译
涉及环境声音分析的音频应用越来越多地使用通用音频表示(也称为嵌入)进行转移学习。最近,对音频表示形式(HEAR)的整体评估评估了关于19个不同任务的29个嵌入模型。但是,评估的有效性取决于给定数据集中已经捕获的变化。因此,对于给定的数据域,尚不清楚表示形式如何受到由无数麦克风范围和声学条件引起的变化的影响 - 通常称为通道效应。我们的目标是扩展听力,以评估不变性以在这项工作中的渠道效果。为此,我们通过向音频信号注入扰动来模仿通道效应,并用三个距离测量方法测量新(扰动)嵌入的变化,从而使评估域依赖但不依赖于任务依赖性。结合下游性能,它有助于我们对嵌入方式对频道效果的鲁棒性进行更明智的预测。我们评估了两个嵌入 - Yamnet和OpenL3在单声道(Urbansound8K)和多音(Sonyc-ust)Urban数据集上。我们表明,在这种无关的评估中,一个距离度量不足。尽管FR \'Echet音频距离(FAD)与下游任务中的性能下降趋势相关,但我们表明我们需要与其他距离一起研究时尚,以清楚地了解对该时尚的整体效果扰动。就嵌入性能而言,我们发现OpenL3比Yamnet更强大,Yamnet与听觉评估保持一致。
translated by 谷歌翻译
本文研究了深度神经网络训练期间的语义对齐功能如何增加网络鲁棒性。最近的作品观察到对抗性训练导致强大的模型,其学众的特征似乎与人类感知相关。通过这种联系的启发,从鲁棒性到语义,我们研究了互补的连接:从语义到鲁棒性。为此,我们为基于距离的分类模型(基于群集的分类器)提供了一种稳健性证书。此外,我们表明该证书紧张,我们利用它提出植入攻击(鲁棒性培训),是一种基于集群和对抗的培训框架来学习强大的模型。有趣的是,\ Textit {Clustr}在强大的PGD攻击下优于普遍训练的网络,高达4 \%$ 4 \%。
translated by 谷歌翻译