我们的运输世界正在迅速转变,自治水平不断提高。但是,为了获得全自动车辆的许可以供广泛的公众使用,有必要确保整个系统的安全性,这仍然是一个挑战。这尤其适用于基于AI的感知系统,这些系统必须处理各种环境条件和道路使用者,与此同时,应强调地检测所有相关的对象(即不应发生检测失误)。然而,有限的培训和验证数据可以证明无故障操作几乎无法实现,因为感知系统可能会暴露于公共道路上的新事物或未知的物体或条件。因此,需要针对基于AI的感知系统的新安全方法。因此,我们在本文中提出了一种新型的层次监视方法,能够从主要感知系统验证对象列表,可以可靠地检测检测失误,同时具有非常低的错误警报率。
translated by 谷歌翻译
虽然自动车辆安全验证过程的最明显的部分涉及规划和控制系统,但它通常被忽视,后者的安全性至关重要地取决于前面环境感知的容错。现代感知系统具有复杂且经常基于机器学习的组件,具有各种故障模式,可以危及整体安全性。同时,由于资源约束,例如冗余执行的验证并不总是可行的。在本文中,我们解决了可行和高效的感知监视器的需求,并提出了一种轻质方法,有助于保护感知系统的完整性,同时保持额外的计算开销最小值。与现有解决方案相比,通过传感器检查的良好平衡组合来实现监视器 - 在此处使用LIDAR信息和对象运动历史上的合理性检查。它旨在检测自动化车辆环境中对象的距离和速度中的相关误差。结合适当的规划系统,这种监视器可以帮助安全自动化驱动可行。
translated by 谷歌翻译
Human speech can be characterized by different components, including semantic content, speaker identity and prosodic information. Significant progress has been made in disentangling representations for semantic content and speaker identity in Automatic Speech Recognition (ASR) and speaker verification tasks respectively. However, it is still an open challenging research question to extract prosodic information because of the intrinsic association of different attributes, such as timbre and rhythm, and because of the need for unsupervised training schemes to achieve robust large-scale and speaker-independent ASR. The aim of this paper is to address the disentanglement of emotional prosody from speech based on unsupervised reconstruction. Specifically, we identify, design, implement and integrate three crucial components in our proposed speech reconstruction model Prosody2Vec: (1) a unit encoder that transforms speech signals into discrete units for semantic content, (2) a pretrained speaker verification model to generate speaker identity embeddings, and (3) a trainable prosody encoder to learn prosody representations. We first pretrain the Prosody2Vec representations on unlabelled emotional speech corpora, then fine-tune the model on specific datasets to perform Speech Emotion Recognition (SER) and Emotional Voice Conversion (EVC) tasks. Both objective and subjective evaluations on the EVC task suggest that Prosody2Vec effectively captures general prosodic features that can be smoothly transferred to other emotional speech. In addition, our SER experiments on the IEMOCAP dataset reveal that the prosody features learned by Prosody2Vec are complementary and beneficial for the performance of widely used speech pretraining models and surpass the state-of-the-art methods when combining Prosody2Vec with HuBERT representations. Some audio samples can be found on our demo website.
translated by 谷歌翻译
The task of emotion recognition in conversations (ERC) benefits from the availability of multiple modalities, as offered, for example, in the video-based MELD dataset. However, only a few research approaches use both acoustic and visual information from the MELD videos. There are two reasons for this: First, label-to-video alignments in MELD are noisy, making those videos an unreliable source of emotional speech data. Second, conversations can involve several people in the same scene, which requires the detection of the person speaking the utterance. In this paper we demonstrate that by using recent automatic speech recognition and active speaker detection models, we are able to realign the videos of MELD, and capture the facial expressions from uttering speakers in 96.92% of the utterances provided in MELD. Experiments with a self-supervised voice recognition model indicate that the realigned MELD videos more closely match the corresponding utterances offered in the dataset. Finally, we devise a model for emotion recognition in conversations trained on the face and audio information of the MELD realigned videos, which outperforms state-of-the-art models for ERC based on vision alone. This indicates that active speaker detection is indeed effective for extracting facial expressions from the uttering speakers, and that faces provide more informative visual cues than the visual features state-of-the-art models have been using so far.
translated by 谷歌翻译
机器学习模型容易记住敏感数据,使它们容易受到会员推理攻击的攻击,其中对手的目的是推断是否使用输入样本来训练模型。在过去的几年中,研究人员产生了许多会员推理攻击和防御。但是,这些攻击和防御采用各种策略,并在不同的模型和数据集中进行。但是,缺乏全面的基准意味着我们不了解现有攻击和防御的优势和劣势。我们通过对不同的会员推理攻击和防御措施进行大规模测量来填补这一空白。我们通过研究九项攻击和六项防御措施来系统化成员的推断,并在整体评估中衡量不同攻击和防御的性能。然后,我们量化威胁模型对这些攻击结果的影响。我们发现,威胁模型的某些假设,例如相同架构和阴影和目标模型之间的相同分布是不必要的。我们也是第一个对从Internet收集的现实世界数据而不是实验室数据集进行攻击的人。我们进一步研究是什么决定了会员推理攻击的表现,并揭示了通常认为过度拟合水平不足以成功攻击。取而代之的是,成员和非成员样本之间的熵/横向熵的詹森 - 香农距离与攻击性能的相关性更好。这为我们提供了一种新的方法,可以在不进行攻击的情况下准确预测会员推理风险。最后,我们发现数据增强在更大程度上降低了现有攻击的性能,我们提出了使用增强作用的自适应攻击来训练阴影和攻击模型,以改善攻击性能。
translated by 谷歌翻译
声音是现实世界中最有用,最丰富的方式之一,同时可以通过可以放置在移动设备上的小型和便宜的传感器来感知不接触。尽管深度学习能够从多个感官输入中提取信息,但很少有声音控制和学习机器人动作。对于无监督的强化学习,预计代理人将积极地收集经验,并以一种自制的方式共同学习代表和政策。我们使用基于物理的声音模拟来构建逼真的机器人操作场景,并提出内在的好奇模块(ISCM)。 ISCM向加强学习者提供反馈,以学习强大的表示并奖励更有效的探索行为。我们在适应过程中对启用声音进行了启用的声音实验,并表明ISCM所学的表示形式优于仅视力基线的基本线和预训练的策略,可以在应用于下游任务时加速学习过程。
translated by 谷歌翻译
现有的对抗示例研究重点是在现有自然图像数据集之上进行数字插入的扰动。这种对抗性例子的构造是不现实的,因为攻击者由于感应和环境影响而在现实世界中部署这种攻击可能是困难的,甚至是不可能的。为了更好地理解针对网络物理系统的对抗性示例,我们提出了通过模拟近似现实世界的。在本文中,我们描述了我们的合成数据集生成工具,该工具可以可扩展收集具有现实的对抗示例的合成数据集。我们使用Carla模拟器收集此类数据集并演示与现实世界图像相同的环境变换和处理的模拟攻击。我们的工具已用于收集数据集以帮助评估对抗性示例的功效,并可以在https://github.com/carla-simulator/carla/pull/4992上找到。
translated by 谷歌翻译
灵活地处理各种机器人动作语言翻译任务是机器人和人之间自然相互作用的必不可少的要求。以前的方法需要更改推理过程中每个任务的模型体系结构的配置,这破坏了多任务学习的前提。在这项工作中,我们提出了配对的门控自动编码器(PGAE),以在桌面对象操纵方案中的机器人动作和语言描述之间进行灵活翻译。我们通过将每个动作与包含信号通知翻译方向的信号的适当描述配对,以端到端的方式训练模型。在推断期间,我们的模型可以从动作转化为语言,反之亦然,根据给定的语言信号。此外,为了选择使用预算语言模型作为语言编码器,我们的模型有可能识别看不见的自然语言输入。我们模型的另一个功能是,它可以通过使用机器人演示来识别和模仿另一个代理的动作。该实验结果突出了我们方法的灵活双向翻译能力,同时又可以推广到相反剂的作用。
translated by 谷歌翻译
大多数深度学习算法都缺乏对其预测的解释,这限制了其在临床实践中的部署。改善解释性的方法,尤其是在医学成像中,经常被证明可以传达有限的信息,过于放心或缺乏健壮性。在这项工作中,我们介绍了生成自然语言解释(NLE)的任务,以证明对医学图像的预测是合理的。NLE是人类友好且全面的,并能够培训本质上可解释的模型。为了实现这一目标,我们介绍了模仿 - nle,这是带有NLE的第一个大规模的医学成像数据集。它包含超过38,000个NLE,可以解释各种胸部病理和胸部X射线检查结果。我们提出了一种解决任务并评估该数据集中的几个架构的一般方法,包括通过临床医生评估。
translated by 谷歌翻译
空间推理给智能代理带来了一个特殊的挑战,同时是他们在物理世界中成功互动和交流的先决条件。这样的推理任务是描述目标对象在通过相对方向的某些参考对象的固有方向方面的位置。在本文中,我们介绍了基于抽象对象的新型诊断视觉询问(VQA)数据集。我们的数据集允许对端到端VQA模型对地面相对方向的功能进行细粒度分析。同时,与现有数据集相比,模型培训需要少得多的计算资源,但产生可比甚至更高的性能。除了新数据集外,我们还基于在Grid-A-3D训练的两个端到端的VQA架构进行彻底评估。我们证明,在几个时期内,以相对方向进行推理所需的子任务,例如在场景中识别和定位对象并估算其内在方向,以直观的方式处理相对方向。
translated by 谷歌翻译