近年来,卷积神经网络(CNNS)已成功应用于许多领域。然而,这种深层神经模型仍然被视为大多数任务中的黑匣子。此问题的基本问题之一是了解图像识别任务中最有影响力的特点以及它们是由CNN处理的方式。众所周知,CNN模型将低级功能组合以形成复杂的形状,直到物体可以容易地分类,然而,最近的几项研究表明,纹理特征比其他特征更重要。在本文中,我们假设某些功能的重要性根据特定任务,即特定任务表现出特征偏差而变化。我们设计了基于人类直觉的两个分类任务,以培训深度神经模型来识别预期的偏见。我们设计了包括许多任务来测试reset和densenet模型的这些偏差的实验。从结果中,我们得出结论(1)某些功能的综合效果通常比任何单一特征更具影响力; (2)在不同的任务中,神经模型可以执行不同的偏见,即我们可以设计特定任务,以使神经模型偏向于特定的预期特征。
translated by 谷歌翻译
最近的研究突出了对基于神经网络(DNN)的语音识别系统的无处不在的威胁。在这项工作中,我们介绍了基于U-Net的注意力模型,U-Net $ _ {at} $,以增强对抗性语音信号。具体而言,我们通过可解释的语音识别指标评估模型性能,并通过增强的对抗性培训讨论模型性能。我们的实验表明,我们提出的U-Net $ _ {AT} $将言语质量(PESQ)的感知评估从0.65到0.75,短期客观可懂度(STOI)从0.65左右提高了言语质量(PESQ),语音传输指数(STI)对对抗性言语例子的语音增强任务0.83至0.96。我们对具有对冲音频攻击的自动语音识别(ASR)任务进行实验。我们发现(i)注意网络学习的时间特征能够增强基于DNN的ASR模型的鲁棒性; (ii)通过使用添加剂对抗性数据增强施用对抗性训练,可以提高基于DNN基于ASR模型的泛化力。 Word-Error-Rates(WERS)的ASR度量标准表明,基于梯度的扰动下存在绝对的2.22 $ \%$减少,并且在进化优化的扰动下,绝对2.03 $ \%$减少,这表明我们的具有对抗性培训的增强模型可以进一步保护弹性ASR系统。
translated by 谷歌翻译
The past two decades have seen increasingly rapid advances in the field of multi-view representation learning due to it extracting useful information from diverse domains to facilitate the development of multi-view applications. However, the community faces two challenges: i) how to learn robust representations from a large amount of unlabeled data to against noise or incomplete views setting, and ii) how to balance view consistency and complementary for various downstream tasks. To this end, we utilize a deep fusion network to fuse view-specific representations into the view-common representation, extracting high-level semantics for obtaining robust representation. In addition, we employ a clustering task to guide the fusion network to prevent it from leading to trivial solutions. For balancing consistency and complementary, then, we design an asymmetrical contrastive strategy that aligns the view-common representation and each view-specific representation. These modules are incorporated into a unified method known as CLustering-guided cOntrastiVE fusioN (CLOVEN). We quantitatively and qualitatively evaluate the proposed method on five datasets, demonstrating that CLOVEN outperforms 11 competitive multi-view learning methods in clustering and classification. In the incomplete view scenario, our proposed method resists noise interference better than those of our competitors. Furthermore, the visualization analysis shows that CLOVEN can preserve the intrinsic structure of view-specific representation while also improving the compactness of view-commom representation. Our source code will be available soon at https://github.com/guanzhou-ke/cloven.
translated by 谷歌翻译
Open Information Extraction (OpenIE) aims to extract relational tuples from open-domain sentences. Traditional rule-based or statistical models have been developed based on syntactic structures of sentences, identified by syntactic parsers. However, previous neural OpenIE models under-explore the useful syntactic information. In this paper, we model both constituency and dependency trees into word-level graphs, and enable neural OpenIE to learn from the syntactic structures. To better fuse heterogeneous information from both graphs, we adopt multi-view learning to capture multiple relationships from them. Finally, the finetuned constituency and dependency representations are aggregated with sentential semantic representations for tuple generation. Experiments show that both constituency and dependency information, and the multi-view learning are effective.
translated by 谷歌翻译
Unsupervised Domain Adaptation (UDA) has emerged as a powerful solution for the domain shift problem via transferring the knowledge from a labeled source domain to a shifted unlabeled target domain. Despite the prevalence of UDA for visual applications, it remains relatively less explored for time-series applications. In this work, we propose a novel lightweight contrastive domain adaptation framework called CoTMix for time-series data. Unlike existing approaches that either use statistical distances or adversarial techniques, we leverage contrastive learning solely to mitigate the distribution shift across the different domains. Specifically, we propose a novel temporal mixup strategy to generate two intermediate augmented views for the source and target domains. Subsequently, we leverage contrastive learning to maximize the similarity between each domain and its corresponding augmented view. The generated views consider the temporal dynamics of time-series data during the adaptation process while inheriting the semantics among the two domains. Hence, we gradually push both domains towards a common intermediate space, mitigating the distribution shift across them. Extensive experiments conducted on four real-world time-series datasets show that our approach can significantly outperform all state-of-the-art UDA methods. The implementation code of CoTMix is available at \href{https://github.com/emadeldeen24/CoTMix}{github.com/emadeldeen24/CoTMix}.
translated by 谷歌翻译
选择第一次到达的Prestack收集时间被称为首次到达时间(FAT)采摘,这是地震数据处理中必不可少的一步,并且主要是手动解决的。随着当前地震数据收集密度的增加,手动采摘效率无法满足实际需求。因此,近几十年来,自动采摘方法已经大大开发出来,尤其是基于深度学习的方法。但是,当前有监督的基于深度学习的方法很少可以避免对标记样品的依赖。此外,由于收集数据是一组与自然图像大不相同的信号,因此当前方法在低信号与噪声比(SNR)的情况下很难解决脂肪拾取问题。在本文中,对于Hard Rock地震收集数据,我们提出了一个多阶段分割拾取网络(MSSPN),该网络解决了跨工作地点的概括问题以及在低SNR的情况下的采摘问题。在MSSPN中,有四个子模型可以模拟手动采摘处理,从而将其假定为从粗糙到细的四个阶段。具有不同质量的七个现场数据集的实验表明,我们的MSSPN的表现优于大幅度的基准。尤其是,在中等和高snrs的情况下,我们的方法可以实现超过90 \%的精确拾取,甚至精细模型也可以使用低SNR实现88 \%精确的数据集。
translated by 谷歌翻译
学习时间序列表示只有未标记的数据或几个标签样本可用时,可能是一项具有挑战性的任务。最近,通过对比,通过对比的不同数据观点从未标记的数据中提取有用的表示形式方面,对对比的自我监督学习表现出了很大的改进。在这项工作中,我们通过时间和上下文对比(TS-TCC)提出了一个新颖的时间序列表示学习框架,该框架从未标记的数据中学习了具有对比性学习的无标记数据的表示。具体而言,我们建议时间序列特定的弱和强大的增强,并利用他们的观点在拟议的时间对比模块中学习稳健的时间关系,除了通过我们提出的上下文对比模块学习判别性表示。此外,我们对时间序列数据增强选择进行系统研究,这是对比度学习的关键部分。我们还将TS-TCC扩展到了半监督的学习设置,并提出了一种类感知的TS-TCC(CA-TCC),从可用的少数标​​记数据中受益,以进一步改善TS-TCC学到的表示。具体而言,我们利用TS-TCC生成的强大伪标签来实现班级感知的对比损失。广泛的实验表明,对我们提议的框架所学的功能的线性评估与完全监督的培训相当。此外,我们的框架在少数标记的数据和转移学习方案中显示出高效率。该代码可在\ url {https://github.com/emadeldeen24/ts-tcc}上公开获得。
translated by 谷歌翻译
为了使视频模型能够在不同环境中无缝应用,已经提出了各种视频无监督的域适应性(VUDA)方法来提高视频模型的鲁棒性和可传递性。尽管模型鲁棒性有所改进,但这些VUDA方法仍需要访问源数据和源模型参数以进行适应,从而提高了严重的数据隐私和模型可移植性问题。为了应对上述问题,本文首先将Black-Box视频域的适应(BVDA)制定为更现实但具有挑战性的场景,在该场景中,仅作为Black-Box预测器提供了源视频模型。尽管在图像域中提出了一些针对黑框域适应性(BDA)的方法,但这些方法不能适用于视频域,因为视频模式具有更复杂的时间特征,难以对齐。为了解决BVDA,我们通过应用蒙版到混合策略和视频量的正则化:内部正规化和外部正规化,提出了一个新颖的内野和外部正规化网络(EXTERS),在剪辑和时间特征上执行,并进行外部正规化,同时将知识从从黑框预测变量获得的预测中提炼出来。经验结果表明,在各种跨域封闭设置和部分集合动作识别基准中,外部的最先进性能甚至超过了具有源数据可访问性的大多数现有视频域适应方法。
translated by 谷歌翻译
我们提出和分析产品细分新闻供应商问题,该问题概括了一系列可腐烂项目的细分销售现象。产品细分新闻册问题是新闻企业问题的新变体,反映出卖方通过在不确定的子项目需求的背景下确定整个项目的库存来最大化利润。我们通过假设随机需求的平均值和协方差矩阵来得出封闭形式的稳健订购决定,但不能提供分布。但是,在最糟糕的需求情况下总是在解决方案保守主义方面始终保持权衡的强大方法。因此,传统的健壮方案提供了不令人满意的。在本文中,我们整合了强大而深厚的增强学习(DRL)技术,并提出了一种新的范式,称为强大的学习,以提高强大的政策的吸引力。值得注意的是,我们将强大的决定作为人类领域的知识做出,并通过设计完整的人机协作经验,规范决策和正则化回报,将其实施到DRL的培训过程中。仿真结果证实,我们的方法有效地提高了稳健的性能,并可以推广到需要强大但不保守的解决方案的各种问题。同时,较少的培训情节,提高训练稳定性以及行为的解释性可能有机会促进运营实践中DRL算法的部署。此外,RLDQN解决1000维需求方案的成功尝试表明,该算法为通过人机协作解决了复杂的操作问题提供了一条途径,并可能具有解决其他复杂的运营管理问题的潜在意义。
translated by 谷歌翻译
灵巧的操纵任务通常具有多个目标,这些目标的优先级可能会在操纵任务的不同阶段有所不同。不同的优先级使机器人几乎没有甚至没有通过深入的强化学习(DRL)方法来学习最佳政策。为了解决这个问题,我们开发了一种新颖的自适应分层奖励机制(AHRM),以指导DRL代理学习具有多个优先目标的操纵任务。AHRM可以在学习过程中确定客观优先级,并更新奖励层次结构,以适应不同阶段的客观优先级。所提出的方法通过Jaco机器人组在多目标操纵任务中进行了验证,该机器人需要在该任务中用障碍物包围来操纵目标。模拟和物理实验结果表明,该方法改善了任务绩效和学习效率的机器人学习。
translated by 谷歌翻译