自然和人工试镜原则上可以为给定问题获取不同的解决方案。然而,任务的限制可以推动试镜的认知科学和工程学对定性融合,这表明更仔细的相互检查将改善人工听力系统和思维和大脑的过程模型。语音识别 - 这种探索成熟的领域 - 在人类中对各种光谱粒度的数字转换本质上是强大的。这些鲁棒性概况在多大程度上由高性能的神经网络系统解释?我们将单个合成框架的语音识别实验汇总在一起,以评估最新的神经网络作为可刺激的,优化的观察者。在一系列实验中,我们(1)阐明了文献中的影响力彼此之间的影响力如何以及与自然语音相关,(2)显示了机器表现出颗粒的粒度,在人类中表现出分布范围的稳健性,在人类中繁殖了经典的感知现象。 ,(3)确定人类绩效预测的模型预测的特定条件,(4)证明了所有人造系统在感知上恢复人类所做的关键失败,这暗示了理论和模型建设的替代方向。这些发现鼓励了认知科学和试听工程之间的协同作用。
translated by 谷歌翻译
在本文中,我们使用一系列建模技术来调查抽象手机是否可以从接触语音声音中出现。实际上,该研究代表了尝试从语言使用的抽象出现的基于使用的语言学理论设备的尝试。我们的任务侧重于最简单的这样的假设抽象。我们测试了两个关于语言知识在语言上的语言知识的反对原则:基于内存的学习(MBL)和纠错学习(ECL)。泛化的过程得到了抽象语言学家与之运作,我们探讨了MBL和ECL是否可以产生类似语言抽象的语言知识。每个模型都有一个由一个扬声器产生的大量预处理语音。我们评估了这些简单模型所学到的一致性或稳定性以及它们引起抽象类别的能力。两种类型的模型在这些测试方面的票价不同。我们表明ECL模型可以从输入中可靠地识别了ECL模型可以学习抽象,并且至少可以从输入中可靠地识别到传统类型中的电话库存和分组。
translated by 谷歌翻译
从随机字段或纹理中提取信息是科学中无处不在的任务,从探索性数据分析到分类和参数估计。从物理学到生物学,它往往通过功率谱分析来完成,这通常过于有限,或者使用需要大型训练的卷积神经网络(CNNS)并缺乏解释性。在本文中,我们倡导使用散射变换(Mallat 2012),这是一种强大的统计数据,它来自CNNS的数学思想,但不需要任何培训,并且是可解释的。我们表明它提供了一种相对紧凑的汇总统计数据,具有视觉解释,并在广泛的科学应用中携带大多数相关信息。我们向该估算者提供了非技术性介绍,我们认为它可以使数据分析有利于多种科学领域的模型和参数推断。有趣的是,了解散射变换的核心操作允许人们解读CNN的内部工作的许多关键方面。
translated by 谷歌翻译
内容的离散和连续表示(例如,语言或图像)具有有趣的属性,以便通过机器的理解或推理此内容来探索或推理。该职位论文提出了我们关于离散和持续陈述的作用及其在深度学习领域的作用的意见。目前的神经网络模型计算连续值数据。信息被压缩成密集,分布式嵌入式。通过Stark对比,人类在他们的语言中使用离散符号。此类符号代表了来自共享上下文信息的含义的世界的压缩版本。此外,人工推理涉及在认知水平处符号操纵,这促进了抽象的推理,知识和理解的构成,泛化和高效学习。通过这些见解的动机,在本文中,我们认为,结合离散和持续的陈述及其处理对于构建展示一般情报形式的系统至关重要。我们建议并讨论了几个途径,可以在包含离散元件来结合两种类型的陈述的优点来改进当前神经网络。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
In the brain, information is encoded, transmitted and used to inform behaviour at the level of timing of action potentials distributed over population of neurons. To implement neural-like systems in silico, to emulate neural function, and to interface successfully with the brain, neuromorphic circuits need to encode information in a way compatible to that used by populations of neuron in the brain. To facilitate the cross-talk between neuromorphic engineering and neuroscience, in this Review we first critically examine and summarize emerging recent findings about how population of neurons encode and transmit information. We examine the effects on encoding and readout of information for different features of neural population activity, namely the sparseness of neural representations, the heterogeneity of neural properties, the correlations among neurons, and the time scales (from short to long) at which neurons encode information and maintain it consistently over time. Finally, we critically elaborate on how these facts constrain the design of information coding in neuromorphic circuits. We focus primarily on the implications for designing neuromorphic circuits that communicate with the brain, as in this case it is essential that artificial and biological neurons use compatible neural codes. However, we also discuss implications for the design of neuromorphic systems for implementation or emulation of neural computation.
translated by 谷歌翻译
先进的Ligo和先进的处女座地面干涉仪有望探测前所未有的大量空间,从而增强了观测值的发现能力,甚至是重力波发射器的新来源。在这种情况下,高度优化的重力波检测算法的发展至关重要。我们提出了一个新型的分层框架,用于实时检测受语音处理技术启发的引力波,以及在本实施中,基于一种最新的机器学习方法,涉及遗传编程和神经网络的杂交。新提出的框架的关键方面是:结构良好的分层方法和低计算复杂性。本文描述了框架的基本概念和前三层的推导。即使在当前的实现中,这些层是基于使用机器学习方法得出的模型,拟议的分层结构具有普遍的性质。为了训练和测试模型,我们在合成高斯噪声中使用了模拟的二进制黑洞重力波形,代表了高级Ligo灵敏度设计。与更复杂的方法(例如卷积神经网络)相比,我们的框架,即使使用论文中描述的简单地面模型,具有相似的性能,但计算复杂性较低,模块化程度较高。此外,对短期特征的潜在剥削使新框架的结果几乎独立于引力波信号的时间位置,从而在第二代干涉仪中简化了其在实时多层管道中对重力波检测的实时多层管道的未来剥削。
translated by 谷歌翻译
Recent progress in artificial intelligence (AI) has renewed interest in building systems that learn and think like people. Many advances have come from using deep neural networks trained end-to-end in tasks such as object recognition, video games, and board games, achieving performance that equals or even beats humans in some respects. Despite their biological inspiration and performance achievements, these systems differ from human intelligence in crucial ways. We review progress in cognitive science suggesting that truly human-like learning and thinking machines will have to reach beyond current engineering trends in both what they learn, and how they learn it. Specifically, we argue that these machines should (a) build causal models of the world that support explanation and understanding, rather than merely solving pattern recognition problems; (b) ground learning in intuitive theories of physics and psychology, to support and enrich the knowledge that is learned; and (c) harness compositionality and learning-to-learn to rapidly acquire and generalize knowledge to new tasks and situations. We suggest concrete challenges and promising routes towards these goals that can combine the strengths of recent neural network advances with more structured cognitive models.
translated by 谷歌翻译
Deep neural networks (DNN) techniques have become pervasive in domains such as natural language processing and computer vision. They have achieved great success in these domains in task such as machine translation and image generation. Due to their success, these data driven techniques have been applied in audio domain. More specifically, DNN models have been applied in speech enhancement domain to achieve denosing, dereverberation and multi-speaker separation in monaural speech enhancement. In this paper, we review some dominant DNN techniques being employed to achieve speech separation. The review looks at the whole pipeline of speech enhancement from feature extraction, how DNN based tools are modelling both global and local features of speech and model training (supervised and unsupervised). We also review the use of speech-enhancement pre-trained models to boost speech enhancement process. The review is geared towards covering the dominant trends with regards to DNN application in speech enhancement in speech obtained via a single speaker.
translated by 谷歌翻译
在流行媒体中,人造代理商的意识出现与同时实现人类或超人水平智力的那些相同的代理之间通常存在联系。在这项工作中,我们探讨了意识和智力之间这种看似直观的联系的有效性和潜在应用。我们通过研究与三种当代意识功能理论相关的认知能力:全球工作空间理论(GWT),信息生成理论(IGT)和注意力模式理论(AST)。我们发现,这三种理论都将有意识的功能专门与人类领域将军智力的某些方面联系起来。有了这个见解,我们转向人工智能领域(AI),发现尽管远未证明一般智能,但许多最先进的深度学习方法已经开始纳入三个功能的关键方面理论。确定了这一趋势后,我们以人类心理时间旅行的激励例子来提出方式,其中三种理论中每种理论的见解都可以合并为一个单一的统一和可实施的模型。鉴于三种功能理论中的每一种都可以通过认知能力来实现这一可能,因此,具有精神时间旅行的人造代理不仅具有比当前方法更大的一般智力,而且还与我们当前对意识功能作用的理解更加一致在人类中,这使其成为AI研究的有希望的近期目标。
translated by 谷歌翻译
预测性编码提供了对皮质功能的潜在统一说明 - 假设大脑的核心功能是最小化有关世界生成模型的预测错误。该理论与贝叶斯大脑框架密切相关,在过去的二十年中,在理论和认知神经科学领域都产生了重大影响。基于经验测试的预测编码的改进和扩展的理论和数学模型,以及评估其在大脑中实施的潜在生物学合理性以及该理论所做的具体神经生理学和心理学预测。尽管存在这种持久的知名度,但仍未对预测编码理论,尤其是该领域的最新发展进行全面回顾。在这里,我们提供了核心数学结构和预测编码的逻辑的全面综述,从而补充了文献中最新的教程。我们还回顾了该框架中的各种经典和最新工作,从可以实施预测性编码的神经生物学现实的微电路到预测性编码和广泛使用的错误算法的重新传播之间的紧密关系,以及对近距离的调查。预测性编码和现代机器学习技术之间的关系。
translated by 谷歌翻译
在本文中,为波斯语音识别提出了用于信息定位的基于CNN的结构。研究表明,在哺乳动物的原发性听觉皮层和中脑中某些神经元的接收场的光谱量矩形可塑性使本地化设施改善了识别性能。在过去的几年中,使用HMMS,TDNNS,CNNS和LSTM-RNNS的方法的空间或时间不可超数属性,已经完成了许多工作来在ASR系统中定位时间频率信息。但是,这些模型中的大多数具有较大的参数量,并且训练具有挑战性。为此,我们提出了一种称为时频卷积的麦克斯神经网络(TFCMNN)的结构,其中并行时间域和频域1D-CMNN同时且独立地应用于频谱图,然后将其输出置于串联并置于串联并施加了串联并应用于频谱图。共同连接到完全连接的Maxout网络进行分类。为了提高这种结构的性能,我们使用了新开发的方法和模型,例如辍学,麦克斯特和体重归一化。在FARSDAT数据集上设计和实现了两组实验,以评估与常规1D-CMNN模型相比,该模型的性能。根据实验结果,TFCMNN模型的平均识别得分比常规1D-CMNN模型的平均值高约1.6%。此外,TFCMNN模型的平均训练时间比传统模型的平均训练时间低约17小时。因此,正如其他来源所证明的那样,ASR系统中的时频定位提高了系统的准确性并加快了训练过程。
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译
This chapter sheds light on the synaptic organization of the brain from the perspective of computational neuroscience. It provides an introductory overview on how to account for empirical data in mathematical models, implement them in software, and perform simulations reflecting experiments. This path is demonstrated with respect to four key aspects of synaptic signaling: the connectivity of brain networks, synaptic transmission, synaptic plasticity, and the heterogeneity across synapses. Each step and aspect of the modeling and simulation workflow comes with its own challenges and pitfalls, which are highlighted and addressed in detail.
translated by 谷歌翻译
我们研究了在不利环境中学习强大声学模型的问题,其特征是训练和测试条件之间存在显着不匹配。这个问题对于需要在看不见的环境中表现良好的语音识别系统的部署至关重要。首先,我们从理论上将数据增强表征为笼子风险最小化的实例,该实例旨在通过替换在输入空间上定义经验密度的三角洲函数来改善培训期间的风险估计,并具有近似值的近似值。培训样品。更具体地说,我们假设可以使用高斯人的混合物来近似以训练样品为中心的当地社区,并从理论上证明这可以将强大的电感偏置纳入学习过程。然后,我们通过数据增强方案隐式地指定各个混合物组件,旨在解决声学模型中伪造相关性的常见来源。为了避免由于信息丢失而引起的鲁棒性的潜在混杂影响,这与标准特征提取技术(例如Fbank和MFCC功能)有关,我们重点关注基于波形的设置。我们的经验结果表明,该方法可以推广到看不见的噪声条件,与使用标准风险最小化原则进行训练相比,分布外概括的相对改善150%。此外,结果证明了相对于使用旨在匹配测试话语特征的训练样本的模型,相对于模型的竞争性能。
translated by 谷歌翻译
使用多个麦克风进行语音增强的主要优点是,可以使用空间滤波来补充节奏光谱处理。在传统的环境中,通常单独执行线性空间滤波(波束形成)和单通道后过滤。相比之下,采用深层神经网络(DNN)有一种趋势来学习联合空间和速度 - 光谱非线性滤波器,这意味着对线性处理模型的限制以及空间和节奏单独处理的限制光谱信息可能可以克服。但是,尚不清楚导致此类数据驱动的过滤器以良好性能进行多通道语音增强的内部机制。因此,在这项工作中,我们通过仔细控制网络可用的信息源(空间,光谱和时间)来分析由DNN实现的非线性空间滤波器的性质及其与时间和光谱处理的相互依赖性。我们确认了非线性空间处理模型的优越性,该模型在挑战性的扬声器提取方案中优于Oracle线性空间滤波器,以低于0.24的POLQA得分,较少数量的麦克风。我们的分析表明,在特定的光谱信息中应与空间信息共同处理,因为这会提高过滤器的空间选择性。然后,我们的系统评估会导致一个简单的网络体系结构,该网络体系结构在扬声器提取任务上的最先进的网络体系结构优于0.22 POLQA得分,而CHIME3数据上的POLQA得分为0.32。
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译
信号处理是几乎任何传感器系统的基本组件,具有不同科学学科的广泛应用。时间序列数据,图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能,数据驱动,信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述,旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题,从基础到工业研究,以简明的主题部分组织,反映了每个研究领域的当前和未来发展的趋势和影响。此外,它为研究人员和资助机构提供了识别新前景的指导。
translated by 谷歌翻译
科学家经常使用观察时间序列数据来研究从气候变化到民间冲突再到大脑活动的复杂自然过程。但是对这些数据的回归分析通常假定简单的动态。深度学习的最新进展使从语音理解到核物理学再到竞争性游戏的复杂过程模型的表现实现了令人震惊的改进。但是深度学习通常不用于科学分析。在这里,我们通过证明可以使用深度学习,不仅可以模仿,而且可以分析复杂的过程,在保留可解释性的同时提供灵活的功能近似。我们的方法 - 连续时间反向逆转回归神经网络(CDRNN) - 放宽标准简化的假设(例如,线性,平稳性和同质性)对于许多自然系统来说是不可信的,并且可能会严重影响数据的解释。我们评估CDRNNS对人类语言处理,这是一个具有复杂连续动态的领域。我们证明了行为和神经影像数据中预测可能性的显着改善,我们表明CDRNN可以在探索性分析中灵活发现新型模式,在确认分析中对可能的混杂性提供强有力的控制,并打开否则就可以使用这些问题来进行研究,这些问题否则就可以使用这些问题来进行研究,而这些问题否则就可以使用这些问题进行研究,而这些问题否则就可以使用这些问题进行研究。观察数据。
translated by 谷歌翻译
低成本毫米波(MMWAVE)通信和雷达设备的商业可用性开始提高消费市场中这种技术的渗透,为第五代(5G)的大规模和致密的部署铺平了道路(5G) - 而且以及6G网络。同时,普遍存在MMWAVE访问将使设备定位和无设备的感测,以前所未有的精度,特别是对于Sub-6 GHz商业级设备。本文使用MMWAVE通信和雷达设备在基于设备的定位和无设备感应中进行了现有技术的调查,重点是室内部署。我们首先概述关于MMWAVE信号传播和系统设计的关键概念。然后,我们提供了MMWaves启用的本地化和感应方法和算法的详细说明。我们考虑了在我们的分析中的几个方面,包括每个工作的主要目标,技术和性能,每个研究是否达到了一定程度的实现,并且该硬件平台用于此目的。我们通过讨论消费者级设备的更好算法,密集部署的数据融合方法以及机器学习方法的受过教育应用是有前途,相关和及时的研究方向的结论。
translated by 谷歌翻译