来自双耳信号的非侵入式语音可懂度(SI)预测在许多应用中都很有用。然而,大多数现有的基于信号的措施被设计为应用于单通道信号。专门设计用于考虑信号的双耳属性的措施通常是侵扰的,其特征在于需要访问清洁语音信号 - 并且通常依赖于在进行预测之前将两个通道组合到单通道信号中。本文提出了一种非侵入式SI测量,其使用矢量量化(VQ)和对比预测编码(CPC)方法的组合计算来自双耳输入信号的特征。 VQ-CPC功能提取不依赖于听觉系统的任何模型,而是培训以最大化输入信号和输出功能之间的相互信息。计算的VQ-CPC特征被输入到由神经网络参数化的预测功能。本文考虑了两种预测功能。两个特征提取器和预测功能都接受了具有各向同性噪声的模拟双耳信号。它们在具有各向同性和真实噪声的模拟信号上进行测试。对于所有信号,地面真相分数是(侵入式)确定性化双耳stoi。结果以相关性和MSE提供给出,并证明VQ-CPC功能能够捕获与建模SI相关的信息,并且越优于所有被考虑的基准 - 即使在评估包括不同噪声场类型的数据时也是如此。
translated by 谷歌翻译
仿真最近已成为深度加强学习,以安全有效地从视觉和预防性投入获取一般和复杂的控制政策的关键。尽管它与环境互动直接关系,但通常认为触觉信息通常不会被认为。在这项工作中,我们展示了一套针对触觉机器人和加强学习量身定制的模拟环境。提供了一种简单且快速的模拟光学触觉传感器的方法,其中高分辨率接触几何形状表示为深度图像。近端策略优化(PPO)用于学习所有考虑任务的成功策略。数据驱动方法能够将实际触觉传感器的当前状态转换为对应的模拟深度图像。此策略在物理机器人上实时控制循环中实现,以演示零拍摄的SIM-TO-REAL策略转移,以触摸感的几个物理交互式任务。
translated by 谷歌翻译
Neyman-Scott processes (NSPs) are point process models that generate clusters of points in time or space. They are natural models for a wide range of phenomena, ranging from neural spike trains to document streams. The clustering property is achieved via a doubly stochastic formulation: first, a set of latent events is drawn from a Poisson process; then, each latent event generates a set of observed data points according to another Poisson process. This construction is similar to Bayesian nonparametric mixture models like the Dirichlet process mixture model (DPMM) in that the number of latent events (i.e. clusters) is a random variable, but the point process formulation makes the NSP especially well suited to modeling spatiotemporal data. While many specialized algorithms have been developed for DPMMs, comparatively fewer works have focused on inference in NSPs. Here, we present novel connections between NSPs and DPMMs, with the key link being a third class of Bayesian mixture models called mixture of finite mixture models (MFMMs). Leveraging this connection, we adapt the standard collapsed Gibbs sampling algorithm for DPMMs to enable scalable Bayesian inference on NSP models. We demonstrate the potential of Neyman-Scott processes on a variety of applications including sequence detection in neural spike trains and event detection in document streams.
translated by 谷歌翻译
AI / Compling在Scale是一个难题,特别是在医疗保健环境中。我们概述了要求,规划和实施选择,以及导致我们安全的研究计算平台,埃森医疗计算平台(EMCP)的实施的指导原则,与德国主要医院隶属。遵从性,数据隐私和可用性是系统的不可变的要求。我们将讨论我们的计算飞地的功能,我们将为希望采用类似设置的团体提供我们的配方。
translated by 谷歌翻译
这项工作系统地调查了深度图像去噪者(DIDS)的对抗性稳健性,即,可以从嘈杂的观察中恢复地面真理的噪音,因对抗性扰动而变化。首先,为了评估DIDS的稳健性,我们提出了一种新的逆势攻击,即观察到的零平均攻击({\ SC obsatk}),对给定嘈杂的图像来制作对抗零均匀扰动。我们发现现有的确实容易受到{\ SC Obsatk}产生的对抗噪声。其次,为了强化犯罪,我们提出了一种对抗性培训策略,混合对抗训练({\ SC帽}),共同列车与对抗性和非对抗性嘈杂的数据做出,以确保重建质量很高,并且围绕非对抗性数据是局部光滑的。所得到的确实可以有效去除各种类型的合成和对抗性噪声。我们还发现,DIDS的稳健性使其在看不见的真实噪音上的概括能力。实际上,{\ SC帽子} -Tromed DID可以从真实世界的噪音中恢复高质量的清洁图像,即使没有真正的嘈杂数据训练。基准数据集的广泛实验,包括SET68,PolyU和SIDD,证实了{\ SC Obsatk}和{\ SC帽}的有效性。
translated by 谷歌翻译
图像质量是一个模糊的概念,对不同的人不同的含义。为了量化图像质量,通常在损坏的图像和地面真实图像之间计算相对差异。但是我们应该使用哪些指标来测量这种差异?理想情况下,公制应对自然和科学图像表现良好。结构相似度指数(SSIM)是人类如何感知图像相似性的好措施,但对显微镜中科学有意义的差异不敏感。在电子和超分辨率显微镜中,经常使用傅里叶环相关(FRC),但在这些领域之外几乎是知名的。在这里,我们表明FRC同样可以应用于自然图像,例如自然图像。 Google打开图像数据集。然后,我们基于FRC定义了损失功能,表明它是在分析上可分的,并使用它来训练U-Net以用于去噪图像。这种基于FRC的损耗功能允许网络训练更快并达到与使用基于L1或L2的损失相似或更好的结果。我们还研究了通过FRC分析的神经网络去噪的性质和局限性。
translated by 谷歌翻译
在神经元网络中,使用本地信息单独更新,允许完全分散的学习。相反,人工神经网络(ANN)中的元件通常使用中央处理器同时更新。在这里,我们调查最近引入的分散,物理驱动的学习网络中异步学习的可行性和影响。我们表明,在理想化模拟中,Desynchization Learing Processe不会降低各种任务的性能。在实验中,Des同步实际上通过允许系统更好地探索解决方案的离散状态空间来实现性能。我们在随机梯度下降中的异步和迷你批处理之间绘制了类比,并表明它们对学习过程具有类似的影响。 des同步学习过程将物理驱动的学习网络建立为真正完全分布式的学习机器,在部署中提高更好的性能和可扩展性。
translated by 谷歌翻译
在低灯条件下捕获的图像遭受低可视性和各种成像伪影,例如真实噪音。现有的监督启示算法需要大量的像素对齐的训练图像对,这很难在实践中准备。虽然弱监督或无人监督的方法可以缓解这些挑战,但不使用配对的训练图像,由于缺乏相应的监督,一些现实世界的文物不可避免地被错误地放大。在本文中,而不是使用完美的对齐图像进行培训,我们创造性地使用未对准的现实世界图像作为指导,这很容易收集。具体地,我们提出了一个交叉图像解剖线程(CIDN),以分别提取来自低/常光图像的交叉图像亮度和图像特定内容特征。基于此,CIDN可以同时校正特征域中的亮度和抑制图像伪像,其在很大程度上将鲁棒性增加到像素偏移。此外,我们收集了一个新的低光图像增强数据集,包括具有现实世界腐败的未对准培训图像。实验结果表明,我们的模型在新建议的数据集和其他流行的低光数据集中实现了最先进的表演。
translated by 谷歌翻译
框架转移是翻译中的横向现象,导致相应的语言材料对唤起不同帧。预测帧移位的能力使通过注释投影自动创建多语言架构。这里,我们提出了帧移位预测任务,并演示了图表关注网络,与辅助训练相结合,可以学习跨语言帧到帧对应关系并预测帧移位。
translated by 谷歌翻译
我们认为当前的红外标准,用于优化用户体验,测量太窄的IR空间的一部分。如果IR系统较弱,这些指标缺乏或完全过滤出需要改进的更深层次的文件。如果IR系统相对强,则这些指标欠更深的相关文档,这些文档可以在用户可消化的层次结构或文本摘要中呈现出甚至更强大的IR系统,这些文件甚至可以呈现来自数十或数百个相关文档的内容。我们从过去28年重新分析了超过70个TREC曲目,显示大约一半的欠压排名的文件,几乎所有的缺乏尾部文件。我们展示在2020年的深度学习轨道中,神经系统在排名第一的文件中实际上是近乎最佳的,而在尾部文件上只有BM25的适度增益相比。我们的分析基于简单的新系统导向度量,“雾化搜索长度”,它能够在任何深度准确且均匀地测量所有相关文档。
translated by 谷歌翻译