声学数据提供从生物学和通信到海洋和地球科学等领域的科学和工程见解。我们调查了机器学习(ML)的进步和变革潜力,包括声学领域的深度学习。 ML是用于自动检测和利用模式印度的广泛的统计技术家族。相对于传统的声学和信号处理,ML是数据驱动的。给定足够的训练数据,ML可以发现特征之间的复杂关系。通过大量的训练数据,ML candiscover模型描述复杂的声学现象,如人类语音和混响。声学中的ML正在迅速发展,具有令人瞩目的成果和未来的重大前景。我们首先介绍ML,然后在五个声学研究领域强调MLdevelopments:语音处理中的源定位,海洋声学中的源定位,生物声学,地震探测和日常场景中的环境声音。
translated by 谷歌翻译
在本文中,我们提出了一种基于深度自动编码器混合的深度自动编码器MIxture聚类(DAMIC)算法,其中每个聚类由自动编码器表示。群集网络将数据转换为其他空间,然后选择其中一个群集。接下来,与该群集相关联的自动编码用于重建数据点。聚类算法联合学习非线性数据表示和自动编码器。通过最小化自动编码器网络混合的构造损失来找到最优聚类。与其他深度聚类算法不同,不需要正则化项来避免数据到单点。我们对图像和textcorpora的实验评估显示出对最先进方法的显着改进。
translated by 谷歌翻译
互联网流量何时跨越国际边界?这个问题具有重大的地缘政治,法律和社会影响,而且难以回答。一个关键的绊脚石是缺乏工具,这些工具可以准确地将地图路由器通过互联网流量传输到它们所在的国家。本文介绍了Passport:一种高效,准确的国家级路由器地理定位的新方法以及实现它的系统。 Passport使用有限的活动测量提供位置预测,使用机器学习来组合来自IP地理位置数据库,路由器主机名,whois记录和ping测量的信息。我们证明Passports基本上优于现有技术,并确定了对安全性,隐私性和性能有影响的路径横向国家的情况。
translated by 谷歌翻译
词形还原旨在通过将单词的反射形式与其词典形式相关联来减少稀疏数据问题。对于看不见和含糊不清的词语,使用上下文可以提供帮助。然而,大多数上下文敏感的方法需要用于训练的带引理注释的句子,这在低资源语言中可能是稀缺的或不可用的。另外(如此处所示),在资源较低的情况下,一个词形变换器可以从$ n $标记的不同字(类型)示例中学习更多,而不是从$ n $(连续)标记的标记中学习,因为后者包含的独特类型要少得多。为了将基于类型的学习效率与上下文的好处相结合,我们提出了一种方法来训练具有很少或没有标记语料库数据的acontext敏感词形变换器,使用来自UniMorph项目的反射表和来自维基百科的原始文本示例,为明确提供句子上下文UniMorph示例。尽管这些是明确的例子,但模型成功地从它们推广出来,与不使用上下文的基线相比,导致改进的结果(总体上,特别是对于不可见的词)。
translated by 谷歌翻译
生成模型通常使用人工评估来确定和证明。不幸的是,现有的人类评估方法是临时的:目前还没有标准化,经过验证的评估:(1)测量感知保真度,(2)可靠,(3)将模型分成清晰的排序,(4)确保高质量测量没有难以处理的成本。作为回应,我们构建人类 - 感知评估(HYPE),这是一种人类度量,它是(1)基于感知的心理物理学研究,(2)在模型的随机抽样输出的不同集合中可靠,(3)导致可分离的模型性能, (4)有效的成本和时间。我们介绍两种方法。首先,HYPE-Time测量在自适应时间约束下的视觉感知,以确定模型输出(例如年龄表面)需要可见的最小时间长度(例如,250ms),以便人们将其区分为真实或真实。第二个是HYPE-Infinity,它可以测量伪造和真实图像的人为错误率,没有时间限制,保持稳定性并大幅缩短时间和成本。我们使用两个数据集,即流行的CelebA和更新的更高分辨率的FFHQ,以及两种模型输出的采样技术,在无条件图像生成上测试HYPE的四个最先进的生成对抗网络(GAN)。通过多次模拟HYPE的评估,我们展示了不同模型的一致排名,识别StyleGAN与截断特征采样(27.6%HYPE-Infinity欺骗率,大约四分之一的图像被人类错误分类)优于StyleGAN而没有FFHQ上的截断(19.0%)。有关详细信息,请参阅https://hype.stanford.edu。
translated by 谷歌翻译
用于生物医学图像分析的卷积神经网络(CNN)通常具有非常大的尺寸,导致高存储器需求和高操作延迟。为特定成像应用搜索baseCNN的可接受的压缩表示通常涉及一系列耗时的训练/验证实验,以实现网络大小和准确度之间的良好折衷。为了应对这一挑战,我们提出了CC-Net,一种用于生物医学图像分割的新的图像复杂性引导CNN压缩方案。给定CNN模型,CC-Net基于从训练数据计算的平均图像复杂度来预测不同大小的网络的最终准确度。然后,它选择乘法因子来生成具有可接受的网络精度和大小的期望网络。实验表明,CC-Net对于生成压缩分段网络是有效的,在最佳情况下保留高达95%的基本网络分段准确度,并且仅利用0.1%的全尺寸网络的可训练参数。
translated by 谷歌翻译
无监督子字建模旨在学习“零资源”设置中的语音音频的低级表示:即,不使用转录或来自目标语言的其他资源(例如文本语料库或发音词典)。一个好的表示应该捕捉语音内容和摘要远离其他类型的可变性,如说话者差异和频道噪音。此领域的先前工作主要集中在仅从目标语言数据中学习,并且仅在本质上进行了评估。在这里,我们直接比较多种方法,包括一些仅使用目标语言语音数据的方法和一些使用来自其他(非目标)语言的转录语音的方法,并且我们使用两个内在度量以及下游无监督分词和聚类任务来评估。我们发现,结合两种现有的仅使用目标语言的方法比单独使用任何一种方法都能产生更好的特征。然而,通过使用其他语言训练的模型提取目标语言瓶颈特征,获得了更好的结果。仅使用一种语言进行跨语言培训就足以提供这种益处,但多语言培训可以提供更多帮助。除了这些包含内在对策和外在任务的结果之外,我们还讨论了不同类型的学习特征之间的定性差异。
translated by 谷歌翻译
最近的研究表明,85%的女性改变了他们的旅行路线,避免了骚扰和殴打。尽管如此,目前的地图绘制工具还是会向用户提供信息,以便掌控他们的人身安全。我们提出了SafeRoute,这是一个解决城市航行和避免街头骚扰和犯罪问题的新颖解决方案。与其他街道导航应用程序不同,SafeRoute通过深度强化学习引入了一种新的路径生成方式。这使我们能够成功优化多标准路径查找,并将表示学习纳入我们的框架中。我们的经纪人学会选择有利的街道,创造一条安全而短途的道路,其奖励功能包括安全性和效率。在许多城市城市,我们可以访问最近的犯罪报告,我们在波士顿,纽约和旧金山进行实验模型培训。我们在这些城​​市的地区测试我们的模型,特别是人口稠密的市中心地区,那里的旅游者和不熟悉街道的人们走路。我们评估SafeRoute并成功地将最先进的方法改进了距离犯罪的距离最多17%,同时将路径长度减少多达7%。
translated by 谷歌翻译
期望最大化(EM)算法几乎无处不在,用于基于模型的聚类问题中的参数估计;然而,由于其单一路径,单调性质,它可以成为局部最大值。不是使用EM算法,而是开发了进化算法(EA)。该EA利用交叉和变异来促进对健身景观的不同搜索,即可能性表面。此外,该EA代表了基于“硬”模型的聚类的有效方法,因此可以将其视为k均值算法的一种推广,其对于具有球面分量协方差的高斯混合模型的分类EM算法是不等的。 EA在几个数据集上进行了说明,并将其性能与k-means聚类以及使用EM算法的基于模型的聚类进行了比较。
translated by 谷歌翻译
Deep neural network (DNN) accelerators with improved energy and delay are desirable for meeting the requirements of hardware targeted for IoT and edge computing systems. Convolutional neural networks (CoNNs) belong to one of the most popular types of DNN architectures. is paper presents the design and evaluation of an accelerator for CoNNs. e system-level architecture is based on mixed-signal, cellular neural networks (CeNNs). Speciically, we present (i) the implementation of diierent layers, including convolution, ReLU, and pooling, in a CoNN using CeNN, (ii) modiied CoNN structures with CeNN-friendly layers to reduce computational overheads typically associated with a CoNN, (iii) a mixed-signal CeNN architecture that performs CoNN computations in the analog and mixed signal domain, and (iv) design space exploration that identiies what CeNN-based algorithm and architectural features fare best compared to existing algorithms and architectures when evaluated over common datasets-MNIST and CIFAR-10. Notably, the proposed approach can lead to 8.7× improvements in energy-delay product (EDP) per digit classiication for the MNIST dataset at iso-accuracy when compared with the state-of-the-art DNN engine, while our approach could ooer 4.3× improvements in EDP when compared to other network implementations for the CIFAR-10 dataset.
translated by 谷歌翻译