机器学习正在从艺术和科学转变为可供每个开发人员使用的技术。在不久的将来,每个平台上的每个应用程序都将包含训练有素的模型,以编码开发人员无法创作的基于数据的决策。这提出了一个重要的工程挑战,因为目前数据科学和建模在很大程度上与标准软件开发过程脱钩。这种分离使得在应用程序内部的机器学习能力不必要地变得困难,并且进一步阻碍了开发人员将MLin置于首位。在本文中,我们介绍了ML .NET,这是一个在过去十年中在Microsoft开发的框架,用于应对在大型软件应用程序中轻松发布机器学习模型的挑战。我们提出了它的架构,并阐明了形成它的应用程序需求。具体而言,我们引入了DataView,它是ML .NET的核心数据抽象,它可以有效地,一致地捕获完整的预测管道,并在训练和推理生命周期中进行。我们结束了论文,对ML .NET进行了令人惊讶的有利的性能研究,与更多的接受者相比,并讨论了一些经验教训。
translated by 谷歌翻译
我们介绍SinGAN,一种无条件的生成模型,可以从单一的自然图像中学习。我们的模型经过训练,可捕获图像中补丁的内部分布,然后能够生成高质量,多样化的样本,这些样本具有与图像相同的视觉内容.SinGAN包含完全卷积GAN的金字塔,每个GAN负责学习补丁分布。不同的图像比例。这允许生成具有显着可变性的任意大小和纵横比的新样本,同时保持训练图像的全局结构和精细结构。与先前的单个图像GANschemes相比,我们的方法不限于纹理图像,并且不是条件的(即,它从噪声生成样本)。用户研究证实,生成的样本通常被混淆为真实图像。我们在广泛的图像处理任务中说明了SinGAN的实用性。
translated by 谷歌翻译
我们提出了一种预测密集深度的方法,在这种情况下,双眼相机和场景中的人都可以自由移动。从单眼视频中恢复动态非刚性物体的深度的现有方法对物体的运动进行了强有力的假设,并且可能仅恢复稀疏深度。在这篇论文中,我们采用数据驱动的方法,从新的数据来源中学习人类深度先验:成千上万的互联网视频,模仿人体模型,即冻结各种自然姿势,同时手持摄影现场。由于人是静止的,因此可以使用多视图立体重建来生成训练数据。在推理时,我们的方法使用来自场景的静态区域的运动视差线索来指导深度预测。我们通过移动手持摄像机捕获的复杂人类活动的真实世界序列展示了我们的方法,显示了改进的超现代单眼深度预测方法,并显示了使用我们预测的深度产生的各种3D效果。
translated by 谷歌翻译
在本文中,我们建议通过将音频片段作为对象来应用来自视觉域的视觉域中的对象检测方法。更具体地说,我们提出了SpeechYOLO,它受到用于图像中对象检测的YOLO算法的启发。 SpeechYOLO的目标是在输入信号内对话语的边界进行定位,并对它们进行正确分类。我们的系统由卷积神经网络组成,具有简单的最小均方损失函数。我们对几个关键字定位任务进行了系统评估,其中包括阅读语音和自发语音的语料库。我们的系统优于其他训练用于定位和分类的算法。
translated by 谷歌翻译
We consider the task of measuring time with probabilistic threshold gates implemented by bio-inspired spiking neurons. In the model of spiking neural networks, network evolves in discrete rounds, where in each round, neurons fire in pulses in response to a sufficiently high membrane potential. This potential is induced by spikes from neighboring neurons that fired in the previous round, which can have either an excitatory or inhibitory effect. Discovering the underlying mechanisms by which the brain perceives the duration of time is one of the largest open enigma in computational neuro-science. To gain a better algorithmic understanding onto these processes, we introduce the neural timer problem. In this problem, one is given a time parameter t, an input neuron x, and an output neuron y. It is then required to design a minimum sized neural network (measured by the number of auxiliary neurons) in which every spike from x in a given round i, makes the output y fire for the subsequent t consecutive rounds. We first consider a deterministic implementation of a neural timer and show that Θ(log t) (de-terministic) threshold gates are both sufficient and necessary. This raised the question of whether randomness can be leveraged to reduce the number of neurons. We answer this question in the affirmative by considering neural timers with spiking neurons where the neuron y is required to fire for t consecutive rounds with probability at least 1 − δ, and should stop firing after at most 2t rounds with probability 1 − δ for some input parameter δ ∈ (0, 1). Our key result is a construction of a neural timer with O(log log 1/δ) spiking neurons. Interestingly, this construction uses only one spiking neuron, while the remaining neurons can be deterministic threshold gates. We complement this construction with a matching lower bound of Ω(min{log log 1/δ, log t}) neu-rons. This provides the first separation between deterministic and randomized constructions in the setting of spiking neural networks. Finally, we demonstrate the usefulness of compressed counting networks for synchronizing neural networks. In the spirit of distributed synchronizers [Awerbuch-Peleg, FOCS'90], we provide a general transformation (or simulation) that can take any synchronized network solution and simulate it in an asynchronous setting (where edges have arbitrary response latencies) while incurring a small overhead w.r.t the number of neurons and computation time.
translated by 谷歌翻译
我们考虑在CrowdCam图像中分割动态区域的问题,其中动态区域是在imageplane上投影移动的3D对象。通常,这些区域是图像中最有趣的部分.CrowdCam图像是由一组非协作用户捕获的相同动态事件的一组图像。今天几乎所有感兴趣的事件都以这种方式被捕获。这种新型图像提出了开发专门为其量身定制的新算法的需求。我们提出了一种分割CrowdCam图像中动态区域的算法。所提出的算法结合了基于几何,外观和接近度的提示。首先,使用几何推理来产生粗略的得分图,其针对每个像素确定静态或动态场景点的投影的可能性。这些地图是嘈杂的,因为CrowdCam图像通常很少,并且在空间和时间上相距很远。然后,我们使用外观空间中的相似性和图像平面中的接近度来鼓励相邻像素被类似地标记为静态或动态。我们定义了一个目标函数,它结合了所有的关键并使用MRF求解器解决它。所提出的方法在公共可用的CrowdCam数据集上进行了测试,并且收集了一个新的和具有挑战性的数据集。我们的结果优于目前最先进的技术。
translated by 谷歌翻译
本文提出了任意方向和对比的常规临床磁共振图像(MRI)中超分辨率的生成模型。该模型重新分析高分辨率图像的恢复作为反问题,其中正演模型模拟MR扫描仪的切片选择轮廓。本文介绍了一种基于多通道全变差的MRI超分辨率。通过估计来自低分辨率输入扫描的超参数来处理偏差 - 方差权衡。该模型在大型脑图像数据库上得到验证。验证表明,模型可以改善大脑分割,可以恢复不同MR对比图像之间的解剖信息,并且可以推断出不同受试者的MR图像中存在的大变异性。可以在https://github.com/WCHN/mtv-preproc免费获得实现
translated by 谷歌翻译
我们提供了一个系统,允许用户通过3D运动雕塑可视化复杂的人体运动 - 一种表示人体在空间中移动时扫过的3D结构的表示。给定一个输入视频,我们的系统会计算运动雕塑,并提供一个用户界面,用于以不同的样式呈现它,包括将雕塑插入原始视频,在合成场景中渲染或物理打印的选项。为了提供这种端到端的工作流程,我们引入了一种算法,该算法可以从一组2D图像中估计人类的3D几何图形,并开发一种基于图像的渲染方法,将雕塑嵌入到场景中。通过自动化过程,我们的系统可以创建专业艺术家领域的动画雕塑,并使其适用于广泛的现有视频材料。通过向观众提供3D信息,运动雕塑揭示了难以用肉眼观察的时空运动信息,并允许观察者解释对象的不同部分如何随时间相互作用。我们通过用户研究验证了这种方法的有效性,发现我们的运动雕塑可视化对现有的频闪和时空可视化方法的运动有了更多的信息。
translated by 谷歌翻译
我们提出了SetExpander,这是一个基于语料库的系统,用于将种子集合扩展为属于同一语义类的完整术语集.SetExpander实现了迭代的端到端工作流。它使用户能够轻松选择一组术语,扩展它,查看扩展集,验证,重新扩展已验证的集并存储它,从而简化了特定于域的细粒度语义类的提取.SetExpander已成功用于实际生活用例包括集成到自动化招聘系统和问题和缺陷解决系统。有关SetExpander的视频演示,请访问:http://drive.google.com/open?id = 1e545bB87Autsch36DjnJHmq3HWfSd1Rv(由于隐私原因,某些图片模糊不清)
translated by 谷歌翻译
本文提出了一个自动学习医学(和其他)图像的形状和外观模型的框架。它基于理论,具有更精确的形状和外观模型导致更准确的图像配准,这反过来导致更准确的形状和外观模型。这自然导致迭代方案,该方案基于概率生成模型,该模型使用类似EM的框架中的高斯 - 牛顿更新拟合。它的开发目的是实现对大脑图像数据进行分布式隐私保护分析,使得共享信息(形状和外观基础功能)可以跨站点传递,而编码单个图像的潜在变量在每个站点保持安全。提出这些潜在变量作为保留隐私数据挖掘应用程序的特征。该方法在2D面部图像的KDEF数据集上定性地展示,表明它可以对准传统上需要使用手动注释数据(手动定义的标记等)训练的形状和外观模型的图像。它适用于手写数字的MNIST数据集,以显示机器学习应用的潜力,特别是当训练数据有限时。该模型能够处理“缺失数据”,这使得它可以根据预测剩余体素的程度进行交叉验证。通过将其应用于超过1,900个分段的T1加权MR图像的数据集来评估导出的用于将个体分类为患者组的特征的适合性,其包括来自COBRE和ABIDE数据集的图像。
translated by 谷歌翻译