As low-cost surveillance cameras proliferate, we advocate for these cameras to be zero streaming: ingesting videos directly to their local storage and only communicating with the cloud in response to queries. To support queries over videos stored on zero-streaming cameras, we describe a system that spans the cloud and cameras. The system builds on two unconventional ideas. When ingesting video frames, a camera learns accurate knowledge on a sparse sample of frames, rather than learning inaccurate knowledge on all frames; in executing one query, a camera processes frames in multiple passes with multiple operators trained and picked by the cloud during the query, rather than one-pass processing with operator(s) decided ahead of the query. On diverse queries over 720-hour videos and with typical wireless network bandwidth and low-cost camera hardware, our system runs at more than 100× video realtime. It outperforms competitive alternative designs by at least 4× and up to two orders of magnitude.
translated by 谷歌翻译
We are in the dawn of deep learning explosion for smartphones. To bridge the gap between research and practice, we present the first empirical study on 16,500 the most popular Android apps, demystifying how smartphone apps exploit deep learning in the wild. To this end, we build a new static tool that dissects apps and analyzes their deep learning functions. Our study answers threefold questions: what are the early adopter apps of deep learning, what do they use deep learning for, and how do their deep learning models look like. Our study has strong implications for app developers, smartphone vendors, and deep learning R&D. On one hand, our findings paint a promising picture of deep learning for smartphones, showing the prosperity of mobile deep learning frameworks as well as the prosperity of apps building their cores atop deep learning. On the other hand, our findings urge optimizations on deep learning models deployed on smartphones, protection of these models, and validation of research ideas on these models.
translated by 谷歌翻译
我们介绍了DeepCache,这是一种原理缓存设计,用于持续移动视觉中的深度学习推理。 DeepCache通过在输入视频流中开发时间局部性来提高模型执行效率。它解决了移动视觉引发的一个关键挑战:缓存必须在视频场景变化下运行,同时在缓存性,开销和模式精度损失之间进行权衡。在模型的输入端,DeepCache通过利用视频的内部结构发现视频时间局部性,为此借鉴了视频压缩的经验证据;在模型中,DeepCache通过利用模型的内部结构来传播可重用结果的区域。值得注意的是,DeepCache避免将视频启发式应用于模型内部模型,这些内部结构不是像素,而是高维,难以理解的数据。我们的DeepCache实现与未经修改的深度学习模型一起使用,需要零开发人员的手动工作,因此可立即部署在现成的移动设备上。我们的实验表明,DeepCache平均将推理执行时间节省了18%,最多可节省47%。 DeepCache平均将系统能耗降低20%。
translated by 谷歌翻译
事实证明,语言模型预训练对于学习通用语言表示非常有用。作为最先进的语言模型预训练模型,BERT(变形金刚的双向编码器表示)在许多语言理解任务中取得了惊人的成果。在本文中,我们进行了详尽的实验,以研究BERT在文本分类任务上的不同微调方法,并为BERTfine调整提供一般解决方案。最后,所提出的解决方案在八个广泛研究的文本分类数据集上获得了新的最新结果。
translated by 谷歌翻译
在本文中,我们专注于面部表情翻译任务,并提出一个新的表达式条件GAN(ECGAN),它可以学习基于一个额外的表达属性从一个图像域到另一个图像域的映射。所提出的ECGAN是通用框架,并且适用于不同的表达生成任务,其中特定的面部表情可以通过条件属性标签容易地控制。此外,我们还介绍了一种新颖的面膜,以减少背景变化的影响。此外,我们提出了在野外进行面部表情生成和识别的整个框架,其包括两个模块,即生成和识别。最后,我们在几个公共面部数据集上评估我们的框架,其中主体具有不同的种族,光照,遮挡,姿势,颜色,内容和背景条件。尽管这些数据集非常多样化,但定性和定量结果都表明我们的方法能够准确,稳健地生成面部表达。
translated by 谷歌翻译
基于秩的学习与深度神经网络已被广泛用于图像策划。然而,基于排名的方法的表现往往很差,这主要是由于两个原因:1)图像裁剪是一种列表排序任务而不是成对比较; 2)由汇集层引起的重新缩放和视图生成中的变形损害了组合学习的性能。在本文中,我们开发了一个新的模型来克服这些问题。为了解决第一个问题,我们将图像裁剪制定为列表方向问题,以找到最佳视图组合。对于第二个问题,提出了定义视图采样(称为RoIRefine)来提取候选视图生成的精细特征映射。给定一系列候选视图,所提出的模型学习视图的前1概率分布并获得最佳视图。通过整合精确抽样和列表排名,所提出的称为LVRN的网络实现了最先进的性能,包括不准确性和速度。
translated by 谷歌翻译
在本文中,我们提出了一个新的计算机视觉任务,名为视频实例分割。此新任务的目标是同时检测,分割和跟踪视频中的实例。用语言来说,这是第一次将图像实例分割问题扩展到视频域。为了完成这项新任务的研究,我们提出了一个名为YouTube-VIS的大型基准测试,它包括2883个高分辨率YouTube视频,40个类别的标签集和131k高质量的实例掩码。此外,我们为此任务提出了一种名为MaskTrack R-CNN的新算法。我们的新方法引入了一个新的跟踪分支到Mask R-CNN,以同时共同执行检测,分割和跟踪任务。最后,我们对我们的新数据集评估了所提出的方法和几个强大的基线。实验结果清楚地证明了所提算法的优点,并揭示了对未来改进的洞察力。我们相信视频实例细分任务将激励社区沿着研究视频理解的路线。
translated by 谷歌翻译
越来越多的城市数据和先进的学习技术使人们能够提高城市功能的效率。其中,提高城市交通效率是最突出的主题之一。最近的研究已经提出使用强化学习(RL)堡垒信号控制。与传统的运输方式不同,后者严重依赖于先验知识,RL可以直接从反馈中学习。另一方面,如果没有仔细的模型设计,现有的RL方法通常需要很长时间才能收敛,学习的模型可能无法适应新的场景。例如,训练良好的交通流量的模型可能不适用于下午的交通,因为交通流量可能会被逆转,从而导致非常不同的状态表示。在本文中,我们提出了一种名为FRAP的新颖设计,它基于交通信号控制中相位竞争的直观原则:当两个交通信号发生冲突时,应优先考虑交通流量较大的一个(即需求较高)。通过相位竞争建模,我们的模型对于诸如翻转和旋转内部流动的对称情况不变。通过进行综合实验,我们证明了我们的模型在复杂的全相选择问题中找到了比现有RL方法更好的解决方案,在训练期间收敛得更快,并且在不同的道路结构和交通条件下实现了更高的普遍性。
translated by 谷歌翻译
随着交通数据的可用性的增加和深度增强学习技术的进步,出现了一种采用增强学习(RL)进行交通信号控制的新趋势。 RL对交通信号控制的一个关键问题是如何定义奖励和状态。交通信号控制的最终目标是最大限度地减少难以直接到达的旅行时间。因此,现有研究通常将奖励定义为几种交通措施的临时加权线性组合。但是,无法保证旅行时间将通过奖励进行优化。另外,最近的RL方法使用更复杂的状态(例如,图像)以描述完整的交通情况。然而,现有的研究都没有讨论过这种复杂的状态表示是否必要。这种额外的复杂性可能导致学习过程显着减慢,但可能不一定会带来显着的性能提升。在本文中,我们建议通过经典运输理论的镜头重新审视RL方法。我们提出以下问题:(1)我们应该如何设计奖励,以便保证最大限度地缩短旅行时间? (2)如何设计一个简洁但足以获得最优解的状态表示?我们提出的方法LIT在运输领域的经典交通信号控制方法理论上得到了支持。 LIT具有简单的状态和奖励设计,因此可以作为未来RL交通信号控制方法的构建模块。对合成和真实数据集的广泛实验表明,我们的方法明显优于最先进的交通信号控制方法。
translated by 谷歌翻译
引入内在奖励来模拟人类智能如何运作,这通常通过内在动机的游戏来评估,即没有外在奖励的游戏,但是用外在奖励进行评估。然而,在这种非常具有挑战性的内在动机游戏环境下,现有的内在奖励方法都不能达到人类水平的表现。在这项工作中,我们提出了一种新颖的狂妄自大驱动的内在奖励(大奖励),据我们所知,这是第一种在内在动机游戏中实现可比较的人类表现的方法。超级奖励的出发来自于婴儿的智力在他们试图获得对环境中的实体的更多控制时的发展;因此,超级奖励旨在最大化特定环境中代理人的实体控制能力。为了形成大型奖励,提出了一种关系转换模型来弥合直接控制和潜在控制之间的差距。实验研究表明,超级奖励可以(i)大大超越最先进的内在奖励方法,(ii)通常达到与Ex-PPO和专业人类级别得分相同的表现水平; (iii)在与外在进展相结合时也具有优越的表现。
translated by 谷歌翻译