As low-cost surveillance cameras proliferate, we advocate for these cameras to be zero streaming: ingesting videos directly to their local storage and only communicating with the cloud in response to queries. To support queries over videos stored on zero-streaming cameras, we describe a system that spans the cloud and cameras. The system builds on two unconventional ideas. When ingesting video frames, a camera learns accurate knowledge on a sparse sample of frames, rather than learning inaccurate knowledge on all frames; in executing one query, a camera processes frames in multiple passes with multiple operators trained and picked by the cloud during the query, rather than one-pass processing with operator(s) decided ahead of the query. On diverse queries over 720-hour videos and with typical wireless network bandwidth and low-cost camera hardware, our system runs at more than 100× video realtime. It outperforms competitive alternative designs by at least 4× and up to two orders of magnitude.
translated by 谷歌翻译
We are in the dawn of deep learning explosion for smartphones. To bridge the gap between research and practice, we present the first empirical study on 16,500 the most popular Android apps, demystifying how smartphone apps exploit deep learning in the wild. To this end, we build a new static tool that dissects apps and analyzes their deep learning functions. Our study answers threefold questions: what are the early adopter apps of deep learning, what do they use deep learning for, and how do their deep learning models look like. Our study has strong implications for app developers, smartphone vendors, and deep learning R&D. On one hand, our findings paint a promising picture of deep learning for smartphones, showing the prosperity of mobile deep learning frameworks as well as the prosperity of apps building their cores atop deep learning. On the other hand, our findings urge optimizations on deep learning models deployed on smartphones, protection of these models, and validation of research ideas on these models.
translated by 谷歌翻译
我们介绍了DeepCache,这是一种原理缓存设计,用于持续移动视觉中的深度学习推理。 DeepCache通过在输入视频流中开发时间局部性来提高模型执行效率。它解决了移动视觉引发的一个关键挑战:缓存必须在视频场景变化下运行,同时在缓存性,开销和模式精度损失之间进行权衡。在模型的输入端,DeepCache通过利用视频的内部结构发现视频时间局部性,为此借鉴了视频压缩的经验证据;在模型中,DeepCache通过利用模型的内部结构来传播可重用结果的区域。值得注意的是,DeepCache避免将视频启发式应用于模型内部模型,这些内部结构不是像素,而是高维,难以理解的数据。我们的DeepCache实现与未经修改的深度学习模型一起使用,需要零开发人员的手动工作,因此可立即部署在现成的移动设备上。我们的实验表明,DeepCache平均将推理执行时间节省了18%,最多可节省47%。 DeepCache平均将系统能耗降低20%。
translated by 谷歌翻译
由于人工智能(AI)的成熟,分类问题取得了重大进展。然而,区分物品与没有明显界限的类别对于机器来说仍然是一个巨大的挑战 - 这对于机器智能化也至关重要。为了研究模糊概念的分类,我们用四阶段的操作流程来定义和提出全局性检测。然后,我们使用他们的地理位置在Facebook公共页面类似图表上展示我们的框架。我们的预测算法实现了高精度(89%)和召回(88%)的本地页面。我们评估州和国家级别的结果,发现在那些拥有大型和国际城市的州(纽约州,加利福尼亚州),全球节点比率相对较高。本文还展示并研究了几个全局节点的例子。我们希望我们的结果从每个分类问题中揭示出完美的价值,并提供对在线社交网络(OSN)中全局和本地节点的更好理解。
translated by 谷歌翻译
众所周知,神经网络是一类具有高度表现力的功能,能够适应甚至随机输入输出映射,精确度为100美元\%。在这项工作中,我们提出了神经网络的特性,补充了表达性的这一方面。通过使用傅立叶分析的工具,我们表明深度ReLUnetworks偏向于低频函数,这意味着它们不能在不影响其全局行为的情况下产生局部波动。直观地说,这个属性符合过度参数化网络查找在数据样本中推广的简单模式的观察结果。我们还研究了数据流形的形状如何影响表达性,通过证明学习高频率随着增加的多重复杂性而变得更加容易,并且对这种行为提供理论​​上的理解。最后,我们研究频率分量在参数扰动方面的鲁棒性,以发展必须精细调整参数以表达高频函数的直觉。
translated by 谷歌翻译
人脸识别近年来取得了长足的进步,主要归功于设计的大容量模型和丰富的标签数据。然而,扩大当前的百万级身份注释变得越来越禁止。在这项工作中,我们表明,未标记的面部数据可以与标记的面部数据一样有效。在这里,我们考虑设置密切模仿现实世界的场景,其中未标记的数据从不受约束的环境收集,并且它们的身份与标记的数据是唯一的。我们的主要观点是,尽管类信息不可用,但我们仍然可以通过以自下而上的方式构建关系图来忠实地近似这些语义关系。我们提出共识驱动传播(CDP)来解决这个具有挑战性的问题,有两个模块,即“委员会”和“调解员”,它们通过仔细聚合多视图信息来强有力地选择正面对。大量实验验证了两个模块的有效性,以丢弃异常值和挖掘硬性积极因素。使用CDP,我们通过仅使用9%的标签实现了对MegaFace识别挑战的78.18%的令人信服的准确度,相比之下,当使用未标记数据时为61.78%,而当使用所有标签时为78.52%。
translated by 谷歌翻译
我们根据修辞结构理论(RST)提出了一种有效的句子级语篇分析的神经框架。我们的框架包括一个话语分段器,用于识别文本中的基本话语单元(EDU),以及一个以低调的方式构建话语树的话语分析器。分段器和解析器都基于PointerNetworks并在线性时间内运行。我们的分段器得出$ F_1 $得分为95.4,我们的解析器在累计标签(关系)指标上获得了$ F_1 $ 81.7分,超过以前的方法,并且在两项任务上都达成了人类协议(98.3和83.0 $) F_1 $)。
translated by 谷歌翻译
Recently, improving the relevance and diversity of dialogue system has attracted wide attention. For a post x, the corresponding response y is usually diverse in the real-world corpus, while the conventional encoder-decoder model tends to output the high-frequency (safe but trivial) responses and thus is difficult to handle the large number of responding styles. To address these issues, we propose the Atom Responding Machine (ARM), which is based on a proposed encoder-composer-decoder network trained by a teacher-student framework. To enrich the generated responses, ARM introduces a large number of molecule-mechanisms as various responding styles, which are conducted by taking different combinations from a few atom-mechanisms. In other words, even a little of atom-mechanisms can make a mickle of molecule-mechanisms. The experiments demonstrate diversity and quality of the responses generated by ARM. We also present generating process to show underlying interpretability for the result.
translated by 谷歌翻译
视觉定位是一个有吸引力的问题,它基于查询图像估计来自数据库图像的相似定位。它是各种应用的关键任务,例如自动驾驶汽车,辅助导航和增强现实。任务的挑战性问题在于查询和数据库图像之间的不同外观变化,包括照明变化,季节变化,动态对象变化和观点变化。为了应对这些挑战,本文提出了全景环形透镜和强大的深度图像描述符的全景环形定位器。处理由单个摄像机捕获的全景环形图像并将其馈送到NetVLAD网络中以形成活动的深度描述符,并且利用顺序匹配来生成定位结果。在公共数据集和现场进行的实验说明了所提出的系统的验证。
translated by 谷歌翻译
条件生成对抗网络(GAN)中的对抗性损失未被设计为直接优化目标任务的评估度量,因此,可能不总是引导GAN中的生成器生成具有改进的度量分数的数据。为了克服这个问题,我们提出了一种新颖的MetricGAN方法,旨在针对一个或多个评估指标优化发电机。此外,基于MetricGAN,生成数据的度量分数也可以由用户任意指定。我们在语音增强任务上测试了所提出的MetricGAN,这特别适合于验证所提出的方法,因为存在多个度量来测量语音信号的不同方面。此外,这些指标通常是复杂的,并且无法通过Lp或传统的对抗性无法完全优化。
translated by 谷歌翻译