As low-cost surveillance cameras proliferate, we advocate for these cameras to be zero streaming: ingesting videos directly to their local storage and only communicating with the cloud in response to queries. To support queries over videos stored on zero-streaming cameras, we describe a system that spans the cloud and cameras. The system builds on two unconventional ideas. When ingesting video frames, a camera learns accurate knowledge on a sparse sample of frames, rather than learning inaccurate knowledge on all frames; in executing one query, a camera processes frames in multiple passes with multiple operators trained and picked by the cloud during the query, rather than one-pass processing with operator(s) decided ahead of the query. On diverse queries over 720-hour videos and with typical wireless network bandwidth and low-cost camera hardware, our system runs at more than 100× video realtime. It outperforms competitive alternative designs by at least 4× and up to two orders of magnitude.
translated by 谷歌翻译
We are in the dawn of deep learning explosion for smartphones. To bridge the gap between research and practice, we present the first empirical study on 16,500 the most popular Android apps, demystifying how smartphone apps exploit deep learning in the wild. To this end, we build a new static tool that dissects apps and analyzes their deep learning functions. Our study answers threefold questions: what are the early adopter apps of deep learning, what do they use deep learning for, and how do their deep learning models look like. Our study has strong implications for app developers, smartphone vendors, and deep learning R&D. On one hand, our findings paint a promising picture of deep learning for smartphones, showing the prosperity of mobile deep learning frameworks as well as the prosperity of apps building their cores atop deep learning. On the other hand, our findings urge optimizations on deep learning models deployed on smartphones, protection of these models, and validation of research ideas on these models.
translated by 谷歌翻译
我们介绍了DeepCache,这是一种原理缓存设计,用于持续移动视觉中的深度学习推理。 DeepCache通过在输入视频流中开发时间局部性来提高模型执行效率。它解决了移动视觉引发的一个关键挑战:缓存必须在视频场景变化下运行,同时在缓存性,开销和模式精度损失之间进行权衡。在模型的输入端,DeepCache通过利用视频的内部结构发现视频时间局部性,为此借鉴了视频压缩的经验证据;在模型中,DeepCache通过利用模型的内部结构来传播可重用结果的区域。值得注意的是,DeepCache避免将视频启发式应用于模型内部模型,这些内部结构不是像素,而是高维,难以理解的数据。我们的DeepCache实现与未经修改的深度学习模型一起使用,需要零开发人员的手动工作,因此可立即部署在现成的移动设备上。我们的实验表明,DeepCache平均将推理执行时间节省了18%,最多可节省47%。 DeepCache平均将系统能耗降低20%。
translated by 谷歌翻译
本文探讨了利用知识蒸馏改进多任务深度神经网络(MT-DNN)(Liu et al。,2019)来学习跨多种自然语言理解任务的文本表示。 Althoughensemble学习可以提高模型性能,服务于诸如MT-DNN之类的大型DNN的集合可能非常昂贵。在这里,我们在多任务学习环境中应用了知识预测方法(Hinton等,2015)。对于每个任务,我们训练一个不同MT-DNN(教师)的集合,其表现优于任何单个模型,然后训练单个MT- DNN(学生)通过多任务学习来从这些合奏教师中提取{提取}知识。我们证明,蒸馏的MT-DNN明显优于9个GLUE任务中的原始MT-DNNon 7,推动了GLUE基准(单一模型)到83.7 \%(1.5%绝对改进\脚注{基于GLUE排行榜:http://gluebenchmark.com/leaderboard截至2019年4月1日。})。代码和预先训练的模型将通过以下网址公开发布://github.com/namisan/mt-dnn。
translated by 谷歌翻译
随着移动设备变得越来越流行,移动游戏已经成为一个充满希望的市场,拥有数十亿美元的收入。世界各地已开发出各种移动游戏平台和服务。对这些平台和服务的一个关键挑战是了解移动游戏中的流失行为,这通常涉及微观层面(应用程序和特定用户之间)和宏观层面(应用程序及其所有用户之间)的流失。准确的微观流失预测和宏观级别的流失排名将有利于许多利益相关者,如游戏开发商,广告商和平台运营商。在本文中,我们提出了第一个大规模的流失分析平板电脑分析,它支持微观流失预测和宏观流程排序。对于微观流失预测,鉴于建立在传统机器学习模型上的最先进方法的共同限制,我们设计了一种新颖的半监督和归纳嵌入模型,它共同学习预测功能和用户的嵌入功能 - 应用关系。我们通过深度神经网络对这两个函数进行建模,采用独特的边缘嵌入技术,能够捕获背景信息和关系动态。我们还设计了一种novelattributed随机游走技术,该技术考虑了拓扑性和属性相似性。为了解决宏观级别的流失排名,我们建议构建一个关联图,将估计的微观流失概率作为边权重,并在图上调整链路分析算法。我们设计了一个简单的算法SimSum,并采用了两个更先进的算法PageRank和HITS。我们针对两级churnanalysis问题的解决方案的性能是根据从SamsungGame Launcher平台收集的真实数据进行评估的。
translated by 谷歌翻译
车辆重新识别是一个重要的问题,随着视频监控和智能传输应用的快速扩展而变得可取。通过回顾人类视觉的识别过程,我们发现当人类识别不同的车辆时存在本地的等级依赖性。具体地,人类总是首先确定一个车辆的粗粒度类别,即汽车模型/类型。然后,在预测的汽车模型/类型的分支下,他们将通过细微的视觉线索(例如,定制的绘画和挡风玻璃)在细粒度水平上识别特定的车辆。受粗到细分层过程的启发,我们提出了一种用于车辆重新识别的端到端基于RNN的分层注意(RNN-HA)分类模型。 RNN-HA由三个相互耦合的模块组成:第一个模块生成车辆图像的图像表示,第二个层次模块模拟上述层级依赖关系,最后一个注意模块侧重于捕获特定车辆彼此之间的细微视觉信息识别。通过对两个车辆重新识别基准数据集VeRi和VehicleID进行全面的实验,我们证明了所提出的模型实现了超越现有技术的卓越性能。
translated by 谷歌翻译
具有有限信息反馈(强盗)的在线学习试图解决在线学习者在学习过程中从环境接收部分反馈信息的问题。在此设置下,Flaxman通过提出具有预期梯度(OGDEG)算法的在线梯度下降来扩展Zinkevich的经典在线梯度下降(OGD)算法Zinkevich [2003]。具体来说,它使用一个简单的技巧来估计损失函数$ f_t $的梯度,通过在单个点进行评估并将预期的后悔限制为$ \ mathcal {O}(T ^ {5/6})$ Flaxman等。 [2005]。已经表明,与一阶算法相比,二阶在线学习算法如Online Newton Step(ONS)Hazan等。 [2007]可以显着提高传统在线学习的收敛速度。本文旨在利用二阶信息加速OGDEG的收敛。特别是,我们利用预期梯度技巧扩展了ONS算法,并开发了一种新颖的二阶在线学习算法,即具有预期梯度的在线牛顿步(ONSEG)。理论上,我们证明了所提出的ONSEG算法显着降低了OGDEG的预期遗憾。在强盗反馈场景中从$ \ mathcal {O}(T ^ {5/6})$到$ \ mathcal {O}(T ^ {2/3})$。根据经验,我们在几个真实世界的数据集中展示了所提出的算法的优点。
translated by 谷歌翻译
我们提出了一种新的算法来训练一个强大的神经网络来抵抗对抗攻击。我们的算法受以下两个思想的推动。首先,虽然最近的工作已经证明融合随机性可以提高神经网络的鲁棒性(Liu 2017),但我们注意到,对所有层添加噪声并不是结合随机性的最佳方法。我们在贝叶斯神经网络(BNN)框架下对随机性进行建模,以可扩展的方式正式学习模型的后验分布。其次,我们在BNN中制定了mini-max问题,以学习对抗性攻击下的最佳模式分布,从而导致对抗训练的贝叶斯神经网络。实验结果表明,所提出的算法在强攻击下具有最先进的性能。在CIFAR-10 withVGG网络上,我们的模型与PGDattack下的对抗训练(Madry 2017)和随机自我组合(Liu 2017)相比,在$ 0.035 $失真的情况下,准确度提高了14%,并且在ImageNet的一个子集上差距变得更大。
translated by 谷歌翻译
投注机制是引发代理人对事件预测的一次性投注机制。对于确定性投注机制,现有的不可能性结果表明一些理想的理论性质不相容。特别是,帕累托最优性(在分配之前没有盈利的边注)不能与弱激励兼容性,弱预算平衡和个人理性一起实现。在本文中,我们扩展了投注机制的设计空间,以允许随机化,并询问其中是否有随机化的投注机制,可以实现所有先前考虑​​的所需属性,包括帕累托最优性。我们用两类随机化的投注机制积极地回答这个问题:i)现有确定性投资机制的简单随机抽签式实施,以及ii)我们称之为代理投注机制的另一族简单和随机化投注机制,这些机制是强大的tonoisy基本事实。这一系列机制建立在嘈杂标签学习的基础上(Natarajan等人,2013),以及最近将该信息扩展到信息引出而没有验证设置(Liu和Chen2018)。我们表明,广泛的随机化投注机制家族满足了所有理想的理论属性。
translated by 谷歌翻译
人脸识别近年来取得了长足的进步,主要归功于设计的大容量模型和丰富的标签数据。然而,扩大当前的百万级身份注释变得越来越禁止。在这项工作中,我们表明,未标记的面部数据可以与标记的面部数据一样有效。在这里,我们考虑设置密切模仿现实世界的场景,其中未标记的数据从不受约束的环境收集,并且它们的身份与标记的数据是唯一的。我们的主要观点是,尽管类信息不可用,但我们仍然可以通过以自下而上的方式构建关系图来忠实地近似这些语义关系。我们提出共识驱动传播(CDP)来解决这个具有挑战性的问题,有两个模块,即“委员会”和“调解员”,它们通过仔细聚合多视图信息来强有力地选择正面对。大量实验验证了两个模块的有效性,以丢弃异常值和挖掘硬性积极因素。使用CDP,我们通过仅使用9%的标签实现了对MegaFace识别挑战的78.18%的令人信服的准确度,相比之下,当使用未标记数据时为61.78%,而当使用所有标签时为78.52%。
translated by 谷歌翻译