For the past couple of decades, numerical optimization has played a centralrole in addressing wireless resource management problems such as power controland beamformer design. However, optimization algorithms often entailconsiderable complexity, which creates a serious gap between theoreticaldesign/analysis and real-time processing. To address this challenge, we proposea new learning-based approach. The key idea is to treat the input and output ofa resource allocation algorithm as an unknown non-linear mapping and use a deepneural network (DNN) to approximate it. If the non-linear mapping can belearned accurately by a DNN of moderate size, then resource allocation can bedone in almost real time -- since passing the input through a DNN only requiresa small number of simple operations. In this work, we address both the thereotical and practical aspects ofDNN-based algorithm approximation with applications to wireless resourcemanagement. We first pin down a class of optimization algorithms that are`learnable' in theory by a fully connected DNN. Then, we focus on DNN-basedapproximation to a popular power allocation algorithm named WMMSE (Shi {\it etal} 2011). We show that using a DNN to approximate WMMSE can be fairly accurate-- the approximation error $\epsilon$ depends mildly [in the order of$\log(1/\epsilon)$] on the numbers of neurons and layers of the DNN. On theimplementation side, we use extensive numerical simulations to demonstrate thatDNNs can achieve orders of magnitude speedup in computational time compared tostate-of-the-art power allocation algorithms based on optimization.
translated by 谷歌翻译
从图像中自动消除雨水效果有许多应用,例如自动驾驶,无人机驾驶和照片编辑,并且仍然吸引了许多人的注意力。传统方法使用启发式手工制作各种先验,以从图像中移除或分离雨效果。最近提出了基于端到端深度学习的去除方法以提供更大的灵活性和有效性。然而,当遇到大雨的图像时,它们往往不会获得良好的视觉效果。大雨带来了不仅有雨的条纹,还有由于微小雨滴积聚而产生的雾状效应。与以往的去除方法不同,在本文中,我们使用新的雨模型来模拟雨水图像,不仅可以去除雨水条纹,还可以消除类似雾霾的效果。在我们的模型的指导下,我们设计了一个双分支网络来容忍其参数。然后,联合训练SPP结构以改进我们模型的结果,以便灵活地控制去除雾状效果的程度。此外,提出了一种可以定位雨天像素的子网,以指导我们的网络训练。在几个数据集上的广泛实验表明,我们的方法在目标评估和视觉质量方面都优于最先进的技术。
translated by 谷歌翻译
物体检测作为计算机视觉中最基本和最具挑战性的问题之一,近年来受到了极大的关注。它在过去二十年的发展可以被视为计算机视觉历史的缩影。如果我们将今天的物体探测视为深度学习的力量下的技术美学,那么将时钟倒退20年我们就会见证冷武器时代的智慧。本文根据其技术演变,跨越四分之一世纪的时间(从20世纪90年代到2019年),广泛回顾了400多篇关于物体检测的论文。本文讨论了许多主题,包括历史里程碑检测器,检测数据集,度量,检测系统的基本构建模块,加速技术以及最新的检测方法。本文还回顾了一些重要的检测方法。应用程序,如行人检测,人脸检测,文本检测等,近年来对其挑战和技术改进进行了深入分析。
translated by 谷歌翻译
今天的高风险对抗性互动让攻击者不断突破不断改进的安全措施。欺骗通过误导攻击者做出次优决策来减轻防御者的损失。为了正当理由欺骗,我们引入了特征欺骗游戏(FDG),这是一个独立于领域的游戏理论模型,并提出了学习和规划框架。我们做出以下贡献。 (1)我们表明,我们可以使用来自适度数量的欺骗策略的数据统一学习对手的偏好。 (2)我们提出了一种近似算法,用于找出最优欺骗策略,并证明该问题是NP难的。 (3)我们进行了全面的实验,以实证验证我们的方法和结果。
translated by 谷歌翻译
面部解析,即为面部图像中的每个像素分配语义标签,最近由于其巨大的应用潜力而引起了越来越多的关注。尽管许多面部相关领域(例如,面部识别和面部检测)已经被很好地研究多年,但是现有的用于面部解析的数据集在尺度和质量方面仍然受到严格限制,例如,广泛使用的Helen数据集仅包含2,330个图像。这主要是因为像素级注释是一项成本高且耗时的工作,特别是对于没有明确边界的面部部位。缺乏准确的注释数据集成为面部解析任务进展的主要障碍。利用密集的面部标志来指导解析注释是一种可行的方法。然而,在人脸上注释密集的地标会遇到与解析注释相同的问题。为了克服上述问题,在本文中,我们开发了一个高效的faceparsing注释框架,它通过两个连续的模块大大简化和加速了解析注释。受益于拟议的框架,我们构建了一个新的Dense Landmark Guided Face Parsing(LaPa)基准。它包含22,000个面部图像,表情,姿势,遮挡等方面有很大变化。每个图像都提供了精确的11类像素级标签贴图注释以及106点标记的坐标。据我们所知,它是目前最大的面部解析publicdataset。为了充分利用具有丰富面形和边界先验的LaPa数据集,我们提出了一种简单而有效的边界敏感解析网络(BSPNet)。我们的网络被视为提议的LaPa数据集的基线模型,同时,它在Helen数据集上实现了最先进的性能,而无需借助于外部对齐。
translated by 谷歌翻译
我们研究后勤强盗,其中奖励是二元成功概率$ \ exp(\ beta a ^ \ top \ theta)/(1 + \ exp(\ beta a ^ \ top \ theta))$ andactions $ a $和systems $ \ theta $在$ d $ -dimensional单位球内。虽然先前后悔限制了解决斜率参数$ \ beta $的logistic banditexhibit指数依赖的算法,但我们建立了与Thompson采样无关的格式。 beta $。特别是,我们确定,当可行动作的集合与可能的系数向量集合相同时,Thompsonsampling的贝叶斯遗憾是$ \ tilde {O}(d \ sqrt {T})$。我们还建立了一个$ \ tilde {O}(\ sqrt {d \ etaT} / \ lambda)$ bound,它适用范围更广,其中$ \ lambda $是最差情况下的最佳对数,$ \ eta $是“脆弱性维度,“一个新的统计数据,用于捕捉一个模型的最优行动对其他模型的满足程度。我们通过证明,对于任何$ \ epsilon> 0 $,没有算法可以实现$ \ mathrm {poly}(d,1 / \ lambda)\ cdot T ^ {1- \ epsilon} $,我们证明了脆弱性维度起着非常重要的作用。后悔。
translated by 谷歌翻译
在这封信中,我们将多任务学习引入高光谱图像分类。深度学习模型在高光谱图像分类方面取得了令人满意的结果,但其性能高度依赖于足够的标记样本,这些样本在高光谱图像上很少。但是,来自多个数据集的样本可能足以训练一个深度学习模型,从而提高其性能。为此,引入光谱知识以确保跨域的共享特征相似。在实验中使用四种高光谱数据集。我们在三个数据集(帕维亚大学,印度松树和帕维亚中心)上实现了更好的分类准确性,这三个数据集最初结果不佳或分类系统简单,并且最初使用复杂分类系统对Salinas Valley数据进行了竞争性结果。当训练样本稀缺时,光谱知识可用于防止深度网络过度拟合。所提出的方法成功地利用来自多个数据集的样本来增加其性能。
translated by 谷歌翻译
基于外观的凝视估计提供相对不受约束的注视。然而,由于个体差异,主题独立模型的准确性有限。为了改善估计,我们提出了一种新颖的凝视分解方法和单一凝视点校准方法,其动机是由于发现受试者间的平方偏差超过了受试者独立估计的受试者内变异。我们将注视角度分解为受试者依赖的偏倚项和注视角度与偏倚之间的受试者无关的差异项。差异项由深度卷积网络估算。对于无校准跟踪,我们将依赖于主体的偏置项设置为零。对于单一凝视点校准,我们会根据一个点上的一些图像来估计偏差。三个数据集上的实验表明,作为无校准估算器,所提出的方法优于使用最先进的方法。单模型最高$ 10.0 \%$。所提出的校准方法是稳健的,并且显着降低了估计误差(高达$ 35.6 \%$),通过校准实现了基于外观的眼动仪的最佳性能。
translated by 谷歌翻译
购物环境中的活动识别是一项重要且具有挑战性的计算机视觉任务。我们引入了一个框架,用于整合人体姿势和对象运动,以时间上的方式检测和分类活动(非常短的和类似的活动)。我们通过提出一种多流递归卷积神经网络架构来实现这一目标,该架构由时空\ emph {注意}机制引导,用于活动识别和检测。为此,在没有准确的姿势监视的情况下,我们将生成对抗网络(GAN)纳入生成候选身体关节。此外,基于直觉,复杂的行为要求人类精确识别不止一个信息源,我们将对象运动的第二个流整合到我们的网络中,作为先验知识,我们定量地显示结果的改进。此外,我们通过在MERL购物数据集上实现最先进的结果,凭经验展示了我们的方法的能力。最后,我们进一步研究了这种方法对我们收集的新购物数据集的有效性,以解决现有的缺点,包括但不限于缺乏培训数据。
translated by 谷歌翻译
本文通过使用生成网络(SPLINE-Net)的LightingInterpolation和Normal Estimation来解决稀疏光度立体声.SPLINE-Net包含一个光照插值网络,在稀疏的光线作为输入的情况下生成密集的照明观测,然后是一个估算表面的normalestimation网络法线。两个网络由所提出的对称和非对称损失函数共同约束,以强制执行各向异性约束并执行对全局照明效果的异常拒绝。通过仅使用10个不同光源的图像而不是使用近100个图像,SPLINE-Net被验证为优于现有BRDF光度计的现有方法。
translated by 谷歌翻译