自动车牌识别(ALPR)对于研究界来说是一个具有挑战性的问题,因为它可能适用于全球各种不同车牌参数的多种地理条件。任何ALPR系统都包括三个主要模块,即。牌照的定位,其中的字符的分割以及分段字符的识别。在现实生活中,在具有不同照明和天气条件的室外环境中昼夜捕获图像,不同的污染水平和风湍流,定位,分割和识别成为具有挑战性的任务。如果牌照不符合相应的机动车辆部门在各种功能方面所制定的标准,则任务变得更加复杂,例如:车牌的面积和纵横比,背景颜色,前景色,形状,线数,字体的字体/字符大小,字符间的间距等。此外,车牌通常是脏的或破损的,或者在其位置有划痕或弯曲或倾斜。所有这些都增加了开发有效的ALPR系统的挑战。
translated by 谷歌翻译
在无线网络中,许多问题可以被表述为子集选择问题,其中目标是从地面集中选择具有最大化某个目标函数的目标的子集。这些问题通常是难以处理的,因此通过精心构建的启发式方法得以解决,这些启发式方法本身大部分是NP完全的,因此不容易适用于大型网络。另一方面,子集选择问题出现在机器学习(ML)中略有不同的背景中。是从地面集中选择高质量但不同的项目的子集。在本文中,我们介绍了基于DPP的学习(DPPL)框架,以有效地解决无线网络中的子集选择问题。 DPPL旨在通过学习由优化例程选择的最佳子集中的质量 - 多样性权衡来替换用于子集选择的传统优化算法。作为案例研究,我们将DPPL应用于无线链路调度问题,其目标是确定最大化网络范围总和速率的同时活动链路的子集。我们证明了所提出的DPPL接近最优解,其计算复杂度显着低于文献中用于该问题的流行优化算法。
translated by 谷歌翻译
由于功率预算的减少,对边缘设备的深度学习需要节能运行。数据采集​​期间有意的低质量数据可延长电池寿命,低成本传感器产生的自然噪声会降低目标输出的质量,从而阻碍边缘设备采用深度学习。为了克服这些问题,我们提出简单而有效的预处理专家混合(MoPE)模型来处理各种图像失真,包括低分辨率和噪声图像。我们还建议使用经过对侧训练的自动编码器作为噪声图像的预处理专家。我们评估了我们提出的各种机器学习任务的方法,包括MS-COCO 2014数据集上的对象检测,MOT-Challenge数据集上的多个对象跟踪问题,以及UCF 101dataset上的人类活动分类。实验结果表明,该方法在噪声条件下实现了更好的检测,跟踪和活动分类精度,而且对图像的清晰度没有准确性。与基线对象检测网络相比,我们提出的MoPE的开销在内存和计算方面分别为0.67%和0.17%。
translated by 谷歌翻译
近年来,自主微型飞行器(MAV)获得了极大的关注。室内自主飞行需要一个密集的深度图来进行导航空间探测,这是自主导航的基本组成部分。本文中,我们利用已经估计的摄像机和稀疏来解决在室内场景中adrone悬停(小摄像机运动)时重建密集深度的问题。从vSLAM获得的点云。我们首先使用稀疏3D点基于突然的深度变化来分割场景,并通过能量最小化引入基于贴片的局部平面拟合,其将光度一致性和共面性与相邻贴片相结合。该方法还结合平面扫描技术用于几乎没有稀疏的图像片段。初始化点。实验表明,与早期小动作文献相比,该方法在室内人工照明条件下产生了更好的深度,低纹理环境。
translated by 谷歌翻译
与语音相关的脑计算机接口(BCI)技术提供有效的声音通信策略,用于通过从脑信号解释的语音命令来控制设备。为了从主动思想推断出想象的语音,我们提出了一种新的分层深度学习BCI系统,包括音素和词语在内的11种语音令牌的独立分类。我们的新方法利用六个音韵类别(例如,鼻,双唇)的预测的发音信息作为对音素和单词进行分类的中间步骤,从而找到对自然语音合成负责的判别信号。所提出的网络由空间和时间CNN的层次组合与级联编码器级联组成。我们在KARA数据库上的最佳模型在六种不同的二元语音分类任务中实现了83.42%的平均准确度,并且在单个代币识别任务中达到了53.36%,显着优于我们的基线。最终,我们的工作表明,对于可用于辅助想象的语音解码的不同声音的潜在关节运动,可能存在脑图像足迹。
translated by 谷歌翻译
3D扫描配准在诸如Kinect和Velodyne等3D传感器的背景下是一个经典但非常有用的问题。虽然存在severalexisting方法,但这些技术通常是递增的,其中相邻扫描首先记录以获得初始姿势,然后是运动平均和束调整细化。在本文中,我们采用不同的方法开发最小解算器,用于联合计算小环路(例如3周期,4周期和5周期)中摄像机的初始姿态。注意,可以使用最少3点匹配来完成2次扫描的经典注册,以计算6度的相对运动。另一方面,为了在n个周期中联合计算3D注册,我们在前n-1个连续对之间进行2点匹配(即,扫描1和扫描2,...,以及扫描n-1和扫描n)和扫描1和扫描n之间的1或2点匹配。总的来说,我们使用5,7和10个点匹配进行3次,4次和5次循环,并分别恢复12,18和24度的变换变量。使用模拟和实际数据,我们表明使用迷你n循环的3D配准在计算上是有效的,并且与标准配对方法相比可以提供替代的和更好的初始姿势。
translated by 谷歌翻译
外观特征已被广泛用于视频异常检测,尽管它们包含复杂的纠缠因子。我们提出了一种新的方法来模拟监测视频中人类运动的正常模式,以便使用动态骨架特征进行异常检测。我们将骨骼运动分解为两个子组件:全身运动和局部身体姿势。我们在我们的新型消息传递编码器 - 解码器循环网络中模拟耦合特征的动态和相互作用。我们观察到,耦合特征在我们的时空模型中协作地相互作用,以准确地从监视视频序列中识别与人类相关的不规则事件。与传统的基于外观的模型相比,我们的方法具有更高的异常检测性能。我们的模型还通过语义上可理解的特征和支持可解释性的网络架构提供“开箱即用”检查和决策解释。
translated by 谷歌翻译
优化深度神经网络在很大程度上被认为是一种经验过程,需要手动调整几个参数,例如学习速率,重量衰减和辍学率。可以说,学习率是这些学习中最重要的,这在最近的研究中得到了更多的关注。本文提出了一种计算深度神经网络学习率的新方法。我们推导出一个动态计算学习率的理论框架,然后在标准数据集和体系结构上展示实验结果,以证明我们的方法的有效性。
translated by 谷歌翻译
在神经网络的帮助下,计算机视觉领域的最新进展使我们探索和开发了许多由于缺乏必要的技术而曾无人看管的现有挑战。 HandSign /手势识别是深度神经网络产生重大影响的重要领域之一。在过去几年中,已经进行了大量的研究来识别手势和手势,我们的目标是扩展到我们的母语Bangla(也称为孟加拉语)。我们的工作的主要目标是制作一个自动化工具,以帮助无法说话的人。我们开发了一个系统,可以自动检测基于手势的数字,并用Bangla语言说出结果。根据世界卫生组织(WHO)的报告,世界上有15%的人患有某种残疾。其中,言语障碍等具有交际障碍的个人在社交互动中经历了实质性的障碍。所提出的系统对于减轻这种障碍是非常有价值的。系统的核心是建立在基于卷积神经网络(CNN)的深度学习模型的基础上。该模型对基于手势的数字进行分类,对验证数据的准确率为92%,这确保了它是一个高度可信赖的系统。在对数字进行分类时,得到的输出被送到文本到语音引擎,并且翻译器单元最终生成用Bangla语言的音频输出。可以在http://bit.ly/signdigits2banglaspeech上找到演示ourtool的Web应用程序。
translated by 谷歌翻译
神经网络在各种实际应用中的应用正在改变AI在实践中的应用方式。通过API提供的预训练神经网络模型或使用客户数据定​​制训练预构建的神经网络架构的能力使得开发人员对AI的消耗更加简单,并且导致这些复杂AI模型的广泛采用。虽然针对某些场景存在预构建的网络模型,但为了尝试满足每个应用程序独有的约束,AI团队需要关注开发自定义神经网络架构,以满足精度和内存占用之间的关系,以实现其独特用例的严格限制。然而,只有一小部分数据科学团队拥有从划痕创建神经网络所需的技能和经验,而且需求远远超过供应。在本文中,我们介绍了NeuNetS:一种用于自定义神经网络设计的自动化神经网络综合引擎,可作为IBM的OpenScale产品的一部分提供.NeuNetS可用于文本和图像域,并且可以在很短的时间内为特定任务构建神经网络今天需要humaneffort,并且精确度与人工设计的AI模型类似。
translated by 谷歌翻译