自动车牌识别(ALPR)对于研究界来说是一个具有挑战性的问题,因为它可能适用于全球各种不同车牌参数的多种地理条件。任何ALPR系统都包括三个主要模块,即。牌照的定位,其中的字符的分割以及分段字符的识别。在现实生活中,在具有不同照明和天气条件的室外环境中昼夜捕获图像,不同的污染水平和风湍流,定位,分割和识别成为具有挑战性的任务。如果牌照不符合相应的机动车辆部门在各种功能方面所制定的标准,则任务变得更加复杂,例如:车牌的面积和纵横比,背景颜色,前景色,形状,线数,字体的字体/字符大小,字符间的间距等。此外,车牌通常是脏的或破损的,或者在其位置有划痕或弯曲或倾斜。所有这些都增加了开发有效的ALPR系统的挑战。
translated by 谷歌翻译
优化深度神经网络在很大程度上被认为是一种经验过程,需要手动调整几个参数,例如学习速率,重量衰减和辍学率。可以说,学习率是这些学习中最重要的,这在最近的研究中得到了更多的关注。本文提出了一种计算深度神经网络学习率的新方法。我们推导出一个动态计算学习率的理论框架,然后在标准数据集和体系结构上展示实验结果,以证明我们的方法的有效性。
translated by 谷歌翻译
在神经网络的帮助下,计算机视觉领域的最新进展使我们探索和开发了许多由于缺乏必要的技术而曾无人看管的现有挑战。 HandSign /手势识别是深度神经网络产生重大影响的重要领域之一。在过去几年中,已经进行了大量的研究来识别手势和手势,我们的目标是扩展到我们的母语Bangla(也称为孟加拉语)。我们的工作的主要目标是制作一个自动化工具,以帮助无法说话的人。我们开发了一个系统,可以自动检测基于手势的数字,并用Bangla语言说出结果。根据世界卫生组织(WHO)的报告,世界上有15%的人患有某种残疾。其中,言语障碍等具有交际障碍的个人在社交互动中经历了实质性的障碍。所提出的系统对于减轻这种障碍是非常有价值的。系统的核心是建立在基于卷积神经网络(CNN)的深度学习模型的基础上。该模型对基于手势的数字进行分类,对验证数据的准确率为92%,这确保了它是一个高度可信赖的系统。在对数字进行分类时,得到的输出被送到文本到语音引擎,并且翻译器单元最终生成用Bangla语言的音频输出。可以在http://bit.ly/signdigits2banglaspeech上找到演示ourtool的Web应用程序。
translated by 谷歌翻译
神经网络在各种实际应用中的应用正在改变AI在实践中的应用方式。通过API提供的预训练神经网络模型或使用客户数据定​​制训练预构建的神经网络架构的能力使得开发人员对AI的消耗更加简单,并且导致这些复杂AI模型的广泛采用。虽然针对某些场景存在预构建的网络模型,但为了尝试满足每个应用程序独有的约束,AI团队需要关注开发自定义神经网络架构,以满足精度和内存占用之间的关系,以实现其独特用例的严格限制。然而,只有一小部分数据科学团队拥有从划痕创建神经网络所需的技能和经验,而且需求远远超过供应。在本文中,我们介绍了NeuNetS:一种用于自定义神经网络设计的自动化神经网络综合引擎,可作为IBM的OpenScale产品的一部分提供.NeuNetS可用于文本和图像域,并且可以在很短的时间内为特定任务构建神经网络今天需要humaneffort,并且精确度与人工设计的AI模型类似。
translated by 谷歌翻译
由于视觉社区的高度关注,Visual SLAM近年来取得了重大进展,但仍然存在低质地环境的挑战。基于特征的视觉SLAM由于低纹理环境中的特征不足而不能产生可靠的相机和结构估计。此外,当3D-2D对应的数量不足以用于增量相机估计时使用束调整,现有的视觉SLAM产生部分重建。本文介绍了Edge SLAM,这是一种基于特征的单目视觉SLAM,可以缓解上述问题。我们提出的Edge SLAM管道从图像中检测边缘点,并跟踪那些使用光流进行点对应的边缘点。我们使用三个视图之间的几何关系进一步细化这些点对应。由于楔形点跟踪,我们使用一种强大的方法进行双视图初始化以进行束调整。我们提出的SLAM还确定了在现有重建中估计新相机变得不可靠的潜在情况,并且我们采用一种新颖的方法来使用局部优化技术可靠地估计新相机。我们对我们提出的SLAM流水线进行了广泛的评估,其中包括最流行的开放数据集,并与最新技术进行了比较。实验结果表明,我们的Edge SLAM坚固耐用,可以很好地适应纹理和纹理较少的环境,与现有的最先进的SLAM相比。
translated by 谷歌翻译
随着仇恨言论的在线激增,迫切需要能够检测到这种有害内容的系统。在本文中,我们提出了为EVALITA 2018自动厌女识别(AMI)共享任务开发的机器学习模型。我们生成三种类型的特征:句子嵌入,TF-IDF向量和BOW向量来表示每个推文。这些特征是然后连接并输入机器学习模型。我们的模型来自英语子任务A的第一个和英语副词B的第五个。我们发布我们的获胜模型供公众使用,它可以通过以下网址获得:http://github.com/punyajoy/Hateminers-EVALITA 。
translated by 谷歌翻译
虽然以前用于提高偏见分类器预测公平性的后处理方法仅解决了群体公平性,但我们提出了一种增加个人和群体公平性的方法。我们的新颖框架包括一个单独的偏差检测器,用于在偏差传递算法中对数据样本进行优先级排序,旨在改善不同影响的群体公平性度量。我们在信用,就业和刑事司法等应用中的几个实际数据集的分类准确性,个人公平性和群体公平性的组合中表现出优于以往工作的优越性能。
translated by 谷歌翻译
对于涉及语言和愿景的任务,当前最先进的方法不会利用可能存在的任何其他信息来收集相关(常识)知识。一个代表性的任务是Visual QuestionAnswering,其中提出了大型诊断数据集来测试系统回答图像问题的能力。训练数据通常伴随着各个对象属性和空间分配的注释。在这项工作中,我们迈出了一步,以空间知识的形式整合这些额外的特权信息,以帮助进行视觉推理。我们提出了一个框架,结合了最新的知识蒸馏(教师 - 学生框架),关系推理和概率逻辑语言的进展,将这些知识融入现有的神经网络中,用于视觉问答的任务。具体而言,对于针对图像的问题,我们使用概率逻辑语言来编码空间知识以及关于直接提供给教师网络的面具形式的问题的空间理解。学生网络从地面实况信息以及通过蒸馏的教师预测中学习。我们还展示了使用注意力在教师网络中预测这样一个模板的影响。实际上,我们证明这两种方法都提高了测试准确性,而不是公开数据集上的最先进方法。
translated by 谷歌翻译
准确及时地检测水稻中的病虫害可以大大减少经济损失。它可以帮助农民适时进行治疗。基于深度学习的卷积神经网络(CNN)的最新发展使研究人员能够大大提高图像分类的准确性。在本文中,我们提出了一种基于深度学习的方法,使用在异质背景下在真实生活场景中捕获的图像来检测水稻植物中的病虫害。我们在我们的大型疾病和害虫数据集上试验了各种最先进的卷积神经网络,其中包含了类间和类内变异。结果表明,利用深度卷积神经网络可以有效地检测和识别包括健康植物类在内的九类水稻病虫害,测试集的最佳准确度为99.53%。
translated by 谷歌翻译
自动说话人验证(ASV)是将语音识别为生物识别的过程。 ASV系统表现出相当大的识别性能,具有来自匹配条件的足够语音。 ASV技术的一个主要挑战是通过短时间的语音段来提高识别性能。在短持续时间条件下,由于语音信息不足而无法正确估计模型参数,即使使用最先进的基于i矢量的ASV系统,这也导致识别准确性差。我们假设在考虑识别过程中的估计质量将有助于提高ASV性能。这可以作为ASV系统融合期间的质量测量。本文研究了直接从Baum-Welch统计计算出的语音容量的i向量表示的新质量度量。随后将所提出的度量用作ASV系统融合期间的质量测量。使用NIST SRE 2008语料库进行的实验,我们已经证明,包含所提出的质量度量标准在说话者验证性能方面表现出相当大的改善。结果还表明,在具有短测试话语的现实场景中,所提出的方法的潜力。
translated by 谷歌翻译