许多现实世界的分类问题的班级标签频率不平衡;一个被称为“阶级失衡”问题的著名问题。经典的分类算法往往会偏向多数级别,使分类器容易受到少数族裔类别的分类。尽管文献富含解决此问题的方法,但随着问题的维度的增加,许多方法没有扩展,并且运行它们的成本变得越来越高。在本文中,我们提出了端到端的深层生成分类器。我们提出了一个域构成自动编码器,以将潜在空间保留为发电机的先验,然后将其用于与其他两个深网,一个歧视器和一个分类器一起玩对抗游戏。对三个不同的多级不平衡问题进行了广泛的实验,并与最先进的方法进行了比较。实验结果证实了我们方法比流行算法在处理高维不平衡分类问题方面具有优势。我们的代码可在https://github.com/tanmdl/slppl-gan上找到。
translated by 谷歌翻译
深度是自治车辆以感知障碍的重要信息。由于价格相对较低,单目一体相机的小尺寸,从单个RGB图像的深度估计引起了对研究界的兴趣。近年来,深神经网络(DNN)的应用已经显着提高了单眼深度估计(MDE)的准确性。最先进的方法通常设计在复杂和极其深的网络架构之上,需要更多的计算资源,而不使用高端GPU实时运行。虽然一些研究人员试图加速运行速度,但深度估计的准确性降低,因为压缩模型不代表图像。另外,现有方法使用的特征提取器的固有特性导致产生的特征图中的严重空间信息丢失,这也损害了小型图像的深度估计的精度。在本研究中,我们有动力设计一种新颖且有效的卷积神经网络(CNN),其连续地组装两个浅编码器解码器样式子网,以解决这些问题。特别是,我们强调MDE准确性和速度之间的权衡。已经在NYU深度V2,Kitti,Make3D和虚幻数据集上进行了广泛的实验。与拥有极其深层和复杂的架构的最先进的方法相比,所提出的网络不仅可以实现可比性的性能,而且在单个不那么强大的GPU上以更快的速度运行。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
本文提出了一种用于处理不平衡高光谱图像分类的新型多假进化生成的对抗网络(MFEGAN)。它是一种端到端的方法,其中在发电机网络中考虑了不同的生成目标损失,以改善鉴别器网络的分类性能。因此,通过将分类器网络嵌入识别函数的顶部,相同的鉴别器网络已被用作标准分类器。通过两个高光谱空间光谱数据集验证了所提出的方法的有效性。同样的生成和鉴别者架构已经与两个不同的GAN目标用于与所提出的方法进行公平的性能比较。从实验验证中观察到所提出的方法优于最先进的方法,具有更好的分类性能。
translated by 谷歌翻译
一方面,人工神经网络(ANNS)通常被标记为黑匣子,缺乏可解释性;阻碍了人类对ANNS行为的理解的问题。存在需要生成ANN的有意义的顺序逻辑,用于解释特定输出的生产过程。另一方面,决策树由于它们的代表语言和有效算法的存在而导致更好的可解释性和表现力,以将树木转化为规则。然而,基于可用数据生长决策树可能会产生大于不概括的必要树木或树木。在本文中,我们介绍了来自ANN的规则提取的两种新的多变量决策树(MDT)算法:精确可转换决策树(EC-DT)和扩展的C-NET算法。它们都将纠正的线性单元激活函数转换为代表树的神经网络,这可以进一步用于提取多元规则以进行推理。虽然EC-DT以层式方式转换ANN以表示由网络的隐藏层内隐式学习的决策边界,但扩展的C-Net将来自EC-DT的分解方法与C5树学习算法相结合形成决策规则。结果表明,虽然EC-DT在保持结构和ANN的保真度方面优越,但扩展的C-Net产生了来自ANN的最紧凑且高效的树木。两者都建议的MDT算法生成规则,包括多个属性的组合,以便决策的精确解释。
translated by 谷歌翻译
当代群指标通常是孤立使用的,专注于在个人或集体层面上提取信息。这些很少集成以推断群,其个人成员及其整体集体动态的顶级操作图片。本文的主要贡献是将有关群体的一系列指标组织成本体论的信息标记集合,以从外部观察者的识别剂的角度来表征群体。我们的贡献显示了我们标题为\ emph {swarm Analytics}的新研究领域的基础,其主要关注的是设计和组织群体标记的集合,以了解,检测,识别,跟踪和学习特定的见解关于一个群体系统。我们介绍了我们设计的信息标记框架,为群研究提供了新的途径,尤其是针对异质和认知群,这些群可能需要更高级的能力来检测机构并分类代理的影响和反应。
translated by 谷歌翻译
语言是个人表达思想的方法。每种语言都有自己的字母和数字字符集。人们可以通过口头或书面交流相互交流。但是,每种语言都有同类语言。聋哑和/或静音的个人通过手语交流。孟加拉语还具有手语,称为BDSL。数据集是关于孟加拉手册图像的。该系列包含49个单独的孟加拉字母图像。 BDSL49是一个数据集,由29,490张具有49个标签的图像组成。在数据收集期间,已经记录了14个不同成年人的图像,每个人都有不同的背景和外观。在准备过程中,已经使用了几种策略来消除数据集中的噪声。该数据集可免费提供给研究人员。他们可以使用机器学习,计算机视觉和深度学习技术开发自动化系统。此外,该数据集使用了两个模型。第一个是用于检测,而第二个是用于识别。
translated by 谷歌翻译
构建可用的无线电监控自动语音识别(ASR)系统是资源不足的语言的一项挑战性任务,但这在广播是公众沟通和讨论的主要媒介的社会中至关重要。联合国在乌干达的最初努力证明了如何理解被社交媒体排除在社交媒体中的农村人的看法在国家规划中很重要。但是,由于缺乏转录的语音数据集,这些努力正受到挑战。在本文中,Makerere人工智能研究实验室发布了155小时的Luganda Radio演讲语料库。据我们所知,这是撒哈拉以南非洲第一个公开可用的广播数据集。本文描述了语音语料库的开发,并使用开源语音识别工具包Coqui STT Toolkit提出了基线Luganda ASR绩效结果。
translated by 谷歌翻译
专家决策者开始依靠数据驱动的自动化代理来帮助他们提供各种任务。对于此合作执行正确,人类决策者必须具有何时以及不依赖代理人的何时和何时具有智力模式。在这项工作中,我们的目标是确保人工决策者学习代理商的优势和劣势的有效心理模型。为了实现这一目标,我们提出了一个基于示例的教学策略,人类在代理人的帮助下解决任务并尝试制定一组何时和不推迟的指导方针。我们提出了一种新颖的AI的心理模型的参数化,其在教学示例周围的当地地区应用最近的邻居规则。使用此模型,我们推出了选择代表教学集的近最优策略。我们验证了我们在使用人群工人的多跳问题回答任务中对教学战略的好处,并发现当工人从教学阶段绘制正确的教训时,他们的任务性能提高了,我们还在一组合成实验上验证了我们的方法。
translated by 谷歌翻译
Variational inference uses optimization, rather than integration, to approximate the marginal likelihood, and thereby the posterior, in a Bayesian model. Thanks to advances in computational scalability made in the last decade, variational inference is now the preferred choice for many high-dimensional models and large datasets. This tutorial introduces variational inference from the parametric perspective that dominates these recent developments, in contrast to the mean-field perspective commonly found in other introductory texts.
translated by 谷歌翻译