量化是一种监督学习任务,其包括在给定一组C类和未标记项目的集合D的情况下预测C中每个类别c的普遍性(或相关频率)p(c | D)。量化可以通过以下原则来解决:对所有未标记的项目进行分类并计算其中的多少项目归因于每个类别。然而,这种“分类和计数”方法已被证明可以产生次优的量化准确度;这已经将量化确定为其自身的任务,并且产生了为其专门设计的多种方法。我们提出了一种用于量化的循环神经网络架构(我们称之为QuaNet),它遵循分类预测来学习更高阶的“量化嵌入”,然后通过结合简单分类和计数方法的量化预测来改进。我们测试{QuaNet关于情感量化的文本,表明它基本上优于几个最先进的基线。
translated by 谷歌翻译
我们讨论\ emph {跨语言文本量化}(CLTQ),执行文本量化的任务(即估计所有类的相对频率$ p_ {c}(D)$ $ c \ in \ mathcal {C} $ in当训练文档可用于源语言$ \ mathcal {S} $但不能用于需要执行量化的目标语言$ \ mathcal {T} $时,一组$ D $ of unlabelleddocuments)。 CLTQ从未在文献中讨论过;我们通过将最先进的量化方法与能够生成所涉及的源文档和目标文档的跨语言矢量表示的方法相结合来建立二元案例的基线结果。我们提出了在公开可用的数据集中获得的跨语言情感分类的实验结果;结果表明,所提出的方法可以以惊人的准确度执行CLTQ。
translated by 谷歌翻译
多语言文本分类(PLC)包括根据一组共同的C类自动分类文档,每个文档用一组语言L中的一种编写,并且比通过其相应的语言特定分类器对每个文档进行天真分类时更准确地进行分类。为了提高给定语言的分类准确度,系统也需要利用其他语言编写的训练样例。我们通过漏斗处理multilabel PLC,这是我们在此提出的一种新的集成学习方法。漏斗包括生成一个两层分类系统,其中所有文档,无论语言如何,都由同一(第二层)分类器分类。对于该分类器,所有文档都表示在一个共同的,与语言无关的特征空间中,该特征空间由第一层语言相关分类器生成的后验概率组成。这允许对任何语言的所有测试文档进行分类,以受益于所有语言的所有培训文档中存在的信息。我们提供了大量的实验,在公开的多语言文本集上运行,其中显示漏斗显着优于许多最先进的基线。所有代码和数据集(invector表单)都是公开的。
translated by 谷歌翻译
本文介绍了PyDCI,一种用Python编写的DistributionalCorrespondence Indexing(DCI)的新实现。 DCI是跨域和跨语言文本分类的转移学习方法,我们已经提供了一个基于JaTeCS(一种用于文本分类的Javaframework)构建的实现(此处称为JaDCI)。 PyDCI是DCI thatexploits scikit-learn和SciPy堆栈的独立版本。我们在这里报告我们为了测试PyDCI而进行的新实验,其中我们使用asbaselines在DCI被原始提出之后出现的新的高性能方法。这些实验表明,由于我们改进了DCI的一些微妙方法,PyDCI优于JaDCI和上述高性能方法,并且在我们测试DCI的两个流行基准测试中提供了最着名的结果,即MultiDomainSentiment (又名MDS - 用于跨域适应)和Webis-CLS-10(用于跨语言适应)。 PyDCI以及代码复制我们的实验,可以通过以下网址获得:http://github.com/AlexMoreo/pydci。
translated by 谷歌翻译
源自网络的数据表现出不规则的支持,其中每个数据元素通过由网络确定的任意成对关系相关联。图形神经网络(GNN)已经成为利用这种潜在支持的特殊性的信息处理体系结构。 GNN中非线性的使用,加上滤波器是从数据中学习的,这一事实引发了数学挑战,这些挑战阻碍了理论结果的发展,从而可以深入了解GNN具有显着性能的原因。在这项工作中,我们证明了稳定性,它表明数据支持的微小变化导致GNN输出的小(有限)变化。更具体地说,我们证明了在一个图上计算的GNN输出差异的界限,或者与GNN的图形和设计参数之间的差异成正比,只要训练过的滤波器是积分Lipschitz。我们利用这个结果来提供一些关于非线性在获得稳定和选择性的架构中的关键效应的见解,如果仅使用线性滤波器则无法实现这一壮举。
translated by 谷歌翻译
再生核Hilbert空间(RKHS)是成功用于信号处理,统计和机器学习的许多非参数工具的关键元素。在这项工作中,我们的目标是解决经典的基于RHSHS的技术的三个问题。首先,它们需要先验地知道RKHS,这在许多应用中是不现实的。此外,RKHS的选择会影响解决方案的形状和平滑度,从而影响其性能。其次,RKHS无法应对异质程度的平滑,即功能在其域的某些部分是平滑的但在其他部分中变化很快。 。最后,评估这些方法的解决方案的计算复杂性随着数据点的数量而增长,使得这些技术对于许多应用是不可行的。尽管已经使用内核学习,局部核适应和稀疏性来解决这些问题,但是这些方法中的许多方法都是计算密集型的或者放弃了最优化保证。我们通过利用RKHS中功能的新颖整体表示来解决这些问题,这些功能允许在每个中心使用任意中心和不同的内核。为了解决复杂性问题,我们将函数估计问题写成稀疏函数程序,从而明确地最小化表示的支持,从而导致低复杂性解决方案。尽管它们具有非凸性和无限维度,但我们展示了这些问题可以通过平均而有效地解决,并且我们在模拟和实际数据中说明了这种新方法。
translated by 谷歌翻译
在高分辨率卫星图像中分割云是一项艰巨而具有挑战性的任务,因为卫星可以捕获多种类型的地理区域和云。因此,它需要自动化和优化,特别是那些定期处理大量卫星图像的人,例如政府机构。从这个意义上讲,这项工作的贡献是:我们提供了CloudPeru2数据集,包括22,400个512x512像素的图像及其各自的手绘云遮罩,以及使用卷积神经的云端对端分割方法的建议网络(CNN)基于Deeplab v3 +架构。测试结果的准确度达到96.62%,精度达到96.46%,特异度达到98.53%,灵敏度达到96.72%,优于对比方法。
translated by 谷歌翻译
车载Ad-hoc网络(VANET)可以有效地检测交通拥堵,但是检测是不够的,因为拥塞可以进一步分类为重复和非重复拥塞(NRC)。特别是,城市网络中的NRC主要是由事故,工作区,特殊事件和不利天气引起的。我们提出了一个框架,使用VANET在异构城市道路网络上对其组件进行实时分布式分类。我们提出了建立在对空间和时间度量测量的理解的基础上的模型,并对从科隆真实案例研究扩展的合成数据进行了培训。我们的性能评估显示确定性分类树(CT)的预测准确度为87.63 \%,NaiveBayesian分类器(NB)为88.83 \%,随机森林(RF)为89.51 \%,热泵技术为89.17 \%。该框架可以通过制定有效的拥堵缓解策略来帮助运输机构减少城市拥堵,了解拥堵的根本原因。
translated by 谷歌翻译
最初,机器人的开发旨在使我们的生活更轻松,为人类执行重复或危险的任务。尽管他们能够执行这些任务,但是通过执行智能动物或人类更新的更复杂任务,最新一代机器人的设计更进一步。为此,灵感需要从生物学例子中进行测试。例如,昆虫能够最佳地解决复杂的环境导航问题,并且许多研究人员已经开始模仿这些昆虫的行为。最近对神经形态学工程的兴趣促使我们使用类似类似于节肢动物的机器人,在神经机器人中呈现实时的,神经形态的,基于尖峰的中央模式生成器。 Spiking神经网络是在SpiNNaker上设计和实现的。该网络模拟了一个复杂的,可在线更改的Central PatternGenerator,它为六足机器人运动生成三个步态。可配置硬件用于管理机器人的电机和与Spiking神经网络的实时通信接口。实时测量确认模拟结果,并且运动测试表明,神经痛可以在没有任何平衡损失或增加延迟的情况下执行步态。
translated by 谷歌翻译
$ \ mathcal {G} ^ 0 $分布广泛用于单极化SAR图像建模,因为它可以准确地表征具有不同纹理程度的区域。它由三个参数索引:外观的数量(可以估计整个图像),比例参数和纹理参数。本文提出了一个比较来自$ \ mathcal {G} ^ 0 $分布的样本的新建议。使用测地距离(GD)作为模型之间不相似性的度量。目标是使用$ \ mathcal {G} ^ 0 $分布的局部参数(比例和纹理)量化来自SAR数据的样本对之间的差异。我们提出了三个基于GD的测试,它结合了〜\ cite {GeodesicDistanceGI0JSTARS}中提供的测试,我们使用置换方法估计它们的概率分布。
translated by 谷歌翻译