量化是一种监督学习任务,其包括在给定一组C类和未标记项目的集合D的情况下预测C中每个类别c的普遍性(或相关频率)p(c | D)。量化可以通过以下原则来解决:对所有未标记的项目进行分类并计算其中的多少项目归因于每个类别。然而,这种“分类和计数”方法已被证明可以产生次优的量化准确度;这已经将量化确定为其自身的任务,并且产生了为其专门设计的多种方法。我们提出了一种用于量化的循环神经网络架构(我们称之为QuaNet),它遵循分类预测来学习更高阶的“量化嵌入”,然后通过结合简单分类和计数方法的量化预测来改进。我们测试{QuaNet关于情感量化的文本,表明它基本上优于几个最先进的基线。
translated by 谷歌翻译
多语言文本分类(PLC)包括根据一组共同的C类自动分类文档,每个文档用一组语言L中的一种编写,并且比通过其相应的语言特定分类器对每个文档进行天真分类时更准确地进行分类。为了提高给定语言的分类准确度,系统也需要利用其他语言编写的训练样例。我们通过漏斗处理multilabel PLC,这是我们在此提出的一种新的集成学习方法。漏斗包括生成一个两层分类系统,其中所有文档,无论语言如何,都由同一(第二层)分类器分类。对于该分类器,所有文档都表示在一个共同的,与语言无关的特征空间中,该特征空间由第一层语言相关分类器生成的后验概率组成。这允许对任何语言的所有测试文档进行分类,以受益于所有语言的所有培训文档中存在的信息。我们提供了大量的实验,在公开的多语言文本集上运行,其中显示漏斗显着优于许多最先进的基线。所有代码和数据集(invector表单)都是公开的。
translated by 谷歌翻译
本文介绍了PyDCI,一种用Python编写的DistributionalCorrespondence Indexing(DCI)的新实现。 DCI是跨域和跨语言文本分类的转移学习方法,我们已经提供了一个基于JaTeCS(一种用于文本分类的Javaframework)构建的实现(此处称为JaDCI)。 PyDCI是DCI thatexploits scikit-learn和SciPy堆栈的独立版本。我们在这里报告我们为了测试PyDCI而进行的新实验,其中我们使用asbaselines在DCI被原始提出之后出现的新的高性能方法。这些实验表明,由于我们改进了DCI的一些微妙方法,PyDCI优于JaDCI和上述高性能方法,并且在我们测试DCI的两个流行基准测试中提供了最着名的结果,即MultiDomainSentiment (又名MDS - 用于跨域适应)和Webis-CLS-10(用于跨语言适应)。 PyDCI以及代码复制我们的实验,可以通过以下网址获得:http://github.com/AlexMoreo/pydci。
translated by 谷歌翻译
我们回顾了由傅立叶级数和积分驱动的神经网络架构,它们被称为傅里叶神经网络。这些网络在合成和现实世界的任务中进行了实证评估。在现实世界的任务中,它们都不如标准的神经网络具有S形激活功能。当涉及多个变量的已知函数的近似时,所有神经网络(傅立叶和标准神经网络)凭经验证明比截断的傅立叶级数更低的近似误差。
translated by 谷歌翻译
物联网(IoT)需要能够提供安全性和可用性的认证系统。最近的研究利用智能设备的丰富感知能力来构建无人工交互操作的安全方案,例如零交互配对(ZIP)和零交互认证(ZIA)。先前的工作提出了一些ZIP和ZIA方案,并报告了有希望的结果。但是,这些方案通常在不反映现实物联网情景的条件下进行评估。此外,由于缺乏公共数据集和方案实施的不可用性,现有方案之间的绘制比较是不可能的。在本文中,我们通过在现实条件下进行ZIP和ZIA方案的第一次大规模比较研究来应对这些挑战。我们收集并发布迄今为止最全面的数据集,包含超过4250小时的录音和来自三种不同场景的10亿传感器读数,并根据这些数据评估五种最先进的方案。我们的研究表明,现有建议的有效性在很大程度上取决于所使用的场景。特别是,我们表明这些计划的误差率在0.6%至52.8%之间。
translated by 谷歌翻译
进入RobotriX,这是一个非常逼真的室内数据集,旨在使深度学习技术应用于各种机器人视觉问题。 RobotriX由机器人代理探索的超现实室内场景组成,机器人代理也在模拟世界中以视觉上的方式与对象进行交互。虚幻引擎将逼真的场景和机器人渲染到虚拟现实耳机中,捕捉凝视,人类操作员可以移动机器人并使用控制器进行机器人手术;场景信息以每帧为基础进行转储,以便可以离线生成以生成原始数据和地面真实标签。通过这种方法,我们能够生成38个语义类的数据集,总共8Mstills以每秒+60帧的速度记录,具有全高清分辨率。对于每个帧,RGB-D和3D信息在两个空间中都提供完整注释。由于原始信息和注释的高质量和数量,RobotriX将成为使用大规​​模数据驱动技术研究2D和3D机器人视觉任务的新里程碑。
translated by 谷歌翻译
组织病理学癌症诊断基于染色组织切片的视觉检查。苏木精和曙红(H \&E)是世界范围内常规使用的标准染色剂。它易于获取并且具有成本效益,但是细胞和组织成分显示出低对比度,具有深蓝色和粉红色的不同色调,这使得难以进行视觉评估,数字图像分析和定量。这些限制可以通过组织载玻片的靶蛋白的IHC染色来克服。 IHC提供细胞和组织成分的选择性高对比度成像,但它们的使用在很大程度上受到实验室处理的复杂性和高成本的限制。我们提出了非传统的CycleGAN(cCGAN)网络,将H \&E染色的图像转换为IHC染色的图像,促进同一载玻片上的虚拟IHC染色。该数据驱动方法仅需要有限量的标记数据,但将生成像素级分割结果。所提出的cCGAN模型通过添加类别条件和引入两个结构损失函数来改进原始网络\ zite {zhu_unpaired_2017},实现了多子语言翻译并提高了翻译准确性。 %需要在这里给出理由。实验表明,所提出的模型在具有多子域的非配对图像转换中优于原始方法。我们还探索了不成对图像的潜力,以及应用于其他组织学图像相关任务的图像转换方法,使用不同的染色技术。
translated by 谷歌翻译
我们介绍了SPFlow,这是一个开源Python库,为深度和可分析的概率模型(称为Sum-Product Networks(SPN))提供了推理,学习和操作例程的简单接口。该库允许用户通过数据和域特定语言(DSL)快速创建SPN。它有效地实现了几个概率推理程序,如计算边缘,条件和(近似)最可能的解释(MPE)以及采样以及用于SPN上的序列化,绘图和结构统计的实用程序。此外,文献中提出的许多用于学习SPN的结构和参数的算法在SPFlow中是可用的。此外,SPFlow具有极强的可扩展性和可自定义性,允许用户通过将自定义代码注入到面向功能的轻量级API框架中,迅速提取新的推理和学习例程。这是通过保留图形结构的内部Python表示在SPFlow中实现的,该图形结构还可以将SPN实际编译为TensorFlow图形,C,CUDA或FPGA自定义代码,从而大大加快计算速度。
translated by 谷歌翻译
大规模人口数据的开发有可能通过发现和理解该数据中的模式和趋势来改善医疗保健。为了自动地对心脏成像数据进行高通量分析,管道应该包括输入图像的质量监测,心脏结构的分割,分割质量的评估和心脏功能指数的分析。我们提出了一种全自动,高通量图像分析工作流程,用于分析心脏MR图像,并测试其在英国生物银行(UKB)心脏数据集上的表现。所提出的流水线能够执行端到端图像处理,包括:数据组织,图像质量评估,形状模型初始化,分割,分割质量评估和功能参数计算;没有任何用户互动。据我们所知,这是针对UKB人群研究的全自动3D分析的第一篇论文,提供了心脏左心室和右心室的所有关键心血管功能指标的参考范围。我们在800个健康受试者的参考队列中测试了我们的工作流程,其中存在手动描述和参考功能指数。我们的结果显示了手动获得的参考索引与使用我们的框架自动计算的参考索引之间的统计上显着的一致性。
translated by 谷歌翻译
非正式定居点是地球上最具社会和经济能力的人们的家园。为了提供有效的经济和社会援助,非政府组织(如联合国儿童基金会(儿童基金会))需要有关非正规住区地点的详细地图。但是,有关非正式和正式定居点的数据几乎不可用,如果可获得的数据往往不完整。这部分是由于大规模收集数据的成本和复杂性。另外一个复杂因素是非正式解决方案的定义也非常广泛,这使得收集数据成为一项非常重要的任务。这也使得教授机器寻找什么具有挑战性。由于这些挑战,我们在这项工作中提供了三个贡献。 1)一种全新的机器学习数据集,专门用于非正式定居检测,包含一系列低分辨率和极高分辨率的图像,附带真实注释标记已知非正式定居点的位置.2)我们证明有可能检测到使用免费提供的低分辨率(LR)数据的非正式住区,与先前使用高分辨率(VHR)卫星和航空图像的研究形成鲜明对比,后者对非政府组织来说通常是成本过高的。 3)我们在我们的策划数据集上展示了两个有效的分类方案,一个对非政府组织具有成本效益,另一个对非政府组织来说成本过高,但具有额外的效用。我们将这些方案整合到半自动化管道中,将aLR或VHR卫星图像转换为二进制映射,编码非正式聚类的位置。我们评估和比较我们的方法。
translated by 谷歌翻译