多语言文本分类(PLC)包括根据一组共同的C类自动分类文档,每个文档用一组语言L中的一种编写,并且比通过其相应的语言特定分类器对每个文档进行天真分类时更准确地进行分类。为了提高给定语言的分类准确度,系统也需要利用其他语言编写的训练样例。我们通过漏斗处理multilabel PLC,这是我们在此提出的一种新的集成学习方法。漏斗包括生成一个两层分类系统,其中所有文档,无论语言如何,都由同一(第二层)分类器分类。对于该分类器,所有文档都表示在一个共同的,与语言无关的特征空间中,该特征空间由第一层语言相关分类器生成的后验概率组成。这允许对任何语言的所有测试文档进行分类,以受益于所有语言的所有培训文档中存在的信息。我们提供了大量的实验,在公开的多语言文本集上运行,其中显示漏斗显着优于许多最先进的基线。所有代码和数据集(invector表单)都是公开的。
translated by 谷歌翻译
本文介绍了PyDCI,一种用Python编写的DistributionalCorrespondence Indexing(DCI)的新实现。 DCI是跨域和跨语言文本分类的转移学习方法,我们已经提供了一个基于JaTeCS(一种用于文本分类的Javaframework)构建的实现(此处称为JaDCI)。 PyDCI是DCI thatexploits scikit-learn和SciPy堆栈的独立版本。我们在这里报告我们为了测试PyDCI而进行的新实验,其中我们使用asbaselines在DCI被原始提出之后出现的新的高性能方法。这些实验表明,由于我们改进了DCI的一些微妙方法,PyDCI优于JaDCI和上述高性能方法,并且在我们测试DCI的两个流行基准测试中提供了最着名的结果,即MultiDomainSentiment (又名MDS - 用于跨域适应)和Webis-CLS-10(用于跨语言适应)。 PyDCI以及代码复制我们的实验,可以通过以下网址获得:http://github.com/AlexMoreo/pydci。
translated by 谷歌翻译
量化是一种监督学习任务,其包括在给定一组C类和未标记项目的集合D的情况下预测C中每个类别c的普遍性(或相关频率)p(c | D)。量化可以通过以下原则来解决:对所有未标记的项目进行分类并计算其中的多少项目归因于每个类别。然而,这种“分类和计数”方法已被证明可以产生次优的量化准确度;这已经将量化确定为其自身的任务,并且产生了为其专门设计的多种方法。我们提出了一种用于量化的循环神经网络架构(我们称之为QuaNet),它遵循分类预测来学习更高阶的“量化嵌入”,然后通过结合简单分类和计数方法的量化预测来改进。我们测试{QuaNet关于情感量化的文本,表明它基本上优于几个最先进的基线。
translated by 谷歌翻译
我们考虑使用随机梯度下降来学习两层神经网络。该学习动力学的平均场描述通过在$ R ^ D $中的概率分布空间的演化来近似网络权重的演化(其中$ D $是与每个神经元相关联的参数的数量)。这种演化可以通过部分微分方程来定义,或者等效地定义为概率分布的Wasserstein空间中的梯度流。早期的工作表明(在一些规律性假设下),一旦隐藏单位的数量远大于维度$ D $,平均字段描述就是准确的。在本文中,我们建立了更强大和更一般的近似保证。首先,我们表明隐藏单元的数量只需要大于依赖于数据规律性的数量,并且与维度无关。接下来,我们将此分析推广到无限激活函数的情况,这是早期边界未涵盖的。我们将结果扩展到噪声随机梯度下降。最后,我们证明了核岭回归可以作为平均场分析的特殊限制来恢复。
translated by 谷歌翻译
我们通过图形结构的递归神经网络(GSRNN)研究真实世界健康数据的流行病预测。我们在基准CDC数据集上实现了最先进的预测准确性。为了提高模型效率,我们通过转换 - $ \ ell_1 $惩罚来稀疏网络权重,并在70%的网络权重为零的情况下将预测准确度保持在同一水平。
translated by 谷歌翻译
人们重新识别任务在最近几年已经看到了巨大的改进,主要是由于从深度卷积神经网络(CNN)开发更好的图像特征和大数据集的可用性。然而,很少有关于动物识别和重新识别的研究,即使这些知识可能在各种不同场景中有用。在这里,我们解决了牛重新识别开发CNN的问题,并展示了这项任务与人类之间的关系不足,提出了独特的挑战,使其远未解决。我们提供了基于深层体系结构或标准机器学习算法的各种基线,并将它们与我们的解决方案进行了比较。最后,进行了一项综合研究,以进一步研究这项任务的独特性。
translated by 谷歌翻译
自动学习任务的最佳激活功能是神经网络研究的一个活跃主题。目前,尽管结果很有希望,但仍然难以确定学习激活功能的方法,同时理论上简单且易于实现。此外,到目前为止提出的大多数方法都引入了新的参数或采用了不同的学习技术。在这项工作中,我们提出了一种简单的方法来获得训练的激活函数,该函数将神经网络局部子网络与少量神经元相加。实验表明,这种方法可以在使用预定义的激活函数方面获得更好的结果,而不需要引入需要学习的大量额外参数。
translated by 谷歌翻译
许多神经网络架构依赖于每个隐藏层的激活函数的选择。给定激活功能,神经网络在偏差和权重参数上进行训练。偏差会影响激活的中心,权重会捕获比例。这里我们建议通过形状参数训练网络。该视图允许神经元调整其自身的激活函数并使神经元曲率适应更好的预测。该修改仅为每个神经元的反向传播增加了另一个方程。重新形式化激活函数asCDF广泛地概括了激活函数的类。我们的目标是扩展一大类激活函数来研究:i)偏度和ii)激活函数的平滑性。在这里,我们介绍自适应Gumbelactivation函数作为Gumbel和Sigmoid之间的桥梁。类似的方法用于发明ReLU的平滑版本。我们与常见激活函数的比较表明了不同的数据表示,尤其是在早期神经网络层中。这种适应还提供了预测改进。
translated by 谷歌翻译
本文为机器学习和运筹学的交叉提供了方法论贡献。也就是说,我们提出了一种方法来快速预测针对特定运营问题的战术解决方案。在这种情况下,战术解决方案不如操作解决方案详细,但它必须在非常短的时间内和不完善的信息下计算。在战术和操作规划问题相互关联并且随着时间的推移揭示操作问题的信息的各种应用中,该问题是重要的。例如,这是某种能力规划和需求管理系统中的情况。我们将问题表示为两阶段最优预测随机程序,我们用监督机器学习算法预测解决方案。训练数据集由受控概率抽样产生的大量确定性(第二阶段)问题组成。标签的计算基于确定性问题的解决方案(独立和离线解决),采用适当的聚合和子选择方法来解决不确定性。我们在铁路运输负荷规划中的激励应用结果表明,深度学习算法可以在非常短的计算时间(毫秒或更短)内产生高度准确的预测。预测精度与通过随机程序的样本平均近似计算的解相当。
translated by 谷歌翻译
我们提出了一种新的图像采样方法,用于深度神经网络中的可微分图像变换。目前使用的逆向学习的采样方案,例如空间变换器网络,依赖于双线性插值,其在严重的尺度变化下表现不佳,并且更重要的是,导致差的梯度传播。这是因为他们严格依赖直接邻居。相反,我们建议在采样图像中的每个像素附近生成随机辅助样本,并使用它们的强度值创建线性近似。然后,我们将此近似值用作变换图像的可区分公式。然而,我们观察到这些辅助样本可能在严重的图像变换下折叠成单个像素,并且建议通过向中心像素和辅助样本之间的距离添加约束来解决它。我们证明了我们的方法产生了更具代表性的梯度,具有更广泛的图像对齐收敛,这在训练图像配准和分类任务的网络时会产生相当大的性能改善,特别是在大的下采样时。
translated by 谷歌翻译