有效的人类学习取决于广泛的教育材料,与学习者目前对该主题保持一致。虽然互联网彻底改变了人类的学习或教育,但仍存在大量资源可访问性障碍。即,过剩的在线信息可以使其充满努力导航和发现高质量的学习材料。在本文中,我们提出了教育资源发现(ERD)管道,用于为新颖域自动化Web资源发现。管道由三个主要步骤组成:数据收集,功能提取和资源分类。我们从一个已知的源域开始,通过传输学习在两个看不见的目标域上进行资源发现。我们首先从一组种子文档中收集频繁查询并在网上搜索以获取候选资源,例如讲座幻灯片和介绍博客帖子。然后我们介绍一个小说预用信息检索深神经网络模型,查询文件屏蔽语言建模(QD-MLM),以提取这些候选​​资源的深度特征。我们应用基于树的分类器来决定候选人是否是一个积极的学习资源。当在两个类似但新的靶域评估时,管道在评估时实现0.94和0.82的F1分数。最后,我们展示了该管道如何使应用程序有益于应用:调查的领先段落生成。这是据我们所知,这是考虑各种网络资源的研究。我们还释放了39,728个手动标记的Web资源的语料库,以及来自NLP,计算机视觉(CV)和统计信息(统计数据)的659个查询。
translated by 谷歌翻译
诸如人工智能(AI)之类的快速发展领域经常超过维基百科等百科全书来源的努力,这些来源如不完全介绍最近引入的主题或完全缺乏这种内容。因此,自动产生内容的方法是解决此信息过载的有价值的工具。我们表明,最近的预训练语言建模的进展可以组合为维基百科铅段生成的两级提取和抽象方法。我们扩展了这种方法,以产生更长的维基百科风格的摘要,并通过详细研究100参考人体收集的调查,研究这种方法在本申请中争取如何奋斗。这是利用Web资源利用WEAL Wikipedia风格摘要的第一次研究。
translated by 谷歌翻译
为了防止青年自杀,社交媒体平台受到了研究人员的广泛关注。一些研究应用机器学习或基于深度学习的文本分类方法来对包含自杀风险的社交媒体帖子进行分类。本文复制了基于社交媒体的自杀性检测/预测模型。我们评估了使用多个数据集和不同最先进的深度学习模型(RNN-,CNN-和基于注意力的模型)检测自杀构想的可行性。使用两个自杀性评估数据集,我们通过定量和定性方式评估了28种输入嵌入的组合和4种常用的深度学习模型和5种预处理的语言模型。我们的复制研究证实,深度学习总体上可以很好地适用于基于社交媒体的自杀性检测,但这在很大程度上取决于数据集的质量。
translated by 谷歌翻译
在本文中,我们提出了一个动态的级联编码器自动语音识别(ASR)模型,该模型统一了不同部署方案的模型。此外,该模型可以显着降低模型尺寸和功耗而不会损失质量。也就是说,使用动态级联编码器模型,我们探索了三种技术,以最大程度地提高每个模型大小的性能:1)在共享编码器时为每个子模型使用单独的解码器;2)使用漏斗 - 提高编码器效率;3)平衡因果关系的大小,以提高质量和适合部署限制。总体而言,与基线级联编码器模型相比,拟议的大中等模型的尺寸较小30%,并将功耗降低了33%。统一大型,中和小型模型的三重大小模型可实现37%的总尺寸减少,而质量损失最小,同时大大减少了拥有单独模型的工程工作。
translated by 谷歌翻译
我们提出了一种模块化架构,用于终身学习的分层结构化任务。具体而言,我们证明我们的架构是理论上能够学习通过可被学习的函数来解决的任务,这些任务可以给予用于其他,先前学习的任务作为子例程的函数。我们经验证明,我们可以通过标准培训方法在实践中学习的一些任务;实际上,事先工作表明,在没有更简单的任务的帮助下,无法通过任何有效的方法学习一些这样的任务。我们还考虑自动识别任务的方法,而无需依赖明确给出指标。
translated by 谷歌翻译
搜索是数字平台和应用程序中的关键功能之一,如电子词典,搜索引擎和电子商务平台。虽然某些语言的搜索功能是微不足道的,但是,考虑到其复杂的写作系统,Khmer Word搜索是具有挑战性的。单词的多个字符和不同的拼写实现对Khmer Word搜索功能的约束施加了约束。此外,拼写错误很常见,因为强大的拼写检查器在输入设备平台上不可能可用。这些挑战阻碍了在搜索嵌入式应用中使用了高棉语言。此外,由于缺乏用于高棉语言的Wordnet的词汇数据库,因此无法在单词之间建立语义关系,从而实现语义搜索。在本文中,我们向上述与高棉Word搜索相关的挑战提出了一系列强大的解决方案。所提出的解决方案包括字符阶级标准化,图形和基于音素的拼写检查器和Khmer Word语义模型。语义模型基于嵌入模型的单词培训,该模型在30亿字的语料库上培训,用于捕获单词之间的语义相似之处。
translated by 谷歌翻译
科学主题的分类方案概述了其知识体系。它还可以用于促进访问研究文章和与受试者相关的其他材料。例如,ACM计算分类系统(CCS)用于ACM数字库搜索界面以及索引计算机科学论文。我们观察到,计算语言学(CL)和自然语言处理(NLP),不存在综合分类系统等CCS或数学主题分类(MSC)。我们提出了一个分类方案 - 基于在这一主题的77个大学课程的在线讲座的分析,Cl / NLP的Clicker。目前拟议的分类学包括334个主题,并侧重于CL / NLP的教育方面;它主要是基于,但不是完全,在NLP课程的讲义中。我们讨论这种分类系统如何帮助各种现实世界应用,包括辅导平台,资源检索,资源推荐,先决条件链学习和调查生成。
translated by 谷歌翻译
文本分类是标记开放式文本的自然语言处理中的基本任务之一,对各种应用有用,如情绪分析。在本文中,我们讨论了Khmer文本的各种分类方法,从传统的TF-IDF算法到支持向量机分类器到基于现代字的基于词嵌入的神经网络分类器,包括线性层模型,经常性神经网络和卷积神经网络。 Khmer Word嵌入式模型培训在3000万Khmer-Word语料库上,以构建用于培训三种不同神经网络分类器的字矢量表示。我们为多类和多标签文本分类任务评估了对新闻文章数据集的不同方法的性能。结果表明,使用Word嵌入模型的神经网络分类器始终如一地始终使用TF-IDF来表达传统分类器。与卷积网络和线性层网络相比,经常性神经网络分类器提供稍好的结果。
translated by 谷歌翻译
算法稳定性是一种学习理论的概念,其表示对输入数据的改变的程度(例如,删除单个数据点)可能会影响回归算法的输出。了解算法的稳定性属性通常对许多下游应用程序有用 - 例如,已知稳定性导致所需的概括性属性和预测推理保证。然而,目前在实践中使用的许多现代算法太复杂,无法对其稳定性的理论分析,因此我们只能通过算法在各种数据集上的行为的实证探索来尝试建立这些属性。在这项工作中,我们为这种“黑匣子测试”奠定了一个正式的统计框架,而没有任何关于算法或数据分布的假设,并在任何黑匣子测试识别算法稳定性的能力方面建立基本界限。
translated by 谷歌翻译