本文描述了针对机器翻译(MT),实体发现和链接(EDL)以及文本和语音中的情景帧(SF文本和语音)的检测的低资源人类语言技术(LoReHLT)2018评估的ARIEL-CMU提交。
translated by 谷歌翻译
各种行业的应用数据科学家通常面临着为机器学习算法编码高基数分类特征的可消化输入的挑战性任务。本文描述了为WeWork的主要评分引擎开发的贝叶斯编码技术,该技术输出了一个人根据交互,丰富和地理空间数据浏览我们办公空间的概率。我们提出了一种范式前集合建模,它减少了为分类变量构建复杂的预处理和编码方案的需要。具体而言,特定领域共轭贝叶斯模型被用作抵消集合模型中的特征的基础学习者。对于分类特征矩阵的每一列,我们拟合特定于问题的先验分布,例如,针对异常分类问题的Beta分布。为了分析地推导出后验分布的矩,我们用给定分类特征的每个唯一值的相应目标变量的共轭似然性更新先验。该列和值的函数对分类特征矩阵进行编码,以使整体模型中的最终学习者得到低维数字输入。策划和真实世界数据集的实验结果证明了各种问题原型的令人印象深刻的准确性和计算效率。特别是,对于WeWork的主要评分引擎 - 其中一些分类特征具有多达300,000个级别 - 我们已经通过实施共轭贝叶斯模型编码看到了从0.87到0.97的AUC改进。
translated by 谷歌翻译
处理大型文件集在许多领域都具有重要意义,尤其是在犯罪调查和防御领域,在这些领域,组织可能会出现大量需要在有限时间内处理的扫描文件。然而,就扫描文档和需要处理的页面的复杂性而言,这个问题更加严重。通常包含许多不同的元素,每个元素都需要被处理和理解。文本识别是这个过程的主要任务,通常取决于文本的类型,无论是手写还是机器打印。因此,在决定要应用的识别方法之前,识别涉及文本类别的先前分类。如果文档包含手写和机器打印的文本,这将带来更具挑战性的任务。在这项工作中,我们提供了一个通用的流程,用于在包含混合手写和机器打印文本的扫描文档中进行文本识别,而无需对文本进行分类。我们使用几个开源图像处理和文本识别包1实现了所提出的流程。使用IAM手写数据库中的特别开发的变体进行评估,其中我们实现了包含打印和手写文本的平均转录精度接近80%。
translated by 谷歌翻译
持久性图是拓扑数据分析(TDA)领域的主要工具。它们包含有关数据形状的丰富信息。由于空间复杂,在持久性图空间上使用机器学习算法具有挑战性。因此,总结和概括这些图是目前在TDA中研究的一个重要主题。在这项工作中,我们提供了一个总结框架,总结了我们的持久性曲线(PC)。主要思想是所谓的持久同源的基本引理,它源于经典的老年统治。在这个框架下,某些众所周知的摘要,例如持久的Betti数和持久性格局,都是PC的特例。此外,我们证明了一般家庭PC的严格约束。特别是,某些PC族在另外的假设下承认稳定性。最后,我们将PC应用于四个众所周知的纹理数据集上的纹理分类。结果优于现有的几种TDA方法。
translated by 谷歌翻译
生成模型通常使用人工评估来确定和证明。不幸的是,现有的人类评估方法是临时的:目前还没有标准化,经过验证的评估:(1)测量感知保真度,(2)可靠,(3)将模型分成清晰的排序,(4)确保高质量测量没有难以处理的成本。作为回应,我们构建人类 - 感知评估(HYPE),这是一种人类度量,它是(1)基于感知的心理物理学研究,(2)在模型的随机抽样输出的不同集合中可靠,(3)导致可分离的模型性能, (4)有效的成本和时间。我们介绍两种方法。首先,HYPE-Time测量在自适应时间约束下的视觉感知,以确定模型输出(例如年龄表面)需要可见的最小时间长度(例如,250ms),以便人们将其区分为真实或真实。第二个是HYPE-Infinity,它可以测量伪造和真实图像的人为错误率,没有时间限制,保持稳定性并大幅缩短时间和成本。我们使用两个数据集,即流行的CelebA和更新的更高分辨率的FFHQ,以及两种模型输出的采样技术,在无条件图像生成上测试HYPE的四个最先进的生成对抗网络(GAN)。通过多次模拟HYPE的评估,我们展示了不同模型的一致排名,识别StyleGAN与截断特征采样(27.6%HYPE-Infinity欺骗率,大约四分之一的图像被人类错误分类)优于StyleGAN而没有FFHQ上的截断(19.0%)。有关详细信息,请参阅https://hype.stanford.edu。
translated by 谷歌翻译
本文以前面使用组合分类语法(CCG)的工作为基础,为抽象含义表示(AMR)解析导出透明语法 - 语义接口。我们为CCG组合器定义了更适合于导出AMR图的新语义。特别地,我们定义了应用和组合组合的对称替代方案:这些组合要求组合的两个组成部分在一个AMR关系中重叠。我们还提供了一种新的语义类型提升,这是必要的强制结构。使用这些机制,我们建议对发明名词进行分析,这对于推导AMR图表提出了挑战。理论分析将有助于使用CCG进行强大而透明的AMR分析的未来工作。
translated by 谷歌翻译
Magic: The Gathering is a popular and famously complicated trading card game about magical combat. In this paper we show that optimal play in real-world Magic is at least as hard as the Halting Problem, solving a problem that has been open for a decade [1], [10]. To do this, we present a methodology for embedding an arbitrary Turing machine into a game of Magic such that the first player is guaranteed to win the game if and only if the Turing machine halts. Our result applies to how real Magic is played, can be achieved using standard-size tournament-legal decks, and does not rely on stochasticity or hidden information. Our result is also highly unusual in that all moves of both players are forced in the construction. This shows that even recognising who will win a game in which neither player has a non-trivial decision to make for the rest of the game is undecidable. We conclude with a discussion of the implications for a unified computational theory of games and remarks about the playability of such a board in a tournament setting.
translated by 谷歌翻译
详细了解风力涡轮机性能状态分类可以改善风能行业的运营和维护。由于风力涡轮机具有不同的工程特性,用于分类的标准监督学习模型并未对从不同​​风场获得的数据集进行概括。我们提出了两种方法来处理训练模型的可传递性:第一,以功率曲线对齐的形式进行数据归一化,第二,基于卷积神经网络和特征空间扩展的鲁棒方法。我们通过工业应用证明了我们的方法在实际数据集上的成功。
translated by 谷歌翻译
最近已经证明深度神经网络的过度参数化是他们成功训练的关键。然而,它也使它们易于过度装配并使它们存储和训练昂贵。 Tensor regressionnetworks显着减少了深度神经网络中有效参数的数量,同时保持了准确性和易于训练。它们用张量回归层代替了平坦和完全连接的层,其中通过低秩张量分解的因子表示了入口权重。在本文中,为了进一步改进张量回归网络,我们提出了一种新的随机秩正则化。它由一种新的随机张量草图方法组成,用于逼近张量回归层的权重。我们在理论上和经验上建立了所提出的随机秩正则化与低秩张量回归的退出之间的联系。使用合成数据和现实世界数据集(即CIFAR-100和英国生物银行脑MRI数据集)的广泛实验结果支持所提出的方法i)改善分类和回归任务的性能,ii)减少过度拟合,iii)导致更稳定的训练和iv)提高对抗性攻击和随机噪声的稳健性。
translated by 谷歌翻译
我们提出了一种自我监督的方法来训练卷积神经网络,用于从单眼内窥镜检查数据进行密集深度估计,而无需对解剖或阴影进行先验建模。我们的方法仅需要单视内窥镜视频和多视图立体方法,例如,运动的结构,以稀疏的方式进行学习。因此,我们的方法需要在训练和应用阶段进行手动标记或患者计算机断层扫描(CT)扫描。在使用CT scansas groundtruth的跨患者实验中,所提出的方法实现了亚毫米波均方误差。在最近针对体内窦内窥镜检查数据的自然视频设计的自我监督深度估计方法的比较研究中,我们证明了所提出的方法优于前一种方法的大幅度边缘。这项工作的源代码可在线公开获取:http://github.com/lppllppl920/EndoscopyDepthEstimation-Pytorch。
translated by 谷歌翻译