我们提出了BERTScore,一种用于文本生成的自动评估指标。对于常见指标,\ method计算候选句中每个标记与参考中每个标记的相似性得分。然而,我们使用上下文化的BERTembeddings来计算相似度,而不是查看完全匹配。我们对几种机器翻译和图像字幕标记进行了评估,并表明BERTScore与人类判断相关的指标更好地相关,通常甚至明显优于任务特定的监督指标。
translated by 谷歌翻译
深度卷积神经网络在计算机视觉方面取得了显着的成功。然而,深度神经网络需要大型计算资源才能实现高性能。尽管深度可分离卷积可以是接近标准卷积的有效模块,但它常常导致网络的代表性能力降低。在本文中,计算成本(MAdds)和参数计数等预算约束,我们提出了一种新颖的基本架构块ANTBlock。它通过在高维空间中对ANTBlocks中的深度卷积层和投影层之间的通道的相互依赖性进行建模来增强表现能力。我们的实验表明,通过ANTBlocks的序列构建的ANTNet始终优于跨多个数据集的最先进的低成本移动卷积神经网络。在CIFAR100上,我们的模型的前1精度达到了75.7%,比MobileNetV2高1.5%,参数减少了8.3%,计算成本降低了19.6%。在ImageNet上,我们的模式在MobileNetV2上的iPhone 5s上的成功率为72.8%,前提精度为0.8%,提升了0.8%,速度为157.7毫秒(快了20%)。
translated by 谷歌翻译
激活函数对于学习和执行复杂任务(如图像分类)的深度学习方法至关重要。自2012年以来,整流线性单元(ReLU)已被广泛使用并成为深度学习社区的默认激活功能。尽管ReLU受欢迎,但ReLU的硬零属性严重阻碍了负值通过网络传播。因此,深度神经网络并未从负面表示中受益。在这项工作中,提出了一种称为Flatten-T Swish(FTS)的激活函数,它利用了负值的好处。为了验证其性能,本研究使用ReLU和几个最近的激活函数评估FTS。使用MNIST数据集在五个不同的深度完全连接神经网络(DFNN)上训练Eachactivation函数,深度从5到8层不等。为了公平评估,所有DFNN都使用相同的配置设置。基于实验结果,FTS具有阈值值,T = -0.20具有最佳的整体性能。与ReLU相比,FTS(T = -0.20)分别在更宽的5层,更薄的5层,6层,7层和8层DFNN上将MNIST分类精度提高了0.13%,0.70%,0.67%,1.07%和1.15%。由此,该研究还注意到FTS的收敛速度是ReLU的两倍。虽然还有其他现有的激活函数也被评估,但本研究选择ReLU作为基线激活函数。
translated by 谷歌翻译
本文描述了为2018年AlexaPrize竞赛建立的格子呢会话代理。 Tartan是一个非目标导向的社交机构,专注于为用户提供引人入胜且流畅的休闲对话。 Tartan的关键特征包括强调基于灵活有限状态模型的结构化对话以及侧重于理解和使用对话行为的方法。为了提供引人入胜的对话,Tartan如同基于数据的生成和检索模型的动态响应。 Tartan的独特之处在于我们的对话管理器被建模为dynamicFinite状态机。据我们所知,没有其他会话年龄实现遵循这一特定结构。
translated by 谷歌翻译
随着互联网上图像和视频的大规模爆炸,已经开发了有效的散列方法以促进类似图像的存储和时间有效的检索。然而,由于缺乏足够大的纹理图像数据库,现有的工作都没有使用搜索来解决纹理图像检索。我们的工作通过开发一种新的深度学习架构来解决这个问题,该架构为输入纹理图像生成二进制哈希码。为此,我们首先预先训练纹理合成网络(TSN),其采用纹理补丁作为输入,并通过注入较新的纹理内容输出纹理的放大视图。因此,它表示TSN在其中间层中对学习的纹理特定信息进行编码。在下一阶段,第二网络使用信道方向注意从TSN的中间层收集多尺度特征表示,以渐进方式将它们组合成密集的连续表示。最终通过个人和成对标签信息将其转换为二进制哈希码。新的放大纹理贴片也有助于数据增加,以减轻纹理数据不足的问题,并用于训练网络的第二阶段。对三种公共纹理图像检索数据集的实验表明,对于当前最先进的方法,ourtexture综合引导的哈希方法具有优越性。
translated by 谷歌翻译
手写单词识别和定位是一个具有挑战性的领域,处理具有不规则和复杂形状的手写文本。使用深度神经网络设计模型使得有必要扩展数据集以引入差异并增加训练样本的数量;因此,在低资源脚本中,单词检索非常困难。许多现有文献使用的预处理策略很少能够应对可能的变化。我们提出了对抗特征变形模块,它以可扩展的方式学习弹性扭曲提取特征的方法。它插入到中间层之间,并与原始框架交替训练,提高其更好地学习高信息特征而不是琐碎特征的能力。我们测试我们的元框架,该框架构建在流行的定位和识别框架的顶部,并且AFDM不仅在广泛的拉丁文字数据集上增强,而且在更稀疏的印度语脚本上也是如此。 Werecord得出不同训练数据大小的结果,并观察到我们的增强网络在低数据体系中的推广要好得多;观察到整体单词错误率和mAP分数也会提高。
translated by 谷歌翻译
缩略图在全世界广泛使用,作为数字图像的预览。在这项工作中,我们提出了一个深度神经框架来生成任何大小和纵横比的缩略图,即使是在训练期间看不见的值,也具有高精度和高精度。我们使用全局上下文聚合(GCA)和带有自适应卷积的modifiedRegion Proposal Network(RPN)来实时生成缩略图。 GCA用于选择性地参与和聚合来自整个图像的全局上下文信息,而RPN用于预测用于缩略图图像的边界框。自适应卷积消除了通过使用从宽高比信息动态生成的滤波器权重来生成各种宽高比的缩略图的问题。实验结果表明所提出的模型相对于现有技术的优越性能。
translated by 谷歌翻译
我们开发了用于估计异质治疗效果的新算法,将神经网络转移学习的最新发展与因果推断文献的分析结合起来。通过利用转移学习,我们能够有效地使用与相同的潜在因果机制相关的不同数据源。我们使用基于大规模选民说服实验和MNIST数据库的广泛模拟研究,将我们的算法与现有文献中的算法进行比较。在使用数据的分数时,我们的方法可以比现有基准更好地执行一个数量级。
translated by 谷歌翻译
推荐系统的一个主要挑战是处理新用户,他们也是$ \ textit {cold-start} $ users。在本文中,我们提出了一种新方法,用于学习一系列最佳问题,用于采访电影推荐系统的冷启动用户。我们建议使用Deep Q Networks学习面试问题,以创建用户配置文件,以便为启动用户提供更好的建议。虽然我们提出的系统是使用电影指挥系统进行训练的,但我们的Deep Q网络模型应该推广各种类型的推荐系统。
translated by 谷歌翻译
The task of the emotion recognition in the wild (EmotiW) Challenge is toassign one of seven emotions to short video clips extracted from Hollywoodstyle movies. The videos depict acted-out emotions under realistic conditionswith a large degree of variation in attributes such as pose and illumination,making it worthwhile to explore approaches which consider combinations offeatures from multiple modalities for label assignment. In this paper wepresent our approach to learning several specialist models using deep learningtechniques, each focusing on one modality. Among these are a convolutionalneural network, focusing on capturing visual information in detected faces, adeep belief net focusing on the representation of the audio stream, a K-Meansbased "bag-of-mouths" model, which extracts visual features around the mouthregion and a relational autoencoder, which addresses spatio-temporal aspects ofvideos. We explore multiple methods for the combination of cues from thesemodalities into one common classifier. This achieves a considerably greateraccuracy than predictions from our strongest single-modality classifier. Ourmethod was the winning submission in the 2013 EmotiW challenge and achieved atest set accuracy of 47.67% on the 2014 dataset.
translated by 谷歌翻译