图像极大地有助于理解,解释和可视化数据。对图像添加文本描述是网络可访问性的首要原则。使用屏幕阅读器的视障用户将使用这些文字描述来更好地理解数字内容中存在的图像。在本文中,我们建议Chart-Text是一个新颖的全自动系统,它可以创建图表图像的文本描述。给定图表的PNG图像,我们的图表文本系统会创建一个完整的文本描述。首先,系统对图表的类型进行分类,然后检测并分类图表中的标签和文本。最后,它使用特定的图像处理算法从图表图像中提取相关信息。我们提出的系统在对图表进行分类时的准确率达到99.72%,在提取数据和创建相应的文本描述时准确度达到78.9%。
translated by 谷歌翻译
神经网络很容易受到对抗性攻击 - 视觉上不易察觉的小噪声,当加到输入端时会大大改变输出。防御这些敌对攻击的最有效方法是使用对抗性训练的方法。我们分析了经过对侧训练的强大模型,以研究它们在潜层层面对抗对抗性攻击的脆弱性。我们的分析揭示了与对抗性攻击具有鲁棒性的输入层相反,这些鲁棒模型的特征层非常容易受到小幅度的对抗性扰动。利用这些信息,我们引入了一种新技术潜在对抗训练(LAT),其中包括对经过对侧训练的模型进行微调,以确保在特征层中的稳健性。我们还提出潜在攻击(LA),一种用于构建对抗性示例的新算法。 LAT导致测试精度的微小改进,并导致针对MNIST,CIFAR-10,CIFAR-100数据集显示的通用一阶对抗性PGD攻击的最新对抗精度。
translated by 谷歌翻译
模型体系结构的规模急剧增加,以牺牲资源需求为代价提高了性能。在本文中,我们提出3DQ,一种三元量化方法,首次应用于3D全卷积神经网络(F-CNN),实现16x模型压缩,同时保持与全精度模型相当的性能。我们在两个数据集上广泛评估3DQ,以完成全脑分割的挑战性任务。此外,我们展示了我们的方法能够推广两种常见的3D架构,即3D U-Net和V-Net。该方法的性能优于各种基线,能够将大型3D模型压缩到几MB,从而减轻了空间关键应用中的存储需求。
translated by 谷歌翻译
Graph embedding methods produce unsupervised node features from graphs that can then be used for a variety of machine learning tasks. Modern graphs, particularly in industrial applications, contain billions of nodes and trillions of edges, which exceeds the capability of existing embedding systems. We present PyTorch-BigGraph (PBG), an embedding system that incorporates several modifications to traditional multi-relation embedding systems that allow it to scale to graphs with billions of nodes and trillions of edges. PBG uses graph partitioning to train arbitrarily large embeddings on either a single machine or in a distributed environment. We demonstrate comparable performance with existing embedding systems on common benchmarks, while allowing for scaling to arbitrarily large graphs and parallelization on multiple machines. We train and evaluate embeddings on several large social network graphs as well as the full Freebase dataset, which contains over 100 million nodes and 2 billion edges.
translated by 谷歌翻译
我们提出了一种神经混合模型,该模型由在由深度可逆变换(即,正常化流动)计算的特征的一组上定义的线性模型组成。我们模型的一个吸引人的特性是,p(特征),特征密度和p(目标|特征),预测分布,可以在单个前馈传递中精确计算。我们表明,尽管存在可逆性约束,我们的混合模型可以实现与纯预测模型的相似性。然而,尽管存在混合优化目标,生成组件仍然是输入特征的良好模型。这提供了额外的功能,例如检测分发外输入和启用半监督学习。精确关联密度p(目标,特征)的可用性也使我们可以很好地计算许多量,使我们的混合模型成为概率深度学习的下行应用的有用构建块。
translated by 谷歌翻译
在本文中,我们提出了一种新的增强技术,该技术不仅可以提高深度神经网络在清洁测试数据上的性能,而且还显着提高了它们对随机变换(仿射和投影)的鲁棒性。受ManiFool的启发,增强是通过aline-search manifold-exploration方法执行的,该方法学习仿射几何变换,导致对图像的错误分类,同时确保它与训练数据保持在同一流形上。这种增强方法使用位于两类之间的流形边界的图像填充任何训练数据集,并最大化网络在训练期间所暴露的变化。我们的方法从有限数据和乳房肿瘤乳房肿瘤分类的细粒度皮肤病变分类的挑战性任务进行了彻底评估。与传统的增强方法相比,以及通过GenerativeAdversarial Networks合成的图像,我们的方法不仅可以实现最先进的性能,还可以显着提高网络的稳健性。
translated by 谷歌翻译
图像字幕是一项任务,要求模型获得对世界的多模态理解,并在自然语言文本中表达这种理解。虽然这项任务的最新技术已经迅速提高了n-gram指标的范围,但这些模型倾向于为类似的图像输出相同的通用字幕。在这项工作中,我们解决了这个限制,并通过无监督的训练方法训练了一个模型,该模型产生了更多样化和特定的标题,该方法结合了来自图像检索模型的学习信号。我们总结了以前的结果,并改进了最先进的oncaption多样性和新颖性。我们将源代码公开在线提供。
translated by 谷歌翻译
语言是动态的,不断发展和适应时间,领域或主题。语言的适应性是一个活跃的研究领域,研究人员利用分词工具(如嵌入词)发现语言中的社会,文化和领域特定的变化。在本文中,我们介绍了检测语料库级语言转换的全局锚方法。我们从理论上和经验上证明了全局锚方法等同于对齐方法,这是一种广泛使用的方法,用于比较单词嵌入,检测语料库级语言转换的中介。尽管它们具有等价的检测能力,但我们证明了全局锚定方法在适用性方面具有优势,因为它可以比较不同维度的嵌入。此外,全局锚定方法具有实现和并行化的优点。我们证明了全局锚定方法揭示了语言和领域适应的演化中的细微结构。当与图拉普拉斯技术结合时,全局锚方法恢复不同文本语料库的进化轨迹和域聚类。
translated by 谷歌翻译
我们的目标是通过模仿学习来培养自动驾驶的政策,该政策足以驾驶真实车辆。我们发现标准行为克隆不足以处理复杂的驾驶场景,即使我们使用感知系统预处理输入和控制器执行汽车上的输出:3000万个例子仍然不够。我们建议将学习者以专家驾驶的扰动形式暴露给合成数据,从而创造有趣的情况,例如合作和/或离开道路。而不是纯粹模仿所有数据,用额外的损失来衡量模仿损失,惩罚不良事件并鼓励进步 - 然后扰动为这些损失提供重要信号并导致学习模型的稳健性。我们展示了ChauffeurNet模型可以处理模拟中的复杂情况,并且现有消融实验强调了我们提出的每个变化的重要性,并表明模型正在响应适当的因果关系。最后,我们展示了在真实世界中驾驶汽车的模型。
translated by 谷歌翻译
处理神经网络的统计无效率的一种方法是依靠辅助损失来帮助建立有用的表示。但是,要知道辅助任务是否对主任务有用以及何时可能开始受到伤害并不总是微不足道的。我们建议使用任务梯度之间的余弦相似性作为自适应权重来检测辅助损失何时有助于主要损失。我们证明了我们的方法可以保证收敛到主要任务的关键点,并证明了所提算法在几个领域的实用性:ImageNet子集上的多任务监督学习,强化学习ongridworld,以及Atari游戏的强化学习。
translated by 谷歌翻译