语言是动态的,不断发展和适应时间,领域或主题。语言的适应性是一个活跃的研究领域,研究人员利用分词工具(如嵌入词)发现语言中的社会,文化和领域特定的变化。在本文中,我们介绍了检测语料库级语言转换的全局锚方法。我们从理论上和经验上证明了全局锚方法等同于对齐方法,这是一种广泛使用的方法,用于比较单词嵌入,检测语料库级语言转换的中介。尽管它们具有等价的检测能力,但我们证明了全局锚定方法在适用性方面具有优势,因为它可以比较不同维度的嵌入。此外,全局锚定方法具有实现和并行化的优点。我们证明了全局锚定方法揭示了语言和领域适应的演化中的细微结构。当与图拉普拉斯技术结合时,全局锚方法恢复不同文本语料库的进化轨迹和域聚类。
translated by 谷歌翻译
在本文中,我们提供了对单词嵌入和维度的理论理解。在单词嵌入的单一不变性的推动下,我们提出了成对内积(PIP)损失,这是一种关于词嵌入之间不相似性的新指标。使用来自矩阵微扰理论的技术,我们揭示了字嵌入的基本偏差 - 方差权衡折衷选择。这种偏差 - 方差权衡了许多以前无法解释的经验观察,例如最优维度的存在。此外,还揭示了新的见解和发现,例如文字嵌入何时以及如何对过度拟合具有鲁棒性。通过对PIP损失的偏差 - 方差权衡进行优化,我们可以明确地回答维度嵌入的维度选择的开放性问题。
translated by 谷歌翻译
在本文中,我们提出了一个新的实体关系提取任务范例。我们将任务转换为多回合问题回答问题,即,实体和关系的提取被转换为从上下文识别答案跨度的任务。这种多转QA形式化有几个关键优势:首先,问题查询编码我们想要识别的实体/关系类的重要信息;其次,QA提供了一种自然的方式来联合建模实体和关系;第三,它允许我们利用完善的机器阅读理解(MRC)模型。在ACE和CoNLL04公司的实验表明,所提出的范例明显优于以前的最佳模型。我们能够获得所有ACE04,ACE05和CoNLL04数据集的最新结果,增加了三个数据集的SOTA结果49.6(+1.2),60.3(+0.7)和69.2(+1.4) , 分别。此外,我们构建了一个新开发的数据集RESUME,它需要多步推理来构造实体依赖关系,而不是先前数据集中三元组提取中的单步依赖提取。提出的多转QA模型也在RESUME数据集上实现了最佳性能。
translated by 谷歌翻译
即插即用(PnP)是一种非凸面框架,它将现代化的先驱(如BM3D或基于深度学习的降噪器)集成到ADMM或其他近端算法中。 PnP的一个优点是,当没有足够的数据进行端到端训练时,可以使用预训练的加速器。尽管最近已经广泛研究了PNP并取得了很大的经验成功,但理论分析甚至解决了最基本的收敛问题。在本文中,我们理论上建立了PNP-FBS和PnP-ADMM的收敛,在一定的Lipschitz条件下,在降噪器上不使用递减步长。然后我们提出真实的光谱正态化,这是一种训练基于深度学习的降噪器的技术,以满足所提出的Lipschitz条件。最后,我们提出验证该理论的实验结果。
translated by 谷歌翻译
在本文中,一种新的统计度量学习被开发出高光谱图像的光谱空间分类。首先,每批中每个类的样本的标准方差用于降低每个类中的类级方差。然后,使用不同类别的平均值之间的距离来惩罚训练样本的类间方差。最后,添加不同类的平均值之间的标准方差作为附加的多样性项,以相互排斥不同的类。实验已在两个真实世界的高光谱图像数据集上进行,实验结果显示了所提出的统计度量学习的有效性。
translated by 谷歌翻译
机器学习和计算机科学中的许多凸问题共享相同的形式:\ begin {align *} \ min_ {x} \ sum_ {i} f_i(A_i x + b_i),\ end {align *}其中$ f_i $是凸函数on $ \ mathbb {R} ^ {n_i} $,常数为$ n_i $,$ A_i \ in \ mathbb {R} ^ {n_i \ times d} $,$ b_i \ in \ mathbb {R} ^ {n_i} $和$ \ sum_i n_i = n $。这个问题推广了线性规划,包括许多问题,经验风险最小化。在本文中,我们给出了一个运行intime \ begin {align *}的算法O ^ *((n ^ {\ omega} + n ^ {2.5 - \ alpha / 2} + n ^ {2+ 1/6}) \ log(n / \ delta))\ end {align *}其中$ \ omega $是matrixmultiplication的指数,$ \ alpha $是矩阵乘法的双指数,$ \ delta $是相对精度。请注意,运行时只对条件数或其他数据相关参数具有对数依赖性,并且这些参数在$ \ delta $中捕获。对于当前绑定的$ \ omega \ sim 2.38 $ [Vassilevska Williams'12,Le Gall'14]和$ \ alpha \ sim 0.31 $ [Le Gall,Urrutia'18],我们的运行时$ O ^ *(n ^ {\ omega} \ log(n / \ delta))$匹配当前最佳解决密集最小二乘回归问题,这是我们考虑的问题的一个特例。最近,[Alman'18]证明了目前所有已知的技术都无法提供低于$ 2.168 $的更好的$ \ omega $,这比$ 2 + 1/6 $更大。我们的结果推广了当前矩阵乘法时间[Cohen,Lee,Song'19]中线性程序的最新结果,以解决更广泛的问题。我们的算法提出了两个与[Cohen,Lee,Song'19]不同的概念:$ \ bullet $我们给出一个鲁棒的确定性中心路径方法,而前一个是随机中心路径,它通过randomsparse向量更新权重。 $ \ bullet $我们提出了一种有效的数据结构,即使权重更新向量密集,也能维持内点方法的中心路径。
translated by 谷歌翻译
分级乳房密度对数字乳房X线照片的标准化设置高度敏感,因为密度与像素强度的分布紧密相关。此外,由于不确定的评分标准,成绩因读者而异。这些问题是数字乳腺摄影密度评估中固有的问题。当设计用于乳房密度的计算机辅助预测模型时它们是有问题的,并且如果数据来自多个数据则变得更糟。在本文中,我们提出了两种新的乳房密度预测深度学习技术:1)光度变换,自适应地标准化输入乳房X线照片,和2)标签蒸馏,通过使用其输出预测来调整标签。光度变换器网络预测用于动态光度变换的最佳参数,与主预测网络一起学习。标签蒸馏是一种假标签技术,旨在减轻分级变化。我们实验表明,所提出的方法在乳房密度预测方面是有益的,与以前的各种方法相比,导致显着的性能提高。
translated by 谷歌翻译
为了训练计算机代理来玩基于文本的计算机游戏,我们必须代表游戏的每个隐藏状态。在观察文本上运行的长短期记忆(LSTM)模型是州建设的常见选择。然而,这种代理的正常深度Q学习网络(DQN)需要数百万步训练或更多收敛。因此,基于LSTM的DQNcan需要数天才能完成培训过程。虽然我们可以使用卷积神经网络(CNN)作为文本编码器来构建比LSTM更快的状态,但是如果不理解被分析的单词的句法上下文这样做会减慢收敛速度。在本文中,我们使用快速CNN来编码从观察到的文本中提取的位置和语法结构作为状态。我们还以通用和实用的方式增加奖励信号。总之,我们表明,我们的改进不仅可以将过程加速一个数量级,而且可以学习上级。
translated by 谷歌翻译
深度学习正在彻底改变制图行业。在轻量级人工策划下,计算机使用高分辨率航拍图像在泰国onOpenStreetMap(OSM)上生成了近一半的道路。 Bing地图在美国展示了1.25亿个计算机生成的建筑多边形,虽然比手动绘图更有效,但却无法从空中绘制出一切。特别是对于道路而言,图像遮挡的小预测间隙使整条道路无法用于路线。错误连接可能更危险。因此,基于计算机的映射通常需要本地验证,这仍然是劳动密集型的。在本文中,我们建议利用合并的GPS数据来改进和支持从航空成像中提取道路。通过新颖的数据增强,GPS渲染和1D转置卷积技术,我们显示出比以前的竞争获胜模型近5%的改进,并且在没有任何新的训练数据或域适应的情况下预测新区域时具有更好的稳健性。
translated by 谷歌翻译
为了解决通过分类变量反向传播梯度的挑战,我们提出了无偏差且具有低方差的增广 - REINFORCE-交换 - 合并(ARSM)梯度拟合器。 ARSM首先使用变量增强,REINFORCE和Rao-Blackwellization在Dirichlet分布下重新表达渐变作为预期,然后使用变量交换toconstruct表达不同但等效的期望,最后在这些期望之间共享通用随机数以实现显着的方差减少。实验结果表明,ARSM非常类似于单变量设置中优化的真实梯度的性能;当应用于分类变分自动编码器时,优于现有的估计量;并且为离散动作策略梯度提供了“试一看自我批评”方差减少方法,通过生成随机数量的伪动作来估计其动作 - 值函数,从而消除了对基线估计的需要。
translated by 谷歌翻译