我们考虑固定价格机制设计设置,卖方通过社交网络销售oneitem,但卖方最初只能直接与邻居沟通。网络中的每个其他节点都是潜在的买方,其估值来自共同分布。使用标准的固定价格机制,卖家只能在她的邻居中出售物品。为了增加收入,她需要更多的买家加入销售。为了实现这一目标,我们提出了第一个固定价格机制来激励这些邻居告知他们的邻居有关销售的信息并最终通知网络中的所有买家以提高卖家的收入。与同一目的的现有机制相比,我们的机制不需要买方揭示其估值,并且计算上容易。更重要的是,它保证了收益的改善至少是最优的1/2。
translated by 谷歌翻译
各种机器学习应用程序期望通过有限数量的标记数据实现快速学习。然而,大多数当前模型的成功是对大数据进行大量培训的结果。元学习通过提取可以快速适应新任务的不同任务的常识来解决这个问题。但是,他们并没有完全探索弱受监督的信息,这些信息通常是免费或廉价的。在本文中,我们表明弱标记数据可以显着提高元学习在少数分类中的表现。我们建议在几次射击任务上训练的原型传播网络(PPN)以及由粗标签注释的数据。给定目标精细类和一些弱标记粗类的类别图,PPN学习了一种注意机制,该机制在图上将一个类的原型传播到另一个类,从而在传播的原型上定义了K-最近邻(KNN)分类器。在不同的几次拍摄任务中具有高精度。训练任务由子图采样产生,训练目标是通过累积子图上的水平分类损失获得的。原型的结果图可以不断地重新使用和更新以用于新任务和类。我们还介绍了两种实用的测试/推理设置,这些设置不同于测试任务是否可以利用任何弱监督信息,如在培训中。在两个基准测试中,PPN在不同的设置中明显优于最近的几个镜头学习方法,即使他们也被允许训练弱标签数据。
translated by 谷歌翻译
低精度操作可提供可扩展性,内存节省,可移植性和能效。本文提出了SWALP,这是一种精确度训练方法,可以通过修改的学习率计划平均低精度SGD迭代。 SWALP易于实现,即使所有数字量化到8位,包括梯度累加器,也可以匹配全精度SGD的性能。此外,我们证明SWALPconverges任意接近二次目标的最优解,并且在强凸设置中渐近地小于低精度SGD的噪声球。
translated by 谷歌翻译
我们提出了BERTScore,一种用于文本生成的自动评估指标。对于常见指标,\ method计算候选句中每个标记与参考中每个标记的相似性得分。然而,我们使用上下文化的BERTembeddings来计算相似度,而不是查看完全匹配。我们对几种机器翻译和图像字幕标记进行了评估,并表明BERTScore与人类判断相关的指标更好地相关,通常甚至明显优于任务特定的监督指标。
translated by 谷歌翻译
大多数现有的语义分割方法采用无穷大的卷积来扩大滤波器的感受域,但忽略了部分信息。为了解决这个问题,我们首先提出了一种新颖的Kronecker卷积,它将Kronecker产品扩展到标准卷积核心,以便考虑到由于萎缩卷积所忽略的部分特征。因此,它可以在不引入额外参数的情况下捕获部分信息并同时扩大滤波器的感受域。其次,我们提出了三层结构的特征聚合(TFA)模块,它遵循递归规则来扩展并形成层次结构。因此,它可以自然地学习多尺度对象的表示并在复杂场景中编码分层上下文信息。最后,我们设计了树形结构的KroneckerConvolutional Networks(TKCN),它采用Kronecker卷积和TFA模块。对三个数据集进行了大量实验,PASCAL VOC 2012,PASCAL-Context和Cityscapes,验证了我们提出的方法的有效性。我们通过以下网址公开提供代码和经过培训的模型://github.com/wutianyiRosun/TKCN。
translated by 谷歌翻译
本文研究了分布式强化学习(DRL)问题,包括中央控制者和一组学习者。考虑广泛应用的两种DRL设置:多智能强化学习(RL)和并行RL。在这两种设置中,需要在学习者和控制器之间频繁地进行信息交换。然而,对于许多分布式系统,例如用于训练深度RL算法的并行机器,以及用于学习最佳协调策略的多机器人系统,由频繁通信引起的开销不可忽略并且成为整体性能的瓶颈。为了克服这一挑战,我们开发了一种新的政策梯度方法,可以在这种通信受限的环境中有效实施。通过自适应地跳过策略梯度通信,我们的方法可以减少通信开销而不降低学习准确性。从分析上看,我们可以确定i)算法的收敛速度与DRL任务的vanilla策略梯度相同;并且,ii)如果分布式计算单元在其奖励功能和初始陈述分布方面是不同的,则实现目标学习准确度所需的通信轮次的数量减少。对流行的多代理RLbenchmark的数值实验证实了我们的算法与替代方案相比显着的通信减少。
translated by 谷歌翻译
在移动设备上应用语义分割模型的需求正在迅速增加。当前最先进的网络具有大量参数,因此不适合移动设备,而其他小型记忆足迹模型忽略了语义分割的固有特征。为解决这一问题,我们提出了一种新颖的上下文引导网络(CGNet),它是用于移动设备上语义分段的轻量级网络。我们首先提出了Context Guided(CG)块,它学习了局部特征和周围环境的联合特征,并进一步改善了与全局背景的联合特征。基于CG模块,我们开发了ContextGuided Network(CGNet),它捕获网络各个阶段的上下文信息,专门用于提高分割精度.CGNet还经过精心设计,可减少参数数量并节省内存。在相同数量的参数下,建议的CGNET显着优于现有的分段网络。 Cityscapes和CamVid数据集的大量实验验证了所提出的方法的有效性。具体来说,在没有任何后期处理的情况下,CGNet在Cityscapes上的参数值小于0.5M时达到64.8%meanUoU,并且在一张NVIDIA Tesla K80卡上的帧率为50fps,用于2048 $ \ 1024美元的高分辨率图像。来源完整系统的代码是公开的。
translated by 谷歌翻译
提取关系对于知识库的完成和构建至关重要,其中远程监督方法被广泛用于利用现有知识库自动提取关联事实。然而,自动构建的数据集包括含有噪声单词的低质量句子的数量,这被当前的远程监督方法忽略,导致不可接受的精确度。为了缓解这个问题,我们提出了一种用于关系提取的新颖的单词级远程监督方法。我们首先构建子树解析(STP)以去除与关系无关的噪声词。然后我们构建一个输入子树的神经网络,同时应用实体关注来识别每个实例中关系词的重要语义特征。为了使我们的模型对于嘈杂的单词更加健壮,我们使用通过转移学习从实体分类的相关任务中学习的先验知识来初始化我们的网络。我们利用纽约时报(NYT)和Freebase的语料库进行了大量的实验。实验表明,我们的方法是有效的,并且在最先进的工作中将精确/召回(PR)的面积从0.35提高到0.39。
translated by 谷歌翻译
在本文中,我们提出了一种自我关注机制,称为“快速双向自我关注(Fast-DiSA)”,它是“定向自我关注(DiSA)”的快速而轻微的延伸。所提出的Fast-DiSA与原始DiSA一样执行,但仅使用更少的计算时间和内存,其中1)token2token和source2token依赖关系都是通过为点积和多暗道混合设计的联合兼容函数建模的; 2)考虑到由多个位置掩模捕获的全向时间信息的多头和多暗注意力,并且在没有重大时间和存储器消耗的情况下出现在DiSA中。实验结果表明,所提出的Fast-DiSA可以实现与CNN一样快速且对内存友好的最佳性能。 Fast-DiSA的代码发布在\ url {https://github.com/taoshen58/DiSAN/tree/master/Fast-DiSA}。
translated by 谷歌翻译
Gradient-based Monte Carlo sampling algorithms, like Langevin dynamics and Hamiltonian Monte Carlo, are important methods for Bayesian inference. In large-scale settings, full-gradients are not affordable and thus stochastic gradients evaluated on mini-batches are used as a replacement. In order to reduce the high variance of noisy stochas-tic gradients, Dubey et al. [2016] applied the standard variance reduction technique on stochastic gradient Langevin dynamics and obtained both theoretical and experimental improvements. In this paper, we apply the variance reduction tricks on Hamiltonian Monte Carlo and achieve better theoretical convergence results compared with the variance-reduced Langevin dynamics. Moreover, we apply the symmetric splitting scheme in our variance-reduced Hamiltonian Monte Carlo algorithms to further improve the theoretical results. The experimental results are also consistent with the theoretical results. As our experiment shows, variance-reduced Hamiltonian Monte Carlo demonstrates better performance than variance-reduced Langevin dynamics in Bayesian regression and classification tasks on real-world datasets.
translated by 谷歌翻译