许多文献表明,基于及时的学习是使用大型预训练的语言模型的有效方法。最近的作品还展示了通过插入适当的提示来指导聊天机器人输出的可能性。基于梯度的方法通常用于扰动提示。但是,某些语言模型甚至无法为公众提供。在这项工作中,我们首先探讨了提示和加强学习(RL)与转向模型的生成的组合,而无需访问任何模型的参数。其次,为了减少培训工作并增强对看不见的任务的普遍性,我们应用多任务学习以使模型学会更好地对新任务进行推广。实验结果表明,我们提出的方法可以成功控制几个最新的(SOTA)对话模型,而无需访问其参数。此外,该模型证明了与基线模型更少的步骤快速适应看不见的任务的强大能力。
translated by 谷歌翻译
我们分析了通过从源到目标任务转移学习训练的深度学习模型的新泛化界限。我们的边界利用一个称为多数预测器准确性的数量,可以从数据中有效地计算出来。我们表明我们的理论在实践中很有用,因为这意味着大多数预测指标的准确性可以用作可转移性度量,这一事实也通过我们的实验验证。
translated by 谷歌翻译
医疗报告的生成是一项具有挑战性的任务,因为它耗时,需要经验丰富的放射科医生的专业知识。医疗报告生成的目的是准确捕获和描述图像发现。先前的作品在不同域中使用大型数据集预处理其视觉编码神经网络,这些数据集无法在特定的医疗领域中学习一般的视觉表示。在这项工作中,我们提出了一个医学报告生成框架,该框架使用对比度学习方法来预处理视觉编码器,并且不需要其他元信息。此外,我们在对比度学习框架中采用肺部分割作为增强方法。该分割指导网络专注于编码肺部区域内的视觉特征。实验结果表明,所提出的框架可以在定量和定性上提高生成的医疗报告的性能和质量。
translated by 谷歌翻译
在大多数数据科学方法中,最大熵的原理(Maxent)用于后验证明某些参数模型的合理性,这些模型已根据经验,先验知识或计算简单性选择。在传统模型构建的垂直公式中,我们从现象学约束的线性系统开始,渐近地在满足提供的约束集集的所有可行分布上得出了分布。最大分布起着特殊的作用,因为它是所有现象学上可行的分布中最典型的,代表了大N技术的良好膨胀点。这使我们能够以完全DATA驱动的方式始终如一地制定假设检验。数据支持的适当参数模型可以在模型选择结束时始终推导。在Maxent框架中,我们恢复了多个应用程序中使用的主要分数和选择程序,并评估其在数据生成过程中捕获关联并确定最概括的模型的能力。标准模型选择的数据驱动的对应物展示了最大原则提倡的演绎逻辑的统一前景,同时有可能为反问题提供新的见解。
translated by 谷歌翻译
读取文本读取序列的确定是对记录理解的基础。在文本组织成一系列行和垂直对准的页面中,可以轻松解决此问题,并运行页面的高度(生成可以从左到右读取的多列)。我们展示了一种情况 - 目录页面解析问题 - 以不规则,视觉组织的二维格式在页面上呈现信息。目录页面在金融招股说明书中相当常见,并携带有关组织,其地址和关系的信息,这是客户在车内客户端的关键。有趣的是,目录页有时有分层结构,激励需要将读取序列概括为读取树。我们向识别目录页面和构建读取树的问题提供解决方案,使用(学习)文本段和自下而上的(向左,左上,顶部顶部)遍历的段的横向。该解决方案是支持从客户端船上文件自动提取组织,地址和关系信息的生产服务的关键部分。
translated by 谷歌翻译
在本文中,我们研究了一个通用贝叶斯估计的学习率,在一个通用的环境中,假设类可以是不可数的并且具有不规则形状,损失函数可以具有重尾,最佳假设可能不是唯一的。我们证明,在多尺寸的伯尔尼斯坦的病情下,广义的后验分布集中在最佳假设围绕和广义贝叶斯估计器可以实现快速学习率。我们的结果适用于标准贝叶斯线性回归对重尾部分布稳健。
translated by 谷歌翻译
在本文中,我们提出了一种自适应组套索深神经网络,用于高维函数近似,其中从动力系统生成输入数据,目标函数取决于少数有源变量或几乎没有变量的线性组合。我们通过深度神经网络近似于目标功能,并强制对合适的隐藏层的权重实施自适应组套索约束,以便表示目标函数的约束。我们利用近端算法优化惩罚损耗函数。使用BREGMAN距离的非负属性,我们证明所提出的优化程序实现损失衰减。我们的实证研究表明,该方法始终优于最近的最先进方法,包括稀疏词典矩阵方法,有或没有组卢赛诺罚款的神经网络。
translated by 谷歌翻译
广泛利用医学和工程科学深度学习的一个主要障碍是其可解释性。虽然神经网络模型是制作预测的强大工具,但它们通常提供很少的信息,其中特征在影响预测准确性时发挥着重要作用。为了克服这个问题,已经提出了利用神经网络学习的许多正则化程序,以丢弃非重大功能。不幸的是,缺乏理论结果对这种管道的适用性产生了疑虑。在这项工作中,我们提出并建立了使用自适应组套索来选择神经网络的重要特征的理论保障。具体而言,我们表明我们的特征选择方法对于具有一个隐藏层和双曲线切线激活功能的单输出前馈神经网络一致。我们使用仿真和数据分析展示其适用性。
translated by 谷歌翻译
We propose a distributionally robust return-risk model for Markov decision processes (MDPs) under risk and reward ambiguity. The proposed model optimizes the weighted average of mean and percentile performances, and it covers the distributionally robust MDPs and the distributionally robust chance-constrained MDPs (both under reward ambiguity) as special cases. By considering that the unknown reward distribution lies in a Wasserstein ambiguity set, we derive the tractable reformulation for our model. In particular, we show that that the return-risk model can also account for risk from uncertain transition kernel when one only seeks deterministic policies, and that a distributionally robust MDP under the percentile criterion can be reformulated as its nominal counterpart at an adjusted risk level. A scalable first-order algorithm is designed to solve large-scale problems, and we demonstrate the advantages of our proposed model and algorithm through numerical experiments.
translated by 谷歌翻译
Many recent works on understanding deep learning try to quantify how much individual data instances influence the optimization and generalization of a model, either by analyzing the behavior of the model during training or by measuring the performance gap of the model when the instance is removed from the dataset. Such approaches reveal characteristics and importance of individual instances, which may provide useful information in diagnosing and improving deep learning. However, most of the existing works on data valuation require actual training of a model, which often demands high-computational cost. In this paper, we provide a training-free data valuation score, called complexity-gap score, which is a data-centric score to quantify the influence of individual instances in generalization of two-layer overparameterized neural networks. The proposed score can quantify irregularity of the instances and measure how much each data instance contributes in the total movement of the network parameters during training. We theoretically analyze and empirically demonstrate the effectiveness of the complexity-gap score in finding 'irregular or mislabeled' data instances, and also provide applications of the score in analyzing datasets and diagnosing training dynamics.
translated by 谷歌翻译