Logical reasoning of text is an important ability that requires understanding the information present in the text, their interconnections, and then reasoning through them to infer new conclusions. Prior works on improving the logical reasoning ability of language models require complex processing of training data (e.g., aligning symbolic knowledge to text), yielding task-specific data augmentation solutions that restrict the learning of general logical reasoning skills. In this work, we propose APOLLO, an adaptively pretrained language model that has improved logical reasoning abilities. We select a subset of Wikipedia, based on a set of logical inference keywords, for continued pretraining of a language model. We use two self-supervised loss functions: a modified masked language modeling loss where only specific parts-of-speech words, that would likely require more reasoning than basic language understanding, are masked, and a sentence-level classification loss that teaches the model to distinguish between entailment and contradiction types of sentences. The proposed training paradigm is both simple and independent of task formats. We demonstrate the effectiveness of APOLLO by comparing it with prior baselines on two logical reasoning datasets. APOLLO performs comparably on ReClor and outperforms baselines on LogiQA.
translated by 谷歌翻译
We propose Universal Document Processing (UDOP), a foundation Document AI model which unifies text, image, and layout modalities together with varied task formats, including document understanding and generation. UDOP leverages the spatial correlation between textual content and document image to model image, text, and layout modalities with one uniform representation. With a novel Vision-Text-Layout Transformer, UDOP unifies pretraining and multi-domain downstream tasks into a prompt-based sequence generation scheme. UDOP is pretrained on both large-scale unlabeled document corpora using innovative self-supervised objectives and diverse labeled data. UDOP also learns to generate document images from text and layout modalities via masked image reconstruction. To the best of our knowledge, this is the first time in the field of document AI that one model simultaneously achieves high-quality neural document editing and content customization. Our method sets the state-of-the-art on 9 Document AI tasks, e.g., document understanding and QA, across diverse data domains like finance reports, academic papers, and websites. UDOP ranks first on the leaderboard of the Document Understanding Benchmark (DUE).
translated by 谷歌翻译
This study investigates clustered federated learning (FL), one of the formulations of FL with non-i.i.d. data, where the devices are partitioned into clusters and each cluster optimally fits its data with a localized model. We propose a novel clustered FL framework, which applies a nonconvex penalty to pairwise differences of parameters. This framework can automatically identify clusters without a priori knowledge of the number of clusters and the set of devices in each cluster. To implement the proposed framework, we develop a novel clustered FL method called FPFC. Advancing from the standard ADMM, our method is implemented in parallel, updates only a subset of devices at each communication round, and allows each participating device to perform a variable amount of work. This greatly reduces the communication cost while simultaneously preserving privacy, making it practical for FL. We also propose a new warmup strategy for hyperparameter tuning under FL settings and consider the asynchronous variant of FPFC (asyncFPFC). Theoretically, we provide convergence guarantees of FPFC for general nonconvex losses and establish the statistical convergence rate under a linear model with squared loss. Our extensive experiments demonstrate the advantages of FPFC over existing methods.
translated by 谷歌翻译
域的概括旨在学习一个可以很好地概括在看不见的测试数据集(即分布数据集)上的模型,该数据与培训数据集不同。为了解决计算机视觉中的领域概括,我们将损失景观理论引入该领域。具体而言,我们从损失景观的角度从四个方面(包括骨干,正则化,训练范式和学习率)引起了深度学习模型的概括能力。我们通过进行广泛的消融研究和可视化来验证有关NICO ++,PAC和VLCS数据集的提议理论。此外,我们将该理论应用于ECCV 2022 NICO挑战1,并在不使用任何域不变方法的情况下获得第三名。
translated by 谷歌翻译
问答(QA)在回答定制域中的问题方面表现出了令人印象深刻的进展。然而,域的适应性仍然是质量检查系统最难以捉摸的挑战之一,尤其是当质量检查系统在源域中训练但部署在不同的目标域中时。在这项工作中,我们调查了问题分类对质量检查域适应的潜在好处。我们提出了一个新颖的框架:问题回答的问题分类(QC4QA)。具体而言,采用问题分类器将问题类分配给源数据和目标数据。然后,我们通过伪标记以自我监督的方式进行联合培训。为了优化,源和目标域之间的域间差异通过最大平均差异(MMD)距离降低。我们还最大程度地减少了同一问题类别的质量质量适应性表现的QA样本中的类内部差异。据我们所知,这是质量检查域适应中的第一部作品,以通过自我监督的适应来利用问题分类。我们证明了拟议的QC4QA的有效性,并在多个数据集上针对最先进的基线进行了一致的改进。
translated by 谷歌翻译
尽管最近在改善错误信息检测系统的性能方面取得了进展,但在看不见的领域中进行错误信息进行分类仍然是一个难以捉摸的挑战。为了解决这个问题,一种常见的方法是引入域名评论家并鼓励域不变的输入功能。但是,早期的错误信息通常证明了针对现有的错误信息数据(例如,COVID-19数据集中的类不平衡)的条件和标签转移,这使得这种方法在检测早期错误信息方面的有效性较小。在本文中,我们提出了早期错误信息检测(CANMD)的对比适应网络。具体而言,我们利用伪标签来生成高信心的目标示例,用于与源数据的联合培训。我们还设计了标签校正成分,以估算和校正源和目标域之间的标签移动(即类先验)。此外,对比度适应损失已集成在目标函数中,以减少类内部差异并扩大阶层间差异。因此,改编的模型学习了校正的类先验和两个域之间不变的条件分布,以改善目标数据分布的估计。为了证明所提出的CANMD的有效性,我们研究了Covid-19的早期错误信息检测的案例,并使用多个现实世界数据集进行了广泛的实验。结果表明,与最先进的基线相比,CANMD可以有效地将错误信息检测系统适应不见的Covid-19目标域,并有显着改进。
translated by 谷歌翻译
视频识别是由端到端学习范式主导的 - 首先初始化具有预审预周化图像模型的视频识别模型,然后对视频进行端到端培训。这使视频网络能够受益于验证的图像模型。但是,这需要大量的计算和内存资源,以便在视频上进行填充以及直接使用预审计的图像功能的替代方案,而无需填充图像骨架会导致结果不足。幸运的是,在对比视力语言预训练(剪辑)方面的最新进展为视觉识别任务的新途径铺平了道路。这些模型在大型开放式图像文本对数据上进行了预测,以丰富的语义学习强大的视觉表示。在本文中,我们介绍了有效的视频学习(EVL) - 一种有效的框架,用于直接训练具有冷冻剪辑功能的高质量视频识别模型。具体来说,我们采用轻型变压器解码器并学习查询令牌,从剪辑图像编码器中动态收集帧级空间特征。此外,我们在每个解码器层中采用局部时间模块,以发现相邻帧及其注意力图的时间线索。我们表明,尽管有效地使用冷冻的骨干训练,但我们的模型在各种视频识别数据集上学习了高质量的视频表示。代码可在https://github.com/opengvlab/feld-video-rencognition上找到。
translated by 谷歌翻译
如今,大规模数据集的大型培训大型模型已成为深度学习的关键主题。具有较高表示能力和可传递性的预训练模型取得了巨大的成功,并在自然语言处理和2D视觉中占据了许多下游任务。但是,鉴于有限的训练数据相对不便,因此将这种预处理的调整范式促进这种预处理的调整范式是非平凡的。在本文中,我们提供了一个新的观点,即利用3D域中的预训练的2D知识来解决此问题,以新颖的点对像素来调整预训练的图像模型,以较小的参数成本提示点云分析。遵循促使工程的原理,我们将点云转换为具有几何形状的投影和几何学吸引着色的色彩图像,以适应预训练的图像模型,在点云分析的端到端优化期间,其权重冻结了任务。我们进行了广泛的实验,以证明与提议的点对像素提示合作,更好的预训练图像模型将导致在3D视觉中始终如一地表现更好的性能。享受图像预训练领域的繁荣发展,我们的方法在Scanobjectnn的最困难环境中获得了89.3%的精度,超过了传统的点云模型,具有较少的可训练参数。我们的框架在模型网分类和塑形部分分割方面还表现出非常具竞争力的性能。代码可从https://github.com/wangzy22/p2p获得
translated by 谷歌翻译
需求估计在动态定价中起着重要的作用,在动态定价中,可以通过基于需求曲线最大化收入来获得最佳价格。在在线酒店预订平台中,房间的需求或占用率随着房间类型而变化,随着时间的推移变化,因此获得准确的占用估算是一项挑战。在本文中,我们提出了一种新颖的酒店需求功能,该功能明确地模拟了对占用预测需求需求的价格弹性,并设计了价格弹性预测模型,以了解各种影响因素的动态价格弹性系数。我们的模型由精心设计的弹性学习模块组成,以减轻内生性问题,并在多任务框架中接受培训以解决数据稀疏性。我们在现实世界数据集上进行了全面的实验,并验证方法优于最先进的基准,以实现占用预测和动态定价。
translated by 谷歌翻译
计算机辅助的微创手术在使现代经营剧院受益方面具有巨大的潜力。从内窥镜流传输的视频数据提供了丰富的信息,以支持下一代智能手术系统的上下文意识。为了在手术过程中获得准确的感知和自动操纵,基于学习的技术是一种有希望的方法,近年来可以实现先进的图像分析和场景理解。但是,学习此类模型高度依赖于大规模,高质量和多任务标签的数据。目前,这是该主题的瓶颈,因为可用的公共数据集在CAI领域仍然非常有限。在本文中,我们介绍并发布了第一个具有多个基于图像的感知任务的集成数据集(称为Autolaparo),以促进子宫切除术手术中的基于学习的自动化。我们的Autolaparo数据集是根据整个子宫切除术程序的全长视频开发的。具体而言,数据集中制定了三个不同但高度相关的任务,包括手术工作流识别,腹腔镜运动预测以及仪器和关键解剖学细分。此外,我们还提供了最先进模型的实验结果,作为参考基准,用于该数据集的进一步模型开发和评估。该数据集可从https://autolaparo.github.io获得。
translated by 谷歌翻译