智能论文笔记

User Guided Abductive Proof Generation for Answer Set Programming Queries (Extended Version)

Avishkar Mahajan , Martin Strecker , Meng Weng Wong

分类：人工智能

2022-09-16

我们提出了一种使用绑架过程，在给定的答案集编程（ASP）规则集（ASP）规则集方面生成可能的查询证明，该过程仅根据输入规则自动构建了陈腐的空间。给定一组（可能是空的）用户提供的事实，我们的方法会渗透到需要查询的任何其他事实，然后输出这些额外的事实，而无需用户需要明确指定所有占有无误的空间。我们还提出了一种方法，以生成与查询的理由图相对应的一组定向边缘。此外，通过不同形式的隐式术语替换，我们的方法可以考虑用户提供的事实并适当修改绑架解决方案。过去的绑架工作主要基于目标定向方法。但是，这些方法可能导致并非真正声明的求解器。关于实现绑架的绑架者，例如Clingo ASP求解器，做出的工作要少得多。我们描述了可以直接在Clingo中运行的新型ASP程序，以产生绑架解决方案和定向边缘集，而无需修改基础求解引擎。

translated by 谷歌翻译

YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications

Chuyi Li , Lulu Li , Hongliang Jiang , Kaiheng Weng , Yifei Geng , Liang Li , Zaidan Ke , Qingyuan Li , Meng Cheng , Weiqiang Nie

分类：计算机视觉

2022-09-07

多年来，Yolo系列一直是有效对象检测的事实上的行业级别标准。尤洛社区（Yolo Community）绝大多数繁荣，以丰富其在众多硬件平台和丰富场景中的使用。在这份技术报告中，我们努力将其限制推向新的水平，以坚定不移的行业应用心态前进。考虑到对真实环境中速度和准确性的多种要求，我们广泛研究了行业或学术界的最新对象检测进步。具体而言，我们从最近的网络设计，培训策略，测试技术，量化和优化方法中大量吸收了思想。最重要的是，我们整合了思想和实践，以在各种规模上建立一套可供部署的网络，以适应多元化的用例。在Yolo作者的慷慨许可下，我们将其命名为Yolov6。我们还向用户和贡献者表示热烈欢迎，以进一步增强。为了了解性能，我们的Yolov6-N在NVIDIA TESLA T4 GPU上以1234 fps的吞吐量在可可数据集上击中35.9％的AP。 Yolov6-S在495 fps处的43.5％AP罢工，在相同规模〜（Yolov5-S，Yolox-S和Ppyoloe-S）上超过其他主流探测器。我们的量化版本的Yolov6-S甚至在869 fps中带来了新的43.3％AP。此外，与其他推理速度相似的检测器相比，Yolov6-m/L的精度性能（即49.5％/52.3％）更好。我们仔细进行了实验以验证每个组件的有效性。我们的代码可在https://github.com/meituan/yolov6上提供。

translated by 谷歌翻译

LocVTP: Video-Text Pre-training for Temporal Localization

Meng Cao , Tianyu Yang , Junwu Weng , Can Zhang , Jue Wang , Yuexian Zou

分类：计算机视觉

2022-07-21

视频文本预训练（VTP）旨在从大规模的网络视频中学习可转移的代表。迄今为止，几乎所有现有的VTP方法都仅限于基于检索的下游任务，例如视频检索，而它们在基于本地化的任务（例如时间基础）上的转移潜力不足。在本文中，我们实验分析并证明了当前VTP方法与本地化任务的不相容性，并提出了一种新颖的面向定位的视频文本预训练框架，称为LocvTP。具体而言，我们执行细粒对比度对准作为通过剪贴字对数发现方案对粗粒粒度的补充。为了进一步增强学习功能的时间推理能力，我们提出了一个上下文投影头和暂时意识的对比损失，以感知上下文关系。对六个数据集的四个下游任务进行的广泛实验表明，我们的LOCVTP在基于检索和基于本地化的任务上都达到了最先进的性能。此外，我们进行了全面的消融研究和彻底的分析，以探索最佳的模型设计和培训策略。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

Dual Path Structural Contrastive Embeddings for Learning Novel Objects

Bingbin Li , Elvis Han Cui , Yanan Li , Donghui Wang , Weng Kee Wong

分类：计算机视觉

2021-12-23

从一个非常少数标记的样品中学习新颖的课程引起了机器学习区域的越来越高。最近关于基于元学习或转移学习的基于范例的研究表明，良好特征空间的获取信息可以是在几次拍摄任务上实现有利性能的有效解决方案。在本文中，我们提出了一种简单但有效的范式，该范式解耦了学习特征表示和分类器的任务，并且只能通过典型的传送学习培训策略从基类嵌入体系结构的特征。为了在每个类别内保持跨基地和新类别和辨别能力的泛化能力，我们提出了一种双路径特征学习方案，其有效地结合了与对比特征结构的结构相似性。以这种方式，内部级别对齐和级别的均匀性可以很好地平衡，并且导致性能提高。三个流行基准测试的实验表明，当与简单的基于原型的分类器结合起来时，我们的方法仍然可以在电感或转换推理设置中的标准和广义的几次射击问题达到有希望的结果。

translated by 谷歌翻译

Joint Modeling of Code-Switched and Monolingual ASR via Conditional Factorization

Brian Yan , Chunlei Zhang , Meng Yu , Shi-Xiong Zhang , Siddharth Dalmia , Dan Berrebbi , Chao Weng , Shinji Watanabe , Dong Yu

分类：自然语言处理

2021-11-29

会话双语语言包括三种类型的话语：两个纯粹单色类型和一个内侧型代码切换类型。在这项工作中，我们提出了一个综合框架，共同模拟包括双语语音识别的单声道和代码交换机子任务的可能性。通过定义具有标签到帧同步的单个子任务，我们的联合建模框架可以条件地分解，使得可以仅获得或可能不切换的最终双语输出，仅给出单格式信息。我们表明，该条件分解的联合框架可以由端到端可分解的神经网络进行建模。我们展示了我们拟议模型在单语和代码切换的语料中对双语普通话语音识别的效果。

translated by 谷歌翻译

Blind Image Super-resolution with Elaborate Degradation Modeling on Noise and Kernel

Zongsheng Yue , Qian Zhao , Jianwen Xie , Lei Zhang , Deyu Meng , Kwan-Yee K. Wong

分类：计算机视觉

2021-07-02

虽然最近基于模型的盲目单图像超分辨率（SISR）的研究已经取得了巨大的成功，但大多数人都不认为图像劣化。首先，它们总是假设图像噪声obeys独立和相同分布的（i.i.d.）高斯或拉普拉斯分布，这在很大程度上低估了真实噪音的复杂性。其次，以前的常用核前沿（例如，归一化，稀疏性）不足以保证理性内核解决方案，从而退化后续SISR任务的性能。为了解决上述问题，本文提出了一种基于模型的盲人SISR方法，该方法在概率框架下，从噪声和模糊内核的角度精心模仿图像劣化。具体而言，而不是传统的i.i.d.噪声假设，基于补丁的非i.i.d。提出噪声模型来解决复杂的真实噪声，期望增加噪声表示模型的自由度。至于模糊内核，我们新建构建一个简洁但有效的内核生成器，并将其插入所提出的盲人SISR方法作为明确的内核（EKP）。为了解决所提出的模型，专门设计了理论上接地的蒙特卡罗EM算法。综合实验证明了我们对综合性和实时数据集的最新技术的方法的优越性。

translated by 谷歌翻译

Enhanced Boundary Learning for Glass-like Object Segmentation

Hao He , Xiangtai Li , Guangliang Cheng , Jianping Shi , Yunhai Tong , Gaofeng Meng , Véronique Prinet , Lubin Weng

分类：计算机视觉

2021-03-29

像窗户，瓶子和镜子等玻璃状物体在现实世界中存在广泛存在。感应这些对象有许多应用，包括机器人导航和抓握。然而，由于玻璃样物体背后的任意场景，这项任务非常具有挑战性。本文旨在通过增强的边界学习解决玻璃状物体分割问题。特别是，我们首先提出了一种新的精致差分模块，其输出更精细的边界线索。然后，我们介绍了一个边缘感知点的图形卷积网络模块，以沿边界模拟全局形状。我们使用这两个模块来设计解码器，该解码器产生准确和干净的分段结果，尤其是在对象轮廓上。两个模块都是重量轻且有效的：它们可以嵌入到各种分段模型中。在最近的三个玻璃状物体分割数据集上进行了广泛的实验，包括Trans10K，MSD和GDD，我们的方法建立了新的最先进的结果。我们还说明了我们在三个通用分段数据集中的方法的强大泛化属性，包括城市景观，BDD和Coco Sift。代码和模型可用于\ url {https:/github.com/hehao13/ebrnet}。

translated by 谷歌翻译

Deep Variational Network Toward Blind Image Restoration

Zongsheng Yue , Hongwei Yong , Qian Zhao , Lei Zhang , Deyu Meng , Kwan-Yen K. Wong

分类：计算机视觉

2020-08-25

盲图修复（IR）是计算机视觉中常见但充满挑战的问题。基于经典模型的方法和最新的深度学习（DL）方法代表了有关此问题的两种不同方法，每种方法都有自己的优点和缺点。在本文中，我们提出了一种新颖的盲图恢复方法，旨在整合它们的两种优势。具体而言，我们为盲IR构建了一个普通的贝叶斯生成模型，该模型明确描绘了降解过程。在此提出的模型中，PICEL的非I.I.D。高斯分布用于适合图像噪声。它的灵活性比简单的I.I.D。在大多数常规方法中采用的高斯或拉普拉斯分布，以处理图像降解中包含的更复杂的噪声类型。为了解决该模型，我们设计了一个变异推理算法，其中所有预期的后验分布都被参数化为深神经网络，以提高其模型能力。值得注意的是，这种推论算法诱导统一的框架共同处理退化估计和图像恢复的任务。此外，利用了前一种任务中估计的降解信息来指导后一种红外过程。对两项典型的盲型IR任务进行实验，即图像降解和超分辨率，表明所提出的方法比当前最新的方法实现了卓越的性能。

translated by 谷歌翻译

Vocabulary-informed Zero-shot and Open-set Learning

Yanwei Fu , Xiaomei Wang , Hanze Dong , Yu-Gang Jiang , Meng Wang , Xiangyang Xue , Leonid Sigal

分类：计算机视觉 | 机器学习

2023-01-03

Despite significant progress in object categorization, in recent years, a number of important challenges remain; mainly, the ability to learn from limited labeled data and to recognize object classes within large, potentially open, set of labels. Zero-shot learning is one way of addressing these challenges, but it has only been shown to work with limited sized class vocabularies and typically requires separation between supervised and unsupervised classes, allowing former to inform the latter but not vice versa. We propose the notion of vocabulary-informed learning to alleviate the above mentioned challenges and address problems of supervised, zero-shot, generalized zero-shot and open set recognition using a unified framework. Specifically, we propose a weighted maximum margin framework for semantic manifold-based recognition that incorporates distance constraints from (both supervised and unsupervised) vocabulary atoms. Distance constraints ensure that labeled samples are projected closer to their correct prototypes, in the embedding space, than to others. We illustrate that resulting model shows improvements in supervised, zero-shot, generalized zero-shot, and large open set recognition, with up to 310K class vocabulary on Animal with Attributes and ImageNet datasets.

translated by 谷歌翻译