智能论文笔记

OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models

Jinze Bai , Rui Men , Hao Yang , Xuancheng Ren , Kai Dang , Yichang Zhang , Xiaohuan Zhou , Peng Wang , Sinan Tan , An Yang

分类：计算机视觉 | 人工智能 | 自然语言处理 | 机器学习

2022-12-08

Generalist models, which are capable of performing diverse multi-modal tasks in a task-agnostic way within a single model, have been explored recently. Being, hopefully, an alternative to approaching general-purpose AI, existing generalist models are still at an early stage, where modality and task coverage is limited. To empower multi-modal task-scaling and speed up this line of research, we release a generalist model learning system, OFASys, built on top of a declarative task interface named multi-modal instruction. At the core of OFASys is the idea of decoupling multi-modal task representations from the underlying model implementations. In OFASys, a task involving multiple modalities can be defined declaratively even with just a single line of code. The system automatically generates task plans from such instructions for training and inference. It also facilitates multi-task training for diverse multi-modal workloads. As a starting point, we provide presets of 7 different modalities and 23 highly-diverse example tasks in OFASys, with which we also develop a first-in-kind, single model, OFA+, that can handle text, image, speech, video, and motion data. The single OFA+ model achieves 95% performance in average with only 16% parameters of 15 task-finetuned models, showcasing the performance reliability of multi-modal task-scaling provided by OFASys. Available at https://github.com/OFA-Sys/OFASys

translated by 谷歌翻译

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Teven Le Scao , Angela Fan , Christopher Akiki , Ellie Pavlick , Suzana Ilić , Daniel Hesslow , Roman Castagné , Alexandra Sasha Luccioni , François Yvon , Matthias Gallé

分类：自然语言处理

2022-11-09

Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.

translated by 谷歌翻译

Streaming Punctuation for Long-form Dictation with Transformers

Piyush Behre , Sharman Tan , Padma Varadharajan , Shuangyu Chang

分类：自然语言处理

2022-10-11

While speech recognition Word Error Rate (WER) has reached human parity for English, long-form dictation scenarios still suffer from segmentation and punctuation problems resulting from irregular pausing patterns or slow speakers. Transformer sequence tagging models are effective at capturing long bi-directional context, which is crucial for automatic punctuation. Automatic Speech Recognition (ASR) production systems, however, are constrained by real-time requirements, making it hard to incorporate the right context when making punctuation decisions. In this paper, we propose a streaming approach for punctuation or re-punctuation of ASR output using dynamic decoding windows and measure its impact on punctuation and segmentation accuracy across scenarios. The new system tackles over-segmentation issues, improving segmentation F0.5-score by 13.9%. Streaming punctuation achieves an average BLEU-score improvement of 0.66 for the downstream task of Machine Translation (MT).

translated by 谷歌翻译

Physical Logic Enhanced Network for Small-Sample Bi-Layer Metallic Tubes Bending Springback Prediction

Chang Sun , Zili Wang , Shuyou Zhang , Le Wang , Jianrong Tan

分类：机器学习

2022-09-20

双层金属管（BMT）在工程应用中起着极其至关重要的作用，旋转弯曲弯曲（RDB）可以实现高精度弯曲处理，但是，该产品将进一步弹回。由于BMT的复杂结构和数据集获取的高成本，基于机制研究和机器学习的现有方法无法满足Spresback预测的工程要求。根据初步机制分析，提出了物理逻辑增强网络（PE-NET）。该体系结构包括ES-NET等效BMT与单层管等效，SP-NET用于带有足够的单层管样品的浮回本的最终预测。具体而言，在第一阶段，通过理论驱动的预探测和数据驱动的预处理，ES-NET和SP-NET分别构建。在第二阶段，在物理逻辑下，PE-NET由ES-NET和SP-NET组装，然后与小样本BMT数据集和复合损耗函数进行微调。 FE模拟数据集，小样本数据集BMT BMT弹回角预测验证了所提出方法的有效性和稳定性，并证明了跨性别和工程应用程序的潜在方法。

translated by 谷歌翻译

FRANS: Automatic Feature Extraction for Time Series Forecasting

Alexey Chernikov , Chang Wei Tan , Pablo Montero-Manso , Christoph Bergmeir

分类：机器学习

2022-09-15

特征提取方法有助于降低维度并捕获相关信息。在时间序列预测（TSF）中，功能可以用作辅助信息，以实现更好的准确性。传统上，TSF中使用的功能是手工制作的，需要域知识和重要的数据工程工作。在这项研究中，我们首先介绍了静态和动态功能的概念，然后使我们能够开发自主功能，以检索不需要域知识的静态特征（FRAN）的自动回归网络（FRAN）。该方法基于CNN分类器，该分类器经过训练，可以为每个系列创建一个集体和独特的类表示，要么是从该系列的部分中或（如果可以使用的类标签），从一组同一类中。它允许以相似的行为区分序列，但要从不同的类别中进行区分，并使从分类器提取的特征具有最大歧视性。我们探讨了我们功能的解释性，并评估预测元学习环境中该方法的预测能力。我们的结果表明，在大多数情况下，我们的功能会提高准确性。一旦训练，我们的方法就会创建比统计方法快的阶数级级。

translated by 谷歌翻译

Multimodal Transformer for Automatic 3D Annotation and Object Detection

Chang Liu , Xiaoyan Qian , Binxiao Huang , Xiaojuan Qi , Edmund Lam , Siew-Chong Tan , Ngai Wong

分类：计算机视觉

2022-07-20

尽管收集了越来越多的数据集用于培训3D对象检测模型，但在LiDar扫描上注释3D盒仍然需要大量的人类努力。为了自动化注释并促进了各种自定义数据集的生产，我们提出了一个端到端的多模式变压器（MTRANS）自动标签器，该标签既利用LIDAR扫描和图像，以生成来自弱2D边界盒的精确的3D盒子注释。为了减轻阻碍现有自动标签者的普遍稀疏性问题，MTRAN通过基于2D图像信息生成新的3D点来致密稀疏点云。凭借多任务设计，MTRANS段段前景/背景片段，使LIDAR POINT CLUENS云密布，并同时回归3D框。实验结果验证了MTRAN对提高生成标签质量的有效性。通过丰富稀疏点云，我们的方法分别在Kitti中度和硬样品上获得了4.48 \％和4.03 \％更好的3D AP，而不是最先进的自动标签器。也可以扩展Mtrans以提高3D对象检测的准确性，从而在Kitti硬样品上产生了显着的89.45 \％AP。代码位于\ url {https://github.com/cliu2/mtrans}。

translated by 谷歌翻译

Digital-twin-enhanced metal tube bending forming real-time prediction method based on Multi-source-input MTL

Chang Sun , Zili Wang , Shuyou Zhang , Taotao Zhou , Jie Li , Jianrong Tan

分类：机器学习 | 人工智能

2022-07-03

作为使用最广泛的金属管弯曲方法之一，旋转拉动弯曲（RDB）过程可实现可靠和高精度的金属管弯曲（MTBF）。形成准确性受到回避和其他潜在形成缺陷的严重影响，其机制分析很难处理。同时，现有方法主要是在离线空间中进行的，忽略了物理世界中的实时信息，这是不可靠且效率低下的。为了解决这个问题，提出了基于多源输入多任务学习（MTL）的数字增强（DT增强）金属管弯曲弯曲的实时预测方法。新方法可以实现全面的MTBF实时预测。通过共享多关闭域的共同特征并在功能共享和接受层上采用组正规化策略，可以保证多源输入MTL的准确性和效率。通过DT增强，物理实时变形数据通过改进的格莱美角度场（GAF）转换在图像维度中对齐，从而实现了实际处理的反射。与传统的离线预测方法不同，新方法集成了虚拟和物理数据，以实现更有效，更准确的实时预测结果。可以实现虚拟系统和物理系统之间的DT映射连接。为了排除设备误差的影响，在物理实验验证的FE模拟方案上验证了所提出的方法的有效性。同时，将通用的预训练网络与提出的方法进行比较。结果表明，所提出的DT增强预测方法更准确和有效。

translated by 谷歌翻译

Exploiting Bi-directional Global Transition Patterns and Personal Preferences for Missing POI Category Identification

Dongbo Xi , Fuzhen Zhuang , Yanchi Liu , Hengshu Zhu , Pengpeng Zhao , Chang Tan , Qing He

分类：机器学习

2021-12-31

近年来见证了基于地点的社交网络（LBSN）服务的日益普及，这为构建个性化的兴趣点（POI）推荐系统提供了无与伦比的机会。现有的POI推荐和位置预测任务利用过去的信息来从单个方向角度使用过去的推荐或预测，而缺少的POI类别识别任务需要在缺少类别之前和之后使用检查信息。因此，长期存在的挑战是如何在移动用户的现实检查数据中有效地识别丢失的POI类别。为此，在本文中，我们提出了一种新的神经网络方法，通过整合双向全球非个人转换模式和用户的个人喜好来识别缺失的POI类别。具体而言，我们精致地设计了一个关注匹配的单元格，以模拟登记类别信息如何与他们的非个人转换模式和个人偏好匹配。最后，我们在两个现实世界数据集中评估我们的模型，与最先进的基线相比，这明确验证了其有效性。此外，我们的模型可以自然扩展，以解决具有竞争性能的下一个POI类别推荐和预测任务。

translated by 谷歌翻译

Music Score Expansion with Variable-Length Infilling

Chih-Pin Tan , Chin-Jui Chang , Alvin W. Y. Su , Yi-Hsuan Yang

分类：人工智能

2021-11-11

在本文中，我们使用最初提出的可变长度infilling（VLI）模型进行调查，该模型最初提出缺失缺失段，以“延长”在音乐界限下的现有音乐群。具体而言，作为一个案例研究，我们将20个音乐段扩展到16个条形图到16个条形，并检查VLI模型在使用少数客观指标中保留扩展结果中的音乐界限的程度，包括我们新提出的寄存器直方图相似度。结果表明，VLI模型有可能解决扩展任务。

translated by 谷歌翻译

A Unifying Theory of Thompson Sampling for Continuous Risk-Averse Bandits

Joel Q. L. Chang , Vincent Y. F. Tan

分类：机器学习 | (统计)机器学习

2021-08-25

本文统一了设计，简化了风险厌恶汤普森采样算法的分析，为多武装爆炸问题的常规风险功能为$ \ rho $。在大偏差理论中使用收缩原理，我们证明了这些连续风险功能的新型浓度界限。与现有的作品相比，所界限取决于样本本身，我们的范围仅取决于样本的数量。这使我们能够以追求的分析挑战，并统一现有汤普森采样的算法的遗憾范围。我们展示了广泛的风险功能以及它们的“漂亮”功能满足连续性条件。使用我们新开发的分析工具包，我们分析了算法$ \ rho $ -mts（对于多项式发行版）和$ \ rho $ -npts（对于有界分布），并证明他们承认渐近最佳的风险厌恶算法的最佳遗憾平均方差，CVAR等普遍存在风险措施，以及一系列新综合的风险措施。数值模拟表明，我们的界限是相当严格的VIS-\“A-VIS算法无关的下限。

translated by 谷歌翻译