智能论文笔记

Syntax-Guided Domain Adaptation for Aspect-based Sentiment Analysis

Anguo Dong , Cuiyun Gao , Yan Jia , Qing Liao , Xuan Wang , Lei Wang , Jing Xiao

分类：人工智能

2022-11-10

Aspect-based sentiment analysis (ABSA) aims at extracting opinionated aspect terms in review texts and determining their sentiment polarities, which is widely studied in both academia and industry. As a fine-grained classification task, the annotation cost is extremely high. Domain adaptation is a popular solution to alleviate the data deficiency issue in new domains by transferring common knowledge across domains. Most cross-domain ABSA studies are based on structure correspondence learning (SCL), and use pivot features to construct auxiliary tasks for narrowing down the gap between domains. However, their pivot-based auxiliary tasks can only transfer knowledge of aspect terms but not sentiment, limiting the performance of existing models. In this work, we propose a novel Syntax-guided Domain Adaptation Model, named SDAM, for more effective cross-domain ABSA. SDAM exploits syntactic structure similarities for building pseudo training instances, during which aspect terms of target domain are explicitly related to sentiment polarities. Besides, we propose a syntax-based BERT mask language model for further capturing domain-invariant features. Finally, to alleviate the sentiment inconsistency issue in multi-gram aspect terms, we introduce a span-based joint aspect term and sentiment analysis module into the cross-domain End2End ABSA. Experiments on five benchmark datasets show that our model consistently outperforms the state-of-the-art baselines with respect to Micro-F1 metric for the cross-domain End2End ABSA task.

translated by 谷歌翻译

Power Efficient Video Super-Resolution on Mobile NPUs with Deep Learning, Mobile AI & AIM 2022 challenge: Report

Andrey Ignatov , Radu Timofte , Cheng-Ming Chiang , Hsien-Kai Kuo , Yu-Syuan Xu , Man-Yu Lee , Allen Lu , Chia-Ming Cheng , Chih-Cheng Chen , Jia-Ying Yong

分类：计算机视觉

2022-11-07

Video super-resolution is one of the most popular tasks on mobile devices, being widely used for an automatic improvement of low-bitrate and low-resolution video streams. While numerous solutions have been proposed for this problem, they are usually quite computationally demanding, demonstrating low FPS rates and power efficiency on mobile devices. In this Mobile AI challenge, we address this problem and propose the participants to design an end-to-end real-time video super-resolution solution for mobile NPUs optimized for low energy consumption. The participants were provided with the REDS training dataset containing video sequences for a 4X video upscaling task. The runtime and power efficiency of all models was evaluated on the powerful MediaTek Dimensity 9000 platform with a dedicated AI processing unit capable of accelerating floating-point and quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 500 FPS rate and 0.2 [Watt / 30 FPS] power consumption. A detailed description of all models developed in the challenge is provided in this paper.

translated by 谷歌翻译

PaLI: A Jointly-Scaled Multilingual Language-Image Model

Xi Chen , Xiao Wang , Soravit Changpinyo , AJ Piergiovanni , Piotr Padlewski , Daniel Salz , Sebastian Goodman , Adam Grycner , Basil Mustafa , Lucas Beyer

分类：计算机视觉 | 自然语言处理

2022-09-14

有效的缩放和灵活的任务接口使大型语言模型能够在许多任务中表现出色。帕利（Pali）根据视觉和文本输入生成文本，并使用该界面以许多语言执行许多视觉，语言和多模式任务。为了训练帕利，我们利用了大型的编码器语言模型和视觉变压器（VITS）。这使我们能够利用其现有能力，并利用培训它们的大量成本。我们发现，视觉和语言组成部分的联合缩放很重要。由于现有的语言变压器比其视觉对应物要大得多，因此我们训练迄今为止最大的VIT（VIT-E），以量化甚至大容量视觉模型的好处。为了训练Pali，我们基于一个新的图像文本训练集，其中包含10B图像和文本，以100多种语言来创建大型的多语言组合。帕利（Pali）在多个视觉和语言任务（例如字幕，视觉问题，索方式，场景文本理解）中实现了最新的，同时保留了简单，模块化和可扩展的设计。

translated by 谷歌翻译

Clustering Egocentric Images in Passive Dietary Monitoring with Self-Supervised Learning

Jiachuan Peng , Peilun Shi , Jianing Qiu , Xinwei Ju , Frank P. -W. Lo , Xiao Gu , Wenyan Jia , Tom Baranowski , Matilda Steiner-Asiedu , Alex K. Anderson

分类：计算机视觉

2022-08-25

在我们最近在加纳被动饮食监测的饮食评估现场研究中，我们收集了超过25万件野外图像。该数据集是一种持续的努力，旨在通过被动监控摄像头技术在低收入和中等收入国家中准确测量单个食物和营养摄入量。目前的数据集涉及加纳农村地区和城市地区的20个家庭（74个受试者），研究中使用了两种不同类型的可穿戴摄像机。一旦开始，可穿戴摄像机会不断捕获受试者的活动，该活动会产生大量的数据，以便在进行分析之前清洁和注释。为了简化数据后处理和注释任务，我们提出了一个新颖的自学学习框架，以将大量以自我为中心的图像聚集到单独的事件中。每个事件都由一系列时间连续和上下文相似的图像组成。通过将图像聚集到单独的事件中，注释者和营养师可以更有效地检查和分析数据，并促进随后的饮食评估过程。在带有地面真实标签的固定测试套装上验证，拟议的框架在聚集质量和分类准确性方面优于基准。

translated by 谷歌翻译

Weakly Supervised Online Action Detection for Infant General Movements

Tongyi Luo , Jia Xiao , Chuncao Zhang , Siheng Chen , Yuan Tian , Guangjun Yu , Kang Dang , Xiaowei Ding

分类：计算机视觉 | 人工智能

2022-08-07

为了使婴儿脑瘫（CP）的早期医疗干预，早期诊断出脑损伤至关重要。尽管一般运动评估（GMA）在早期CP检测中显示出令人鼓舞的结果，但它很费力。大多数现有作品都以视频为输入，以对GMA自动化进行烦躁的动作（FMS）分类。这些方法需要对视频进行完整的观察，并且无法本地化包含正常FMS的视频帧。因此，我们提出了一种名为WO-GMA的新颖方法，以在弱监督的在线环境中执行FMS本地化。首先将婴儿体重点作为WO-GMA的输入提取。然后，WO-GMA执行本地时空提取，然后进行两个网络分支，以生成伪夹标签和模型在线操作。凭借剪辑级伪标签，动作建模分支学会以在线方式检测FMS。具有757个不同婴儿视频的数据集上的实验结果表明，WO-GMA可以获得最新的视频级别分类和Cliplevel检测结果。此外，仅需要前20％的视频持续时间才能获得与完全观察到的分类结果，这意味着FMS诊断时间大大缩短了。代码可在以下网址获得：https：//github.com/scofiedluo/wo-gma。

translated by 谷歌翻译

Hybrid Multimodal Feature Extraction, Mining and Fusion for Sentiment Analysis

Jia Li , Ziyang Zhang , Junjie Lang , Yueqi Jiang , Liuwei An , Peng Zou , Yangyang Xu , Sheng Gao , Jie Lin , Chunxiao Fan

分类：计算机视觉 | 自然语言处理

2022-08-05

在本文中，我们介绍了2022年多模式情感分析挑战（MUSE）的解决方案，其中包括Muse-Humor，Muse-Rection和Muse Surns Sub-Challenges。 2022年穆斯穆斯（Muse 2022）着重于幽默检测，情绪反应和多模式的情感压力，利用不同的方式和数据集。在我们的工作中，提取了不同种类的多模式特征，包括声学，视觉，文本和生物学特征。这些功能由Temma和Gru融合到自发机制框架中。在本文中，1）提取了一些新的音频功能，面部表达功能和段落级文本嵌入以进行准确的改进。 2）我们通过挖掘和融合多模式特征来显着提高多模式情感预测的准确性和可靠性。 3）在模型培训中应用有效的数据增强策略，以减轻样本不平衡问题并防止模型形成学习有偏见的主题字符。对于博物馆的子挑战，我们的模型获得了0.8932的AUC分数。对于Muse Rection子挑战，我们在测试集上的Pearson相关系数为0.3879，它的表现优于所有其他参与者。对于Muse Surst Sub-Challenge，我们的方法在测试数据集上的唤醒和价值都优于基线，达到了0.5151的最终综合结果。

translated by 谷歌翻译

Forecasting Future World Events with Neural Networks

Andy Zou , Tristan Xiao , Ryan Jia , Joe Kwon , Mantas Mazeika , Richard Li , Dawn Song , Jacob Steinhardt , Owain Evans , Dan Hendrycks

分类：机器学习 | 自然语言处理

2022-06-30

预测未来的世界事件是一项具有挑战性但有价值的任务。对气候，地缘政治冲突，大流行和经济指标的预测有助于塑造政策和决策。在这些领域中，专家人类的判断有助于最佳预测。鉴于语言建模的进步，这些预测可以自动化吗？为此，我们介绍了AutoCast，这是一个包含数千个预测问题和随附的新闻语料库的数据集。问题来自预测锦标赛，确保高质量，现实世界中的重要性和多样性。新闻语料库是按日期组织的，使我们能够精确模拟人类过去的预测（避免将来泄漏）的条件。我们的动机是由于数量级的预测数字的难度（例如，2022年的Covid-19的全球案例），我们还策划了Intervalqa，这是数值问题和校准的数值问题和指标的数据集。我们在预测任务上测试语言模型，并发现绩效远低于人类专家基线。但是，随着新闻语料库中相关信息的合并，绩效提高了绩效。总而言之，AutoCast对大型语言模型提出了一个新颖的挑战，并提高了性能可能会带来很大的实际收益。

translated by 谷歌翻译

Label Hierarchy Transition: Modeling Class Hierarchies to Enhance Deep Classifiers

Renzhen Wang , De cai , Kaiwen Xiao , Xixi Jia , Xiao Han , Deyu Meng

分类：计算机视觉 | 机器学习

2021-12-04

分层分类旨在将对象对类别的层次进行。例如，可以根据订单，家庭和物种的三级层次分类来分类鸟类。现有方法通过将其解耦为几个多级分类任务来常见地解决分层分类。但是，这种多任务学习策略未能充分利用不同层次结构的各种类别之间的相关性。在本文中，我们提出了基于深度学习的统一概率框架的标签层次转换，以解决层次分类。具体地，我们明确地学习标签层次转换矩阵，其列向量表示两个相邻层次结构之间的类的条件标签分布，并且可以能够编码嵌入类层次结构中的相关性。我们进一步提出了混淆损失，这鼓励分类网络在训练期间学习不同标签层次结构的相关性。所提出的框架可以适用于任何现有的深网络，只有轻微的修改。我们尝试具有各种层次结构的三个公共基准数据集，结果证明了我们的方法超出现有技术的优势。源代码将公开可用。

translated by 谷歌翻译

Comprehensive and Clinically Accurate Head and Neck Organs at Risk Delineation via Stratified Deep Learning: A Large-scale Multi-Institutional Study

Dazhou Guo , Jia Ge , Xianghua Ye , Senxiang Yan , Yi Xin , Yuchen Song , Bing-shen Huang , Tsung-Min Hung , Zhuotun Zhu , Ling Peng

分类：计算机视觉

2021-11-01

风险的准确器官（OAR）分割对于减少治疗后并发症的放射治疗至关重要。达人指南推荐头部和颈部（H＆N）区域的一套超过40桨的桨，然而，由于这项任务的可预测的禁止劳动力成本，大多数机构通过划定较小的桨子和忽视的少数，选择了大量简化的协议与其他桨相关的剂量分布。在这项工作中，我们提出了一种使用深度学习的新颖，自动化和高效的分层OAR分段（SOARS）系统，精确地描绘了一套全面的42 H＆N OAR。 SOARS将42桨分层进入锚，中级和小型和硬质子类别，通过神经结构搜索（NAS）原则，专门为每个类别提供神经网络架构。我们在内在机构中使用176名培训患者建立了SOAR模型，并在六个不同的机构中独立评估了1327名外部患者。对于每个机构评估，它始终如一地表现出其他最先进的方法至少3-5％的骰子得分（在其他度量的相对误差减少36％）。更重要的是，广泛的多用户研究明显证明，98％的SOARE预测只需要非常轻微或没有直接临床验收的修订（节省90％的辐射脑神经工作负载），并且它们的分割和剂量准确度在于或小于帧 - 用户的变化。这些调查结果证实了H＆N癌症放射疗法工作流OAR描绘过程的强烈临床适用性，提高了效率，全面性和质量。

translated by 谷歌翻译

Solving Stochastic Optimization with Expectation Constraints Efficiently by a Stochastic Augmented Lagrangian-Type Algorithm

Liwei Zhang , Yule Zhang , Jia Wu , Xiantao Xiao

分类： (统计)机器学习

2021-06-22

本文认为，使用一组不平等凸期望约束最小化凸期望函数的问题。我们提出了一种可计算的随机近似类型算法，即乘数的随机线性近端方法来解决此凸随机优化问题。该算法可以粗略地看作是随机近似和传统的乘数近端方法的混合体。在轻度条件下，我们表明该算法表现出$ o（k^{ - 1/2}）$预期的收敛速率，如果正确选择了算法中的参数，则客观降低和约束违规率，其中$ k $表示$ k $表示的数量表示迭代。此外，我们表明，算法具有$ o（\ log（k）k^{ - 1/2}）$约束违规和$ o（\ log^{3/2}（k）k）^{ - 1/2}）$目标结合。一些初步的数值结果证明了所提出的算法的性能。

translated by 谷歌翻译