智能论文笔记

Transformers for prompt-level EMA non-response prediction

Supriya Nagesh , Alexander Moreno , Stephanie M. Carpenter , Jamie Yap , Soujanya Chatterjee , Steven Lloyd Lizotte , Neng Wan , Santosh Kumar , Cho Lam , David W. Wetter

分类：机器学习

2021-11-01

生态瞬间评估（EMAS）是用于测量移动卫生（MHECHEATH）研究和治疗方案的当前认知状态，影响，行为和环境因素的重要心理数据源。非反应，其中参与者未能响应EMA提示，是一个地方问题。准确预测非响应的能力可用于改善EMA交付和发展顺应性干预。事先工作已经探索了古典机器学习模型，以预测非反应。然而，正如越来越大的EMA数据集可用，有可能利用在其他领域有效的深度学习模型。最近，变压器模型在NLP和其他域中显示了最先进的性能。这项工作是第一个探索用于EMA数据分析的变压器的使用。我们在将变压器应用于EMA数据时解决了三个关键问题：1。输入表示，2.编码时间信息，3.预先培训提高下游预测任务性能的效用。变压器模型实现了0.77的非响应预测AUC，并且明显优于古典ML和基于LSTM的深度学习模型。我们将使我们的一个预测模型在研究界可自由地提供40k EMA样品的核查，以便于开发未来的基于变压器的EMA分析工作。

translated by 谷歌翻译

Unsupervised pre-training of graph transformers on patient population graphs

Chantal Pellegrini , Nassir Navab , Anees Kazi

分类：机器学习

2022-07-21

预训练在机器学习的不同领域表现出成功，例如计算机视觉，自然语言处理（NLP）和医学成像。但是，尚未完全探索用于临床数据分析。记录了大量的临床记录，但是对于在小型医院收集的数据或处理罕见疾病的数据仍可能稀缺数据和标签。在这种情况下，对较大的未标记临床数据进行预训练可以提高性能。在本文中，我们提出了专为异质的多模式临床数据设计的新型无监督的预训练技术，用于通过蒙版语言建模（MLM）启发的患者预测，通过利用对人群图的深度学习来启发。为此，我们进一步提出了一个基于图形转换器的网络，该网络旨在处理异质临床数据。通过将基于掩盖的预训练与基于变压器的网络相结合，我们将基于掩盖的其他域中训练的成功转化为异质临床数据。我们使用三个医学数据集Tadpole，Mimic-III和一个败血症预测数据集，在自我监督和转移学习设置中展示了我们的预训练方法的好处。我们发现，我们提出的培训方法有助于对患者和人群水平的数据进行建模，并提高所有数据集中不同微调任务的性能。

translated by 谷歌翻译

Leveraging Language Foundation Models for Human Mobility Forecasting

Hao Xue , Bhanu Prakash Voutharoj , Flora D. Salim

分类：机器学习 | 人工智能

2022-09-11

在本文中，我们提出了一条新型的管道，该管道利用语言基础模型进行时间顺序模式挖掘，例如人类的移动性预测任务。例如，在预测利益（POI）客户流量的任务中，通常从历史日志中提取访问次数，并且仅使用数值数据来预测访客流。在这项研究中，我们直接对包含各种信息的自然语言输入执行预测任务，例如数值和上下文的语义信息。引入特定的提示以将数值时间序列转换为句子，以便可以直接应用现有的语言模型。我们设计了一个Auxmoblcast管道，用于预测每个POI中的访问者数量，将辅助POI类别分类任务与编码器架构结构集成在一起。这项研究提供了所提出的Auxmoblcast管道有效性以发现移动性预测任务中的顺序模式的经验证据。在三个现实世界数据集上评估的结果表明，预训练的语言基础模型在预测时间序列中也具有良好的性能。这项研究可以提供有远见的见解，并为预测人类流动性提供新的研究方向。

translated by 谷歌翻译

Multi-Task Prediction of Clinical Outcomes in the Intensive Care Unit using Flexible Multimodal Transformers

Benjamin Shickel , Patrick J. Tighe , Azra Bihorac , Parisa Rashidi

分类：机器学习 | 人工智能

2021-11-09

基于变压器模型架构的最近深入学习研究在各种域和任务中展示了最先进的性能，主要是在计算机视觉和自然语言处理域中。虽然最近的一些研究已经实施了使用电子健康记录数据的临床任务的变压器，但它们的范围，灵活性和全面性有限。在本研究中，我们提出了一种灵活的基于变换器的EHR嵌入管道和预测模型框架，它引入了利用了医疗域唯一的数据属性的现有工作流程的几个新颖修改。我们展示了灵活设计的可行性，在重症监护病房的案例研究中，我们的模型准确地预测了七种临床结果，这些临床结果与多个未来的时间范围有关的入院和患者死亡率。

translated by 谷歌翻译

Medical SANSformers: Training self-supervised transformers without attention for Electronic Medical Records

Yogesh Kumar , Alexander Ilin , Henri Salo , Sangita Kulathinal , Maarit K. Leinonen , Pekka Marttinen

分类：机器学习

2021-08-31

我们利用深度顺序模型来解决预测患者医疗保健利用的问题，这可能有助于政府更好地为未来的医疗保健使用提供资源。具体地，我们研究\纺织{发散亚组}的问题，其中较小的人口小组中的结果分布大大偏离了一般人群的群体。如果亚组的尺寸非常小（例如，稀有疾病），则对不同亚组的专业模型建造专门模型的传统方法可能是有问题的。为了解决这一挑战，我们首先开发一种新的无关注顺序模型，SANSFORMERS，灌输了适合在电子医疗记录中建模临床码的归纳偏差。然后，我们通过在整个健康登记处预先培训每个模型（接近100万名患者）之前，设计了一个特定的自我监督目标，并展示其有效性，特别是稀缺数据设置，特别是在整个健康登记处（接近一百万名患者）进行微调下游任务不同的子组。我们使用两个数据来源与LSTM和变压器模型进行比较新的SANSFARER架构和辅助医疗利用预测的多任务学习目标。凭经验，无关注的Sansformer模型在实验中始终如一地执行，在大多数情况下以至少$ \ SIM 10 $ \％表现出在大多数情况下的基线。此外，在预测医院访问数量时，自我监督的预训练将在整个始终提高性能，例如通过超过$ \ sim 50 $ \％（和高度为800美元\％）。

translated by 谷歌翻译

Actuarial Applications of Natural Language Processing Using Transformers: Case Studies for Using Text Features in an Actuarial Context

Andreas Troxler , Jürg Schelldorfer

分类：自然语言处理

2022-06-04

本教程展示了工作流程，将文本数据纳入精算分类和回归任务。主要重点是采用基于变压器模型的方法。平均长度为400个单词的车祸描述的数据集，英语和德语可用，以及具有简短财产保险索赔的数据集用来证明这些技术。案例研究应对与多语言环境和长输入序列有关的挑战。他们还展示了解释模型输出，评估和改善模型性能的方法，通过将模型调整到应用程序领域或特定预测任务。最后，该教程提供了在没有或仅有少数标记数据的情况下处理分类任务的实用方法。通过使用最少的预处理和微调的现成自然语言处理（NLP）模型的语言理解技能（NLP）模型实现的结果清楚地证明了用于实际应用的转移学习能力。

translated by 谷歌翻译

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Jacob Devlin , Ming-Wei Chang , Kenton Lee , Kristina Toutanova

分类：

2018-10-11

We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models (Peters et al., 2018a;Radford et al., 2018), BERT is designed to pretrain deep bidirectional representations from unlabeled text by jointly conditioning on both left and right context in all layers. As a result, the pre-trained BERT model can be finetuned with just one additional output layer to create state-of-the-art models for a wide range of tasks, such as question answering and language inference, without substantial taskspecific architecture modifications.BERT is conceptually simple and empirically powerful. It obtains new state-of-the-art results on eleven natural language processing tasks, including pushing the GLUE score to 80.5% (7.7% point absolute improvement), MultiNLI accuracy to 86.7% (4.6% absolute improvement), SQuAD v1.1 question answering Test F1 to 93.2 (1.5 point absolute improvement) and SQuAD v2.0 Test F1 to 83.1 (5.1 point absolute improvement).

translated by 谷歌翻译

ASTROMER: A transformer-based embedding for the representation of light curves

C. Donoso-Oliva , I. Becker , P. Protopapas , G. Cabrera-Vives , Vishnu M. , Harsh Vardhan

分类：机器学习

2022-05-02

从自然语言嵌入中汲取灵感，我们提出了Astromer，这是一种基于变压器的模型，以创建光曲线的表示。Astromer接受了数以百万计的Macho R波段样品的培训，并且很容易对其进行微调以匹配与下游任务相关的特定域。例如，本文显示了使用预训练的表示形式对变量恒星进行分类的好处。此外，我们还提供了一个Python库，其中包括这项工作中使用的所有功能。我们的图书馆包括预先培训的模型，可用于增强深度学习模型的性能，减少计算资源，同时获得最新的结果。

translated by 谷歌翻译

GLOBEM Dataset: Multi-Year Datasets for Longitudinal Human Behavior Modeling Generalization

Xuhai Xu , Han Zhang , Yasaman Sefidgar , Yiyi Ren , Xin Liu , Woosuk Seo , Jennifer Brown , Kevin Kuehn , Mike Merrill , Paula Nurius

分类：机器学习 | 人工智能

2022-11-04

Recent research has demonstrated the capability of behavior signals captured by smartphones and wearables for longitudinal behavior modeling. However, there is a lack of a comprehensive public dataset that serves as an open testbed for fair comparison among algorithms. Moreover, prior studies mainly evaluate algorithms using data from a single population within a short period, without measuring the cross-dataset generalizability of these algorithms. We present the first multi-year passive sensing datasets, containing over 700 user-years and 497 unique users' data collected from mobile and wearable sensors, together with a wide range of well-being metrics. Our datasets can support multiple cross-dataset evaluations of behavior modeling algorithms' generalizability across different users and years. As a starting point, we provide the benchmark results of 18 algorithms on the task of depression detection. Our results indicate that both prior depression detection algorithms and domain generalization techniques show potential but need further research to achieve adequate cross-dataset generalizability. We envision our multi-year datasets can support the ML community in developing generalizable longitudinal behavior modeling algorithms.

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

Signature Methods in Machine Learning

Terry Lyons , Andrew D. McLeod

分类： (统计)机器学习 | 机器学习

2022-06-29

基于签名的技术使数学洞察力洞悉不断发展的数据的复杂流之间的相互作用。这些见解可以自然地转化为理解流数据的数值方法，也许是由于它们的数学精度，已被证明在数据不规则而不是固定的情况下分析流的数据以及数据和数据的尺寸很有用样本量均为中等。了解流的多模式数据是指数的：$ d $ d $的字母中的$ n $字母中的一个单词可以是$ d^n $消息之一。签名消除了通过采样不规则性引起的指数级噪声，但仍然存在指数量的信息。这项调查旨在留在可以直接管理指数缩放的域中。在许多问题中，可伸缩性问题是一个重要的挑战，但需要另一篇调查文章和进一步的想法。这项调查描述了一系列环境集足够小以消除大规模机器学习的可能性，并且可以有效地使用一小部分免费上下文和原则性功能。工具的数学性质可以使他们对非数学家的使用恐吓。本文中介绍的示例旨在弥合此通信差距，并提供从机器学习环境中绘制的可进行的工作示例。笔记本可以在线提供这些示例中的一些。这项调查是基于伊利亚·雪佛兰（Ilya Chevryev）和安德烈·科米利津（Andrey Kormilitzin）的早期论文，它们在这种机械开发的较早时刻大致相似。本文说明了签名提供的理论见解是如何在对应用程序数据的分析中简单地实现的，这种方式在很大程度上对数据类型不可知。

translated by 谷歌翻译

Optimizing small BERTs trained for German NER

Jochen Zöllner , Konrad Sperfeld , Christoph Wick , Roger Labahn

分类：自然语言处理 | 人工智能

2021-04-23

目前，用于训练语言模型的最广泛的神经网络架构是所谓的BERT，导致各种自然语言处理（NLP）任务的改进。通常，BERT模型中的参数的数量越大，这些NLP任务中获得的结果越好。不幸的是，内存消耗和训练持续时间随着这些模型的大小而大大增加。在本文中，我们调查了较小的BERT模型的各种训练技术：我们将不同的方法与Albert，Roberta和相对位置编码等其他BERT变体相结合。此外，我们提出了两个新的微调修改，导致更好的性能：类开始终端标记和修改形式的线性链条条件随机字段。此外，我们介绍了整个词的注意力，从而降低了伯特存储器的使用，并导致性能的小幅增加，与古典的多重关注相比。我们评估了这些技术的五个公共德国命名实体识别（NER）任务，其中两条由这篇文章引入了两项任务。

translated by 谷歌翻译

Context-aware multi-head self-attentional neural network model for next location prediction

Ye Hong , Yatao Zhang , Konrad Schindler , Martin Raubal

分类：机器学习

2022-12-04

Accurate activity location prediction is a crucial component of many mobility applications and is particularly required to develop personalized, sustainable transportation systems. Despite the widespread adoption of deep learning models, next location prediction models lack a comprehensive discussion and integration of mobility-related spatio-temporal contexts. Here, we utilize a multi-head self-attentional (MHSA) neural network that learns location transition patterns from historical location visits, their visit time and activity duration, as well as their surrounding land use functions, to infer an individual's next location. Specifically, we adopt point-of-interest data and latent Dirichlet allocation for representing locations' land use contexts at multiple spatial scales, generate embedding vectors of the spatio-temporal features, and learn to predict the next location with an MHSA network. Through experiments on two large-scale GNSS tracking datasets, we demonstrate that the proposed model outperforms other state-of-the-art prediction models, and reveal the contribution of various spatio-temporal contexts to the model's performance. Moreover, we find that the model trained on population data achieves higher prediction performance with fewer parameters than individual-level models due to learning from collective movement patterns. We also reveal mobility conducted in the recent past and one week before has the largest influence on the current prediction, showing that learning from a subset of the historical mobility is sufficient to obtain an accurate location prediction result. We believe that the proposed model is vital for context-aware mobility prediction. The gained insights will help to understand location prediction models and promote their implementation for mobility applications.

translated by 谷歌翻译

Conformal prediction for text infilling and part-of-speech prediction

Neil Dey , Jing Ding , Jack Ferrell , Carolina Kapper , Maxwell Lovig , Emiliano Planchon , Jonathan P Williams

分类： (统计)机器学习 | 机器学习

2021-11-04

现代机器学习算法能够提供非常精确的点预测的;然而，问题仍然是其统计的可靠性。不同于传统的机器学习方法，适形的预测算法返回置信集（即，集值的预测），其对应于给定的显着水平。此外，这些置信集在这个意义上，它们保证有限样本控制1型误差的概率，从而允许医生选择在可接受的误差率有效。在本文中，我们提出了感应式保形预测（ICP）算法用于文本充填和部分的语音（POS）预测自然语言数据的任务。我们从变压器（BERT）和词性标注和文字充填新形预测增强BERT算法双向长短期记忆（BiLSTM）算法构建新的适形预测增强的双向编码表示。我们分析的算法采用Brown语料库，其中包含超过57000句模拟性能。我们的研究结果表明，ICP算法能够产生有效的集值预测是小到足以适用于现实世界的应用。我们也为我们提出了集值预测如何提高机器生成的音频转录一个真实数据的例子。

translated by 谷歌翻译

A Primer in BERTology: What we know about how BERT works

Anna Rogers , Olga Kovaleva , Anna Rumshisky

分类：

2020-02-27

Transformer-based models have pushed state of the art in many areas of NLP, but our understanding of what is behind their success is still limited. This paper is the first survey of over 150 studies of the popular BERT model. We review the current state of knowledge about how BERT works, what kind of information it learns and how it is represented, common modifications to its training objectives and architecture, the overparameterization issue and approaches to compression. We then outline directions for future research.

translated by 谷歌翻译

GUIM -- General User and Item Embedding with Mixture of Representation in E-commerce

Chao Yang , Ru He , Fangquan Lin , Suoyuan Song , Jingqiao Zhang , Cheng Yang

分类：人工智能

2022-07-02

我们的目标是为阿里巴巴业务的每个用户和每个产品项目建立一般代表性（嵌入），包括淘宝和Tmall，这是世界上最大的电子商务网站之一。用户和项目的代表性在各种下游应用程序中发挥着关键作用，包括建议系统，搜索，营销，需求预测等。受到自然语言处理（NLP）域中的BERT模型的启发，我们提出了GUIM（与代表的混合物混合在一起）的GUIM（一般用户项目），以实现大量，结构化的多模式数据，包括数亿美元的相互作用用户和项目。我们利用表示（MOR）的混合物作为一种新颖的表示形式来建模每个用户的各种兴趣。此外，我们使用对比度学习中的Infonce，以避免由于众多词汇的大小（令牌）词汇大小，因此避免了棘手的计算成本。最后，我们建议一组代表性的下游任务作为标准基准，以评估学到的用户和/或项目嵌入的质量，类似于NLP域中的胶合基准。我们在这些下游任务中的实验结果清楚地表明了从GUIM模型中学到的嵌入的比较价值。

translated by 谷歌翻译

Deep Learning Models for Knowledge Tracing: Review and Empirical Evaluation

Sami Sarsa , Juho Leinonen , Arto Hellas

分类：机器学习

2021-12-30

在这项工作中，我们审查并评估了一个具有公开可用和广泛使用的数据集的深度学习知识追踪（DLKT）模型，以及学习编程的新型学生数据集。评估的DLKT模型已重新实现，用于评估先前报告的结果的可重复性和可复制性。我们测试在与模型的主要架构上独立于模型的比较模型中找到的不同输入和输出层变化，以及在某些研究中隐含地和明确地使用的不同最大尝试计数选项。几个指标用于反映评估知识追踪模型的质量。评估的知识追踪模型包括Vanilla-DKT，两个长短期内存深度知识跟踪（LSTM-DKT）变体，两个动态键值存储器网络（DKVMN）变体，以及自我细致的知识跟踪（SAKT）。我们评估Logistic回归，贝叶斯知识跟踪（BKT）和简单的非学习模型作为基准。我们的结果表明，DLKT模型一般优于非DLKT模型，DLKT模型之间的相对差异是微妙的，并且在数据集之间经常变化。我们的研究结果还表明，通常的纯模型，例如平均预测，比更复杂的知识追踪模型更好地表现出更好的性能，尤其是在准确性方面。此外，我们的公制和封路数据分析显示，用于选择最佳模型的度量标准对模型的性能有明显的影响，并且该度量选择可以影响模型排名。我们还研究了输入和输出层变化的影响，过滤出长期尝试序列，以及随机性和硬件等非模型属性。最后，我们讨论模型性能可重量和相关问题。我们的模型实现，评估代码和数据作为本工作的一部分发布。

translated by 谷歌翻译

Time Series Prediction using Deep Learning Methods in Healthcare

Mohammad Amin Morid , Olivia R. Liu Sheng , Joseph Dunbar

分类：机器学习

2021-08-30

传统机器学习方法面临两种主要挑战，在处理医疗保健预测分析任务方面。首先，医疗保健数据的高维性质需要劳动密集型和耗时的过程，为每项新任务选择适当的功能集。其次，这些方法依赖于特征工程来捕获患者数据的顺序性，这可能无法充分利用医疗事件的时间模式及其依赖性。最近的深度学习方法通过解决医疗数据的高维和时间挑战，对各种医疗保健预测任务显示了有希望的性能。这些方法可以学习关键因素（例如，医学概念或患者）的有用表示及其与高维原始或最低处理的医疗保健数据的相互作用。在本文中，我们系统地审查了专注于推进和使用深神经网络的研究，以利用患者结构化时间序列数据进行医疗保健预测任务。为了识别相关研究，搜索MEDLINE，IEEE，SCOPUS和ACM数字图书馆于2021年2月7日出版的研究。我们发现研究人员在十个研究流中为深度时间序列预测文献做出了贡献：深入学习模型，缺少价值处理，不规则处理，患者表示，静态数据包容，关注机制，解释，纳入医疗本体，学习策略和可扩展性。本研究总结了这些文献流的研究见解，确定了几个关键研究差距，并提出了未来的患者时间序列数据深入学习的研究机会。

translated by 谷歌翻译

HiPAL: A Deep Framework for Physician Burnout Prediction Using Activity Logs in Electronic Health Records

Hanyang Liu , Sunny S. Lou , Benjamin C. Warner , Derek R. Harford , Thomas Kannampallil , Chenyang Lu

分类：机器学习

2022-05-24

倦怠是影响近一半医疗工作者的重大公共卫生问题。本文介绍了基于电子健康记录（EHR）活动日志的医师倦怠的第一个端到端深度学习框架，即任何EHR系统中可用的医师工作活动的数字痕迹。与仅依靠调查进行倦怠测量的先前方法相反，我们的框架直接从大规模的临床医生活动日志中了解了医师行为的深刻表示，以预测倦怠。我们提出了基于活动日志（HIPAL）的层次结构预测，该预测具有预先训练的时间依赖时间的活动嵌入机制，适用于活动日志和分层预测模型，该模型反映了临床医生活动日志的自然等级结构，并捕获了医生的演化。短期和长期水平的倦怠风险。为了利用大量未标记的活动日志，我们提出了一个半监督的框架，该框架学会了将从未标记的临床医生活动中提取的知识转移到基于HIPAL的预测模型中。从EHR收集的1500万个临床医生活动日志的实验证明了我们提出的框架在医师倦怠和培训效率方面的预测框架比最先进的方法的优势。

translated by 谷歌翻译

A transformer-based model for default prediction in mid-cap corporate markets

Kamesh Korangi , Christophe Mues , Cristián Bravo

分类：机器学习

2021-11-18

在本文中，我们研究了中途公司，即在市场资本化少于100亿美元的公开交易公司。在30年内使用美国中载公司的大型数据集，我们期望通过中期预测默认的概率术语结构，了解哪些数据源（即基本，市场或定价数据）对违约风险贡献最多。然而，现有方法通常要求来自不同时间段的数据首先聚合并转变为横截面特征，我们将问题框架作为多标签时间级分类问题。我们适应变压器模型，从自然语言处理领域发出的最先进的深度学习模型，以信用风险建模设置。我们还使用注意热图解释这些模型的预测。为了进一步优化模型，我们为多标签分类和新型多通道架构提供了一种自定义损耗功能，具有差异训练，使模型能够有效地使用所有输入数据。我们的结果表明，拟议的深度学习架构的卓越性能，导致传统模型的AUC（接收器运行特征曲线下的区域）提高了13％。我们还展示了如何使用特定于这些模型的福利方法生成不同数据源和时间关系的重要性排名。

translated by 谷歌翻译