智能论文笔记

HMD-AMP: Protein Language-Powered Hierarchical Multi-label Deep Forest for Annotating Antimicrobial Peptides

Qinze Yu , Zhihang Dong , Xingyu Fan , Licheng Zong , Yu Li

分类：机器学习 | 人工智能

2021-11-11

鉴定抗微生物肽的靶标是研究先天免疫反应和打击抗生素抗性的基本步骤，更广泛，精确的药物和公共卫生。关于鉴定（I）肽是抗微生物肽（AMP）的统计和计算方法是否有广泛的研究，或者是哪种靶向这些序列（克阳性，革兰氏阴性）的靶序列，等等。）。尽管存在对此问题的深度学习方法，但大多数都无法处理小型AMP类（抗昆虫，抗寄生虫等）。更重要的是，一些AMP可以有多个目标，前面的方法无法考虑。在这项研究中，我们通过从各种AMP数据库收集和清洁氨基酸来构建多样化和综合的多标签蛋白序列数据库。为了为小类数据集产生有效的表示和特征，我们利用培训的蛋白质语言模型，培训了超过2.5亿蛋白序列。基于此，我们开发了一个端到端的分层多标签深森林框架，HMD-AMP，全面注释放大器。在识别AMP之后，它进一步预测了AMP可以从11个可用类中有效杀死的目标。广泛的实验表明，我们的框架在二进制分类任务和多标签分类任务中占据了最先进的模型，尤其是在次要类上。模型对抗特征和小扰动并产生有前途的结果。我们认为HMD-AMP对不同抗微生物肽的未来湿式实验室调查有助于不同抗菌肽的先天结构性质，并为抗生素进行精确药物构建有前途的实证内衬。

translated by 谷歌翻译

A Dependable Hybrid Machine Learning Model for Network Intrusion Detection

Md. Alamin Talukder , Khondokar Fida Hasan , Md. Manowarul Islam , Md Ashraf Uddin , Arnisha Akhter , Mohammand Abu Yousuf , Fares Alharbi , Mohammad Ali Moni

分类：机器学习

2022-12-08

Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.

translated by 谷歌翻译

Deep convolutional forest: a dynamic deep ensemble approach for spam detection in text

Mai A. Shaaban , Yasser F. Hassan , Shawkat K. Guirguis

分类：自然语言处理 | 人工智能 | 机器学习

2021-10-10

人们使用移动消息传递服务的增加导致了像网络钓鱼一样的社会工程攻击的传播，考虑到垃圾邮件文本是传播网络钓鱼攻击的主要因素之一，以窃取信用卡和密码等敏感数据。此外，关于Covid-19大流行的谣言和不正确的医疗信息在社交媒体上广泛分享，导致人们的恐惧和混乱。因此，过滤垃圾邮件内容对于降低风险和威胁至关重要。以前的研究依赖于机器学习和深入学习的垃圾邮件分类方法，但这些方法有两个限制。机器学习模型需要手动功能工程，而深度神经网络需要高计算成本。本文介绍了一种动态的深度集合模型，用于垃圾邮件检测，调整其复杂性并自动提取功能。所提出的模型利用卷积和汇集层进行特征提取以及基础分类器，如随机森林和极其随机的树木，用于将文本分类为垃圾邮件或合法的树。此外，该模型采用了Boosting和Bagging等集合学习程序。结果，该模型达到了高精度，召回，F1分数和精度为98.38％。

translated by 谷歌翻译

Integrating Heterogeneous Domain Information into Relation Extraction: A Case Study on Drug-Drug Interaction Extraction

Masaki Asada

分类：自然语言处理

2022-12-21

The development of deep neural networks has improved representation learning in various domains, including textual, graph structural, and relational triple representations. This development opened the door to new relation extraction beyond the traditional text-oriented relation extraction. However, research on the effectiveness of considering multiple heterogeneous domain information simultaneously is still under exploration, and if a model can take an advantage of integrating heterogeneous information, it is expected to exhibit a significant contribution to many problems in the world. This thesis works on Drug-Drug Interactions (DDIs) from the literature as a case study and realizes relation extraction utilizing heterogeneous domain information. First, a deep neural relation extraction model is prepared and its attention mechanism is analyzed. Next, a method to combine the drug molecular structure information and drug description information to the input sentence information is proposed, and the effectiveness of utilizing drug molecular structures and drug descriptions for the relation extraction task is shown. Then, in order to further exploit the heterogeneous information, drug-related items, such as protein entries, medical terms and pathways are collected from multiple existing databases and a new data set in the form of a knowledge graph (KG) is constructed. A link prediction task on the constructed data set is conducted to obtain embedding representations of drugs that contain the heterogeneous domain information. Finally, a method that integrates the input sentence information and the heterogeneous KG information is proposed. The proposed model is trained and evaluated on a widely used data set, and as a result, it is shown that utilizing heterogeneous domain information significantly improves the performance of relation extraction from the literature.

translated by 谷歌翻译

Multi-Label Classification on Remote-Sensing Images

Aditya Kumar Singh , B. Uma Shankar

分类：计算机视觉 | 人工智能 | 机器学习

2022-01-06

通过卫星摄像机获取关于地球表面的大面积的信息使我们能够看到远远超过我们在地面上看到的更多。这有助于我们在检测和监测土地使用模式，大气条件，森林覆盖和许多非上市方面的地区的物理特征。所获得的图像不仅跟踪连续的自然现象，而且对解决严重森林砍伐的全球挑战也至关重要。其中亚马逊盆地每年占最大份额。适当的数据分析将有助于利用可持续健康的氛围来限制对生态系统和生物多样性的不利影响。本报告旨在通过不同的机器学习和优越的深度学习模型用大气和各种陆地覆盖或土地使用亚马逊雨林的卫星图像芯片。评估是基于F2度量完成的，而用于损耗函数，我们都有S形跨熵以及Softmax交叉熵。在使用预先训练的ImageNet架构中仅提取功能之后，图像被间接馈送到机器学习分类器。鉴于深度学习模型，通过传输学习使用微调Imagenet预训练模型的集合。到目前为止，我们的最佳分数与F2度量为0.927。

translated by 谷歌翻译

IoT Data Analytics in Dynamic Environments: From An Automated Machine Learning Perspective

Li Yang , Abdallah Shami

分类：机器学习

2022-09-16

近年来，随着传感器和智能设备的广泛传播，物联网（IoT）系统的数据生成速度已大大增加。在物联网系统中，必须经常处理，转换和分析大量数据，以实现各种物联网服务和功能。机器学习（ML）方法已显示出其物联网数据分析的能力。但是，将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战，特别是有效的模型选择，设计/调整和更新，这给经验丰富的数据科学家带来了巨大的需求。此外，物联网数据的动态性质可能引入概念漂移问题，从而导致模型性能降解。为了减少人类的努力，自动化机器学习（AUTOML）已成为一个流行的领域，旨在自动选择，构建，调整和更新机器学习模型，以在指定任务上实现最佳性能。在本文中，我们对Automl区域中模型选择，调整和更新过程中的现有方法进行了审查，以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法，在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后，我们讨论并分类了该领域的挑战和研究方向。

translated by 谷歌翻译

Computer Vision on X-ray Data in Industrial Production and Security Applications: A survey

Mehdi Rafiei , Jenni Raitoharju , Alexandros Iosifidis

分类：计算机视觉

2022-11-10

X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.

translated by 谷歌翻译

PWM2Vec: An Efficient Embedding Approach for Viral Host Specification from Coronavirus Spike Sequences

Sarwan Ali , Babatunde Bello , Prakash Chourasia , Ria Thazhe Punathil , Yijing Zhou , Murray Patterson

分类：机器学习

2022-01-06

Covid-19大流行，仍然是未知的，是一个重要的开放问题。有猜测蝙蝠是可能的起源。同样地，有许多密切相关的（电晕）病毒，例如SARS，发现通过练习圈传递。对潜在的载体和致命病毒发射器的不同主体的研究对于了解，减轻和预防当前和未来的流行性至关重要。在冠状病毒中，表面（S）蛋白或尖峰蛋白是确定宿主特异性的重要组成部分，因为它是病毒与宿主细胞膜之间的接触点。在本文中，我们将超过五千个冠状病毒的刺激蛋白序列分类，将它们分离成艾滋病，蝙蝠，骆驼，猪，人类和奶酪中明显宿主的集群，以命名几个。我们提出了一种基于众所周知的位置重量矩阵（PWM）的特征嵌入，我们呼叫PWM2VEC，并用于从这些冠状虫病毒的尖峰蛋白序列产生特征向量。虽然我们的嵌入受到PWMS在生物应用中的成功，例如确定蛋白质功能，或识别转录因子结合位点，但我们是在来自病毒序列的宿主分类的上下文中使用PWM的第一个（我们的知识）生成固定长度的特征矢量表示。现实世界数据的结果显示，与使用PWM2VEC，与基线模型相比，我们能够相当良好地执行。我们还使用信息增益来测量不同氨基酸的重要性，以显示对预测给定冠状病毒的宿主来说重要的氨基酸。

translated by 谷歌翻译

Classification of Macromolecule Type Based on Sequences of Amino Acids Using Deep Learning

Sarwar Khan , Faisal Ghaffar , Imad ali , qazi mazhar

分类：机器学习

2019-07-01

氨基酸的分类及其序列分析在生命科学中起着至关重要的作用，并且是一项艰巨的任务。本文使用并比较了最新的深度学习模型，例如卷积神经网络（CNN），长期记忆（LSTM）和门控复发单元（GRU），以解决使用氨基酸的大分子分类问题。与传统的机器学习技术相比，这些模型具有有效的框架来解决广泛的复杂学习问题。我们使用嵌入单词来表示氨基酸序列作为向量。CNN从氨基酸序列中提取特征，这些特征被视为向量，然后喂入上面提到的模型以训练健壮的分类器。我们的结果表明，嵌入与VGG-16相结合的Word2Vec的性能比LSTM和GRU更好。提出的方法的错误率为1.5％。

translated by 谷歌翻译

A multitask transfer learning framework for the prediction of virus-human protein-protein interactions

Thi Ngan Dong , Graham Brogden , Gisa Gerold , Megha Khosla

分类：机器学习

2021-11-26

病毒感染导致全世界的显着发病率和死亡率。理解特定病毒和人类蛋白质之间的相互作用模式在揭示病毒感染和发病机制的潜在机制方面发挥着至关重要的作用。这可以进一步帮助预防和治疗病毒相关疾病。然而，由于病毒 - 人类相互作用的稀缺数据和大多数病毒的快速突变率，预测新病毒和人体细胞之间的蛋白质 - 蛋白质相互作用的任务是非常挑战性的。我们开发了一种多任务转移学习方法，利用人类互乱组约2400万蛋白序列和相互作用模式的信息来解决小型训练数据集的问题。除了使用手工制作的蛋白质特征，而不是通过深语模型方法从巨大的蛋白质序列来源学习的统计学上丰富的蛋白质表示。此外，我们采用了额外的目的，旨在最大限度地提高观察人蛋白质蛋白质相互作用的可能性。这一附加任务目标充当规律器，还允许纳入域知识来告知病毒 - 人蛋白质 - 蛋白质相互作用预测模型。我们的方法在13个基准数据集中实现了竞争力，以及SAR-COV-2病毒受体的案例研究。实验结果表明，我们所提出的模型有效地用于病毒 - 人和细菌 - 人蛋白质 - 蛋白质 - 蛋白质相互作用预测任务。我们分享我们的重复性和未来研究代码，以便在https://git.l3s.uni-hannover.de/dong/multitastastastastastastastastastask-transfer。

translated by 谷歌翻译

The Emerging Trends of Multi-Label Learning

Weiwei Liu , Haobo Wang , Xiaobo Shen , Ivor W. Tsang

分类：机器学习

2020-11-23

人类每天产生的exabytes数据，导致越来越需要对大数据带来的多标签学习的大挑战的新努力。例如，极端多标签分类是一个有效且快速增长的研究区域，可以处理具有极大数量的类或标签的分类任务;利用具有有限监督的大规模数据构建一个多标签分类模型对实际应用变得有价值。除此之外，如何收获深度学习的强大学习能力，有巨大努力，以更好地捕获多标签的标签依赖性学习，这是深入学习解决现实世界分类任务的关键。然而，有人指出，缺乏缺乏系统性研究，明确关注分析大数据时代的多标签学习的新兴趋势和新挑战。呼吁综合调查旨在满足这项任务和描绘未来的研究方向和新应用。

translated by 谷歌翻译

CHERRY: a Computational metHod for accuratE pRediction of virus-pRokarYotic interactions using a graph encoder-decoder model

Jiayu Shang , Yanni Sun

分类：机器学习

2022-01-04

一种感染细菌和古代的原核病毒是微生物社区的关键球员。预测原核病毒的宿主有助于破译微生物之间的动态关系。虽然存在用于宿主鉴定的实验方法，但它们是劳动密集型或需要培养宿主细胞，从而产生对计算宿主预测的需求。尽管结果有一些有希望的结果，但计算宿主预测仍然是挑战，因为通过高通量测序技术通过有限的已知的相互作用和纯粹的测序量。最先进的方法只能在物种级别达到43％的精度。这项工作呈现樱桃，该工具配制主机预测作为知识图中的链路预测。作为病毒原核相互作用预测工具，可以应用樱桃以预测新发现病毒的宿主以及感染抗生素抗菌细菌的病毒。我们展示了樱桃对既有应用的效用，并将其性能与不同情景中的最先进的方法进行了比较。为了我们最好的知识，樱桃在识别病毒 - 原核互动方面具有最高的准确性。它优于物种水平的所有现有方法，精度增加37％。此外，樱桃的性能比其他工具更短的Contig。

translated by 谷歌翻译

Improved two-stage hate speech classification for twitter based on Deep Neural Networks

Georgios K. Pitsilis

分类：自然语言处理 | 人工智能

2022-06-08

仇恨言论是一种在线骚扰的形式，涉及使用滥用语言，并且在社交媒体帖子中通常可以看到。这种骚扰主要集中在诸如宗教，性别，种族等的特定群体特征上，如今它既有社会和经济后果。文本文章中对滥用语言的自动检测一直是一项艰巨的任务，但最近它从科学界获得了很多兴趣。本文解决了在社交媒体中辨别仇恨内容的重要问题。我们在这项工作中提出的模型是基于LSTM神经网络体系结构的现有方法的扩展，我们在短文中适当地增强和微调以检测某些形式的仇恨语言，例如种族主义或性别歧视。最重要的增强是转换为由复发性神经网络（RNN）分类器组成的两阶段方案。将第一阶段的所有一Vs式分类器（OVR）分类器的输出组合在一起，并用于训练第二阶段分类器，最终决定了骚扰的类型。我们的研究包括对在16K推文的公共语料库中评估的第二阶段提出的几种替代方法的性能比较，然后对另一个数据集进行了概括研究。报道的结果表明，与当前的最新技术相比，在仇恨言论检测任务中，所提出的方案的分类质量出色。

translated by 谷歌翻译

Galaxy Image Classification using Hierarchical Data Learning with Weighted Sampling and Label Smoothing

Xiaohua Ma , Xiangru Li , Ali Luo , Jinqu Zhang , Hui Li

分类：机器学习

2022-12-20

With the development of a series of Galaxy sky surveys in recent years, the observations increased rapidly, which makes the research of machine learning methods for galaxy image recognition a hot topic. Available automatic galaxy image recognition researches are plagued by the large differences in similarity between categories, the imbalance of data between different classes, and the discrepancy between the discrete representation of Galaxy classes and the essentially gradual changes from one morphological class to the adjacent class (DDRGC). These limitations have motivated several astronomers and machine learning experts to design projects with improved galaxy image recognition capabilities. Therefore, this paper proposes a novel learning method, ``Hierarchical Imbalanced data learning with Weighted sampling and Label smoothing" (HIWL). The HIWL consists of three key techniques respectively dealing with the above-mentioned three problems: (1) Designed a hierarchical galaxy classification model based on an efficient backbone network; (2) Utilized a weighted sampling scheme to deal with the imbalance problem; (3) Adopted a label smoothing technique to alleviate the DDRGC problem. We applied this method to galaxy photometric images from the Galaxy Zoo-The Galaxy Challenge, exploring the recognition of completely round smooth, in between smooth, cigar-shaped, edge-on and spiral. The overall classification accuracy is 96.32\%, and some superiorities of the HIWL are shown based on recall, precision, and F1-Score in comparing with some related works. In addition, we also explored the visualization of the galaxy image features and model attention to understand the foundations of the proposed scheme.

translated by 谷歌翻译

Protein-RNA interaction prediction with deep learning: Structure matters

Junkang Wei , Siyuan Chen , Licheng Zong , Xin Gao , Yu Li

分类：机器学习 | 神经与进化计算

2021-07-26

蛋白质RNA相互作用对各种细胞活性至关重要。已经开发出实验和计算技术来研究相互作用。由于先前数据库的限制，尤其是缺乏蛋白质结构数据，大多数现有的计算方法严重依赖于序列数据，只有一小部分使用结构信息。最近，alphafold彻底改变了整个蛋白质和生物领域。可预应学，在即将到来的年份，也将显着促进蛋白质-RNA相互作用预测。在这项工作中，我们对该字段进行了彻底的审查，调查绑定站点和绑定偏好预测问题，并覆盖常用的数据集，功能和模型。我们还指出了这一领域的潜在挑战和机遇。本调查总结了过去的RBP-RNA互动领域的发展，并预见到了alphafold时代未来的发展。

translated by 谷歌翻译

Analyzing Machine Learning Models for Credit Scoring with Explainable AI and Optimizing Investment Decisions

Swati Tyagi

分类：机器学习 | (统计)机器学习

2022-09-19

本文研究了与可解释的AI（XAI）实践有关的两个不同但相关的问题。机器学习（ML）在金融服务中越来越重要，例如预批准，信用承销，投资以及各种前端和后端活动。机器学习可以自动检测培训数据中的非线性和相互作用，从而促进更快，更准确的信用决策。但是，机器学习模型是不透明的，难以解释，这是建立可靠技术所需的关键要素。该研究比较了各种机器学习模型，包括单个分类器（逻辑回归，决策树，LDA，QDA），异质集合（Adaboost，随机森林）和顺序神经网络。结果表明，整体分类器和神经网络的表现优于表现。此外，使用基于美国P2P贷款平台Lending Club提供的开放式访问数据集评估了两种先进的事后不可解释能力 - 石灰和外形来评估基于ML的信用评分模型。对于这项研究，我们还使用机器学习算法来开发新的投资模型，并探索可以最大化盈利能力同时最大程度地降低风险的投资组合策略。

translated by 谷歌翻译

Impact of the composition of feature extraction and class sampling in medicare fraud detection

Akrity Kumari , Narinder Singh Punn , Sanjay Kumar Sonbhadra , Sonali Agarwal

分类：机器学习

2022-06-03

由于医疗保健是关键方面，健康保险已成为最大程度地减少医疗费用的重要计划。此后，由于保险的增加，医疗保健行业的欺诈活动大幅增加，欺诈行业已成为医疗费用上升的重要贡献者，尽管可以使用欺诈检测技术来减轻其影响。为了检测欺诈，使用机器学习技术。美国联邦政府的医疗补助和医疗保险服务中心（CMS）在本研究中使用“医疗保险D部分”保险索赔来开发欺诈检测系统。在类不平衡且高维的Medicare数据集中使用机器学习算法是一项艰巨的任务。为了紧凑此类挑战，目前的工作旨在在数据采样之后执行功能提取，然后应用各种分类算法，以获得更好的性能。特征提取是一种降低降低方法，该方法将属性转换为实际属性的线性或非线性组合，生成较小，更多样化的属性集，从而降低了尺寸。数据采样通常用于通过扩大少数族裔类的频率或降低多数类的频率以获得两种类别的出现数量大约相等的频率来解决类不平衡。通过标准性能指标评估所提出的方法。因此，为了有效地检测欺诈，本研究将自动编码器作为特征提取技术，合成少数族裔过采样技术（SMOTE）作为数据采样技术，以及各种基于决策树的分类器作为分类算法。实验结果表明，自动编码器的结合，然后在LightGBM分类器上获得SMOTE，取得了最佳的结果。

translated by 谷歌翻译

Email Spam Detection Using Hierarchical Attention Hybrid Deep Learning Method

Sultan Zavrak , Seyhmus Yilmaz

分类：自然语言处理 | 机器学习 | 神经与进化计算

2022-04-15

电子邮件是通信最广泛的方法之一，数以百万计的人和企业每天依靠它来交流和分享知识和信息。然而，近年来，电子邮件用户的增长量增加了垃圾邮件的急剧增加。适当地为个人和公司进行处理和管理电子邮件变得越来越困难。本文提出了一种用于电子邮件垃圾邮件检测的新技术，该技术基于卷积神经网络，封闭式复发单元和注意机制的组合。在系统培训期间，网络选择性地关注电子邮件文本的必要部分。卷积层的用法是通过层次表示提取更有意义，抽象和可推广的特征，这是本研究的主要贡献。此外，此贡献还包括交叉数据集评估，从而使模型培训数据集产生了更多独立的绩效。根据跨数据库评估结果，该提出的技术通过使用时间卷积来推动基于注意力的技术的结果，这使我们使用了更灵活的接收场大小。将建议的技术的发现与最先进的模型的发现进行了比较，并表明我们的方法表现优于它们。

translated by 谷歌翻译

Dive into Machine Learning Algorithms for Influenza Virus Host Prediction with Hemagglutinin Sequences

Yanhua Xu , Dominik Wojtczak

分类：机器学习

2022-07-28

流感病毒迅速变异，可能对公共卫生构成威胁，尤其是对弱势群体的人。在整个历史中，流感A病毒在不同物种之间引起了大流行病。重要的是要识别病毒的起源，以防止爆发的传播。最近，人们对使用机器学习算法来为病毒序列提供快速准确的预测一直引起人们的兴趣。在这项研究中，使用真实的测试数据集和各种评估指标用于评估不同分类学水平的机器学习算法。由于血凝素是免疫反应中的主要蛋白质，因此仅使用血凝素序列并由位置特异性评分基质和单词嵌入来表示。结果表明，5-grams-transformer神经网络是预测病毒序列起源的最有效算法，大约99.54％的AUCPR，98.01％的F1分数和96.60％的MCC，在较高的分类水平上，约94.74％AUCPR，87.41％，87.41％，87.41％％F1分数％和80.79％的MCC在较低的分类水平下。

translated by 谷歌翻译

Learning Interpretable Models Using an Oracle

Abhishek Ghose , Balaraman Ravindran

分类：机器学习 | (统计)机器学习

2019-06-17

我们查看模型可解释性的特定方面：模型通常需要限制在大小上才能被认为是可解释的，例如，深度5的决策树比深度50中的一个更容易解释。但是，较小的模型也倾向于高偏见。这表明可解释性和准确性之间的权衡。我们提出了一种模型不可知论技术，以最大程度地减少这种权衡。我们的策略是首先学习甲骨文，这是培训数据上高度准确的概率模型。 Oracle预测的不确定性用于学习培训数据的抽样分布。然后，对使用此分布获得的数据样本进行了可解释的模型，通常会导致精确度明显更高。我们将抽样策略作为优化问题。我们的解决方案1具有以下关键的有利属性：（1）它使用固定数量的七个优化变量，而与数据的维度（2）无关，它是模型不可知的 - 因为可解释的模型和甲骨文都可能属于任意性模型家族（3）它具有模型大小的灵活概念，并且可以容纳向量大小（4）它是一个框架，使其能够从优化领域的进度中受益。我们还提出了以下有趣的观察结果：（a）通常，小型模型大小的最佳训练分布与测试分布不同；（b）即使可解释的模型和甲骨文来自高度截然不同的模型家族，也存在这种效果：我们通过使用封闭的复发单位网络作为甲骨文来提高决策树的序列分类精度，从而在文本分类任务上显示此效果。使用字符n-grams；（c）对于模型，我们的技术可用于确定给定样本量的最佳训练样本。

translated by 谷歌翻译