我们筹集并定义了一个新的众群情景,开放套装,在那里我们只知道一个不熟悉的众群项目的一般主题,我们不知道其标签空间,即可能的标签集。这仍然是一个任务注释问题,但与任务和标签空间的不熟悉妨碍了任务和工人的建模,以及真理推断。我们提出了一个直观的解决方案,Oscrowd。首先,Oscrowd将人群主题相关的数据集集成到一个大源域中,以便于部分传输学习,以近似这些任务的标签空间推理。接下来,它将基于类别相关性为每个源域分配权重。在此之后,它使用多源打开集传输学习来模拟人群任务并分配可能的注释。转让学习给出的标签空间和注释将用于指导和标准化人群工人的注释。我们在在线场景中验证了Oscrowd,并证明了Oscrowd解决了开放式众群问题,比相关的众包解决方案更好。
translated by 谷歌翻译
由于互联网工作人员的不可靠性,很难满足众群项目,特别是当任务多次并且预算有限时。最近,元学习为少量学习带来了新的生命力,使得可以使用几个训练样本获得具有公平性能的分类器。在这里,我们介绍了由Meta学习训练的机器注释员的概念,用于适合AI的任务类型(即图像分类)。与常规人群工人不同,元工人可以是可靠的,稳定的,更重要的,不知疲倦和自由。我们首先群集未标记的数据,并要求人群工人反复注释集群中心附近的情况;然后,我们利用带注释的数据和元训练数据集来建立使用不同的元学习算法来构建一组元工人。随后,要求元工人注释剩余的众群任务。 Jensen-Shannon分歧用于衡量Meta-Workers提供的注释中的分歧,这决定了人群工人是否应被邀请进一步注释同一任务。最后,我们模拟了Meta-Workers的偏好并计算了加权多数投票的共识注释。我们的实证研究证实,通过组合机器和人类智能,我们可以完成比最先进的任务分配方法的预算较低的众群项目,同时实现了优越或相当的质量。
translated by 谷歌翻译
大数据具有巨大的量,高速度,多样性,价值符合性和不确定性的特征,这些特征带领知识从他们那里学习充满了挑战。随着众包的出现,可以按需获得多功能信息,以便易于参与人群的智慧,以促进知识学习过程。在过去的十三年中,AI社区的研究人员竭尽全力消除人群学习领域的障碍。这份集中的调查论文全面回顾了从系统的角度来研究众包学习的技术进步,其中包括数据,模型和学习过程的三个维度。除了审查现有的重要工作外,本文还特别强调在每个维度上提供一些有希望的蓝图,并讨论从我们过去的研究工作中学到的经验教训,这将为新的研究人员提供道路,并鼓励他们追求新的研究。贡献。
translated by 谷歌翻译
Transfer learning aims at improving the performance of target learners on target domains by transferring the knowledge contained in different but related source domains. In this way, the dependence on a large number of target domain data can be reduced for constructing target learners. Due to the wide application prospects, transfer learning has become a popular and promising area in machine learning. Although there are already some valuable and impressive surveys on transfer learning, these surveys introduce approaches in a relatively isolated way and lack the recent advances in transfer learning. Due to the rapid expansion of the transfer learning area, it is both necessary and challenging to comprehensively review the relevant studies. This survey attempts to connect and systematize the existing transfer learning researches, as well as to summarize and interpret the mechanisms and the strategies of transfer learning in a comprehensive way, which may help readers have a better understanding of the current research status and ideas. Unlike previous surveys, this survey paper reviews more than forty representative transfer learning approaches, especially homogeneous transfer learning approaches, from the perspectives of data and model. The applications of transfer learning are also briefly introduced. In order to show the performance of different transfer learning models, over twenty representative transfer learning models are used for experiments. The models are performed on three different datasets, i.e., Amazon Reviews, Reuters-21578, and Office-31. And the experimental results demonstrate the importance of selecting appropriate transfer learning models for different applications in practice.
translated by 谷歌翻译
虽然在许多域内生成并提供了大量的未标记数据,但对视觉数据的自动理解的需求高于以往任何时候。大多数现有机器学习模型通常依赖于大量标记的训练数据来实现高性能。不幸的是,在现实世界的应用中,不能满足这种要求。标签的数量有限,手动注释数据昂贵且耗时。通常需要将知识从现有标记域传输到新域。但是,模型性能因域之间的差异(域移位或数据集偏差)而劣化。为了克服注释的负担,域适应(DA)旨在在将知识从一个域转移到另一个类似但不同的域中时减轻域移位问题。无监督的DA(UDA)处理标记的源域和未标记的目标域。 UDA的主要目标是减少标记的源数据和未标记的目标数据之间的域差异,并在培训期间在两个域中学习域不变的表示。在本文中,我们首先定义UDA问题。其次,我们从传统方法和基于深度学习的方法中概述了不同类别的UDA的最先进的方法。最后,我们收集常用的基准数据集和UDA最先进方法的报告结果对视觉识别问题。
translated by 谷歌翻译
Crowdsourcing, in which human intelligence and productivity is dynamically mobilized to tackle tasks too complex for automation alone to handle, has grown to be an important research topic and inspired new businesses (e.g., Uber, Airbnb). Over the years, crowdsourcing has morphed from providing a platform where workers and tasks can be matched up manually into one which leverages data-driven algorithmic management approaches powered by artificial intelligence (AI) to achieve increasingly sophisticated optimization objectives. In this paper, we provide a survey presenting a unique systematic overview on how AI can empower crowdsourcing - which we refer to as AI-Empowered Crowdsourcing(AIEC). We propose a taxonomy which divides algorithmic crowdsourcing into three major areas: 1) task delegation, 2) motivating workers, and 3) quality control, focusing on the major objectives which need to be accomplished. We discuss the limitations and insights, and curate the challenges of doing research in each of these areas to highlight promising future research directions.
translated by 谷歌翻译
虽然无监督的域适应(UDA)算法,即,近年来只有来自源域的标记数据,大多数算法和理论结果侧重于单源无监督域适应(SUDA)。然而,在实际情况下,标记的数据通常可以从多个不同的源收集,并且它们可能不仅不同于目标域而且彼此不同。因此,来自多个源的域适配器不应以相同的方式进行建模。最近基于深度学习的多源无监督域适应(Muda)算法专注于通过在通用特征空间中的所有源极和目标域的分布对齐来提取所有域的公共域不变表示。但是,往往很难提取Muda中所有域的相同域不变表示。此外,这些方法匹配分布而不考虑类之间的域特定的决策边界。为了解决这些问题,我们提出了一个新的框架,具有两个对准阶段的Muda,它不仅将每对源和目标域的分布对齐,而且还通过利用域特定的分类器的输出对准决策边界。广泛的实验表明,我们的方法可以对图像分类的流行基准数据集实现显着的结果。
translated by 谷歌翻译
最近的智能故障诊断(IFD)的进展大大依赖于深度代表学习和大量标记数据。然而,机器通常以各种工作条件操作,或者目标任务具有不同的分布,其中包含用于训练的收集数据(域移位问题)。此外,目标域中的新收集的测试数据通常是未标记的,导致基于无监督的深度转移学习(基于UDTL为基础的)IFD问题。虽然它已经实现了巨大的发展,但标准和开放的源代码框架以及基于UDTL的IFD的比较研究尚未建立。在本文中,我们根据不同的任务,构建新的分类系统并对基于UDTL的IFD进行全面审查。对一些典型方法和数据集的比较分析显示了基于UDTL的IFD中的一些开放和基本问题,这很少研究,包括特征,骨干,负转移,物理前导等的可转移性,强调UDTL的重要性和再现性 - 基于IFD,整个测试框架将发布给研究界以促进未来的研究。总之,发布的框架和比较研究可以作为扩展界面和基本结果,以便对基于UDTL的IFD进行新的研究。代码框架可用于\ url {https:/github.com/zhaozhibin/udtl}。
translated by 谷歌翻译
基于深度学习的路面裂缝检测方法通常需要大规模标签,具有详细的裂缝位置信息来学习准确的预测。然而,在实践中,由于路面裂缝的各种视觉模式,裂缝位置很难被手动注释。在本文中,我们提出了一种基于深域适应的裂缝检测网络(DDACDN),其学会利用源域知识来预测目标域中的多类别裂缝位置信息,其中仅是图像级标签可用的。具体地,DDACDN首先通过双分支权重共享骨干网络从源和目标域中提取裂缝特征。并且在实现跨域自适应的努力中,通过从每个域的特征空间聚合三尺度特征来构建中间域,以使来自源域的裂缝特征适应目标域。最后,该网络涉及两个域的知识,并接受识别和本地化路面裂缝的培训。为了便于准确的培训和验证域适应,我们使用两个具有挑战性的路面裂缝数据集CQu-BPDD和RDD2020。此外,我们构建了一个名为CQu-BPMDD的新型大型沥青路面多标签疾病数据集,其中包含38994个高分辨率路面疾病图像,以进一步评估模型的稳健性。广泛的实验表明,DDACDN优于最先进的路面裂纹检测方法,以预测目标结构域的裂缝位置。
translated by 谷歌翻译
Deep domain adaptation has emerged as a new learning technique to address the lack of massive amounts of labeled data. Compared to conventional methods, which learn shared feature subspaces or reuse important source instances with shallow representations, deep domain adaptation methods leverage deep networks to learn more transferable representations by embedding domain adaptation in the pipeline of deep learning. There have been comprehensive surveys for shallow domain adaptation, but few timely reviews the emerging deep learning based methods. In this paper, we provide a comprehensive survey of deep domain adaptation methods for computer vision applications with four major contributions. First, we present a taxonomy of different deep domain adaptation scenarios according to the properties of data that define how two domains are diverged. Second, we summarize deep domain adaptation approaches into several categories based on training loss, and analyze and compare briefly the state-of-the-art methods under these categories. Third, we overview the computer vision applications that go beyond image classification, such as face recognition, semantic segmentation and object detection. Fourth, some potential deficiencies of current methods and several future directions are highlighted.
translated by 谷歌翻译
在域适应性中,当源和目标域之间存在较大距离时,预测性能将降低。假设我们可以访问中间域,从源逐渐从源转移到目标域,则逐渐的域适应性是解决此类问题的解决方案之一。在以前的工作中,假定中间域中的样品数量足够大。因此,无需标记数据就可以进行自我训练。如果限制了可访问的中间域的数量,则域之间的距离变得很大,并且自我训练将失败。实际上,中间域中样品的成本会有所不同,自然可以考虑到中间域越接近目标域,从中间域中获得样品的成本就越高。为了解决成本和准确性之间的权衡,我们提出了一个结合了多重率和主动领域适应性的框架。通过使用现实世界数据集的实验来评估所提出方法的有效性。
translated by 谷歌翻译
Domain adaptation aims at generalizing a high-performance learner on a target domain via utilizing the knowledge distilled from a source domain which has a different but related data distribution. One solution to domain adaptation is to learn domain invariant feature representations while the learned representations should also be discriminative in prediction. To learn such representations, domain adaptation frameworks usually include a domain invariant representation learning approach to measure and reduce the domain discrepancy, as well as a discriminator for classification. Inspired by Wasserstein GAN, in this paper we propose a novel approach to learn domain invariant feature representations, namely Wasserstein Distance Guided Representation Learning (WD-GRL). WDGRL utilizes a neural network, denoted by the domain critic, to estimate empirical Wasserstein distance between the source and target samples and optimizes the feature extractor network to minimize the estimated Wasserstein distance in an adversarial manner. The theoretical advantages of Wasserstein distance for domain adaptation lie in its gradient property and promising generalization bound. Empirical studies on common sentiment and image classification adaptation datasets demonstrate that our proposed WDGRL outperforms the state-of-the-art domain invariant representation learning approaches.
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
Deep learning has produced state-of-the-art results for a variety of tasks. While such approaches for supervised learning have performed well, they assume that training and testing data are drawn from the same distribution, which may not always be the case. As a complement to this challenge, single-source unsupervised domain adaptation can handle situations where a network is trained on labeled data from a source domain and unlabeled data from a related but different target domain with the goal of performing well at test-time on the target domain. Many single-source and typically homogeneous unsupervised deep domain adaptation approaches have thus been developed, combining the powerful, hierarchical representations from deep learning with domain adaptation to reduce reliance on potentially-costly target data labels. This survey will compare these approaches by examining alternative methods, the unique and common elements, results, and theoretical insights. We follow this with a look at application areas and open research directions.
translated by 谷歌翻译
As a new classification platform, deep learning has recently received increasing attention from researchers and has been successfully applied to many domains. In some domains, like bioinformatics and robotics, it is very difficult to construct a large-scale well-annotated dataset due to the expense of data acquisition and costly annotation, which limits its development. Transfer learning relaxes the hypothesis that the training data must be independent and identically distributed (i.i.d.) with the test data, which motivates us to use transfer learning to solve the problem of insufficient training data. This survey focuses on reviewing the current researches of transfer learning by using deep neural network and its applications. We defined deep transfer learning, category and review the recent research works based on the techniques used in deep transfer learning.
translated by 谷歌翻译
众包被视为有效监督学习的一个潜在解决方案,旨在通过人群工人建立大规模的注释培训数据。以前的研究重点是减少来自众包注释的噪音的影响。我们在这项工作中涉及不同的观点,关于所有众包作为个人注册人的金标。通过这种方式,我们发现众群可能与域适应高度相似,然后近域方法的最近进步几乎可以直接应用于众包。在这里,我们将命名实体识别(ner)作为一项研究案例,建议由尝试捕获有效域感知功能的域适配方法的吸引人感知表示学习模型。我们调查无监督和监督的众群学习,假设没有或只有小型专家注释。基准众包的实验结果表明,我们的方法非常有效,导致新的最先进的性能。此外,在监督环境下,我们只能通过非常小的专家注释来实现令人印象深刻的性能。
translated by 谷歌翻译
最近,无监督的域适应是一种有效的范例,用于概括深度神经网络到新的目标域。但是,仍有巨大的潜力才能达到完全监督的性能。在本文中,我们提出了一种新颖的主动学习策略,以帮助目标域中的知识转移,有效域适应。我们从观察开始,即当训练(源)和测试(目标)数据来自不同的分布时,基于能量的模型表现出自由能量偏差。灵感来自这种固有的机制,我们经验揭示了一种简单而有效的能源 - 基于能量的采样策略揭示了比需要特定架构或距离计算的现有方法的最有价值的目标样本。我们的算法,基于能量的活动域适应(EADA),查询逻辑数据组,它将域特征和实例不确定性结合到每个选择回合中。同时,通过通过正则化术语对准源域周围的目标数据紧凑的自由能,可以隐含地减少域间隙。通过广泛的实验,我们表明EADA在众所周知的具有挑战性的基准上超越了最先进的方法,具有实质性的改进,使其成为开放世界中的一个有用的选择。代码可在https://github.com/bit-da/eada获得。
translated by 谷歌翻译
在图像分类中,获得足够的标签通常昂贵且耗时。为了解决这个问题,域适应通常提供有吸引力的选择,给出了来自类似性质但不同域的大量标记数据。现有方法主要对准单个结构提取的表示的分布,并且表示可以仅包含部分信息,例如,仅包含部分饱和度,亮度和色调信息。在这一行中,我们提出了多代表性适应,这可以大大提高跨域图像分类的分类精度,并且特别旨在对准由名为Inception Adaption Adationation模块(IAM)提取的多个表示的分布。基于此,我们呈现多色自适应网络(MRAN)来通过多表示对准完成跨域图像分类任务,该任向性可以捕获来自不同方面的信息。此外,我们扩展了最大的平均差异(MMD)来计算适应损耗。我们的方法可以通过扩展具有IAM的大多数前进模型来轻松实现,并且网络可以通过反向传播有效地培训。在三个基准图像数据集上进行的实验证明了备的有效性。代码已在https://github.com/easezyc/deep-transfer -learning上获得。
translated by 谷歌翻译
深度学习已成为解决不同领域中现实世界中问题的首选方法,部分原因是它能够从数据中学习并在广泛的应用程序上实现令人印象深刻的性能。但是,它的成功通常取决于两个假设:(i)精确模型拟合需要大量标记的数据集,并且(ii)培训和测试数据是独立的且分布相同的。因此,不能保证它在看不见的目标域上的性能,尤其是在适应阶段遇到分布数据的数据时。目标域中数据的性能下降是部署深层神经网络的关键问题,这些网络已成功地在源域中的数据训练。通过利用标记的源域数据和未标记的目标域数据来执行目标域中的各种任务,提出了无监督的域适应(UDA)来对抗这一点。 UDA在自然图像处理,视频分析,自然语言处理,时间序列数据分析,医学图像分析等方面取得了令人鼓舞的结果。在本综述中,作为一个快速发展的主题,我们对其方法和应用程序进行了系统的比较。此外,还讨论了UDA与其紧密相关的任务的联系,例如域的概括和分布外检测。此外,突出显示了当前方法和可能有希望的方向的缺陷。
translated by 谷歌翻译
生物医学机器阅读理解(生物医学MRC)旨在理解复杂的生物医学叙事,并协助医疗保健专业人员从中检索信息。现代神经网络的MRC系统的高性能取决于高质量的大规模,人为宣传的培训数据集。在生物医学领域中,创建此类数据集的一个至关重要的挑战是域知识的要求,引起了标记数据的稀缺性以及从标记的通用(源)域转移学习到生物医学(目标)域的需求。然而,由于主题方差,通用和生物医学领域之间的边际分布存在差异。因此,从在通用域上训练的模型到生物医学领域的模型直接转移学会的表示可能会损害模型的性能。我们为生物医学机器阅读理解任务(BioAdapt-MRC)提供了基于对抗性学习的域适应框架,这是一种基于神经网络的方法,可解决一般和生物医学域数据之间边际分布中的差异。 Bioadapt-MRC松弛了生成伪标签的需求,以训练表现出色的生物医学MRC模型。我们通过将生物ADAPT-MRC与三种广泛使用的基准生物医学MRC数据集进行比较,从而广泛评估了生物ADAPT-MRC的性能-Bioasq-7B,BioASQ-8B和BioASQ-9B。我们的结果表明,如果不使用来自生物医学领域的任何合成或人类通知的数据,Bioadapt-MRC可以在这些数据集中实现最先进的性能。可用性:bioadapt-MRC可作为开放源项目免费获得,\ url {https://github.com/mmahbub/bioadapt-mrc}。
translated by 谷歌翻译