Do we really understand how machine classifies art styles? Historically, art is perceived and interpreted by human eyes and there are always controversial discussions over how people identify and understand art. Historians and general public tend to interpret the subject matter of art through the context of history and social factors. Style, however, is different from subject matter. Given the fact that Style does not correspond to the existence of certain objects in the painting and is mainly related to the form and can be correlated with features at different levels.(Ahmed Elgammal et al. 2018), which makes the identification and classification of the characteristics artwork's style and the "transition" - how it flows and evolves - remains as a challenge for both human and machine. In this work, a series of state-of-art neural networks and manifold learning algorithms are explored to unveil this intriguing topic: How does machine capture and interpret the flow of Art History?
translated by 谷歌翻译
Current learning machines have successfully solved hard application problems, reaching high accuracy and displaying seemingly "intelligent" behavior. Here we apply recent techniques for explaining decisions of state-of-the-art learning machines and analyze various tasks from computer vision and arcade games. This showcases a spectrum of problem-solving behaviors ranging from naive and short-sighted, to wellinformed and strategic. We observe that standard performance evaluation metrics can be oblivious to distinguishing these diverse problem solving behaviors. Furthermore, we propose our semi-automated Spectral Relevance Analysis that provides a practically effective way of characterizing and validating the behavior of nonlinear learning machines. This helps to assess whether a learned model indeed delivers reliably for the problem that it was conceived for. Furthermore, our work intends to add a voice of caution to the ongoing excitement about machine intelligence and pledges to evaluate and judge some of these recent successes in a more nuanced manner.
translated by 谷歌翻译
由于几个原因,很难聚集艺术品。一方面,识别基于领域知识和视觉感知的有意义的模式非常困难。另一方面,将传统的聚类和功能还原技术应用于高度尺寸的像素空间可能是无效的。为了解决这些问题,在本文中,我们提出了Delius:一种深入学习视觉艺术的深度学习方法。该方法使用预训练的卷积网络提取功能,然后将这些功能馈送到深层嵌入聚类模型中,在此,将输入数据映射到潜在空间的任务是通过在找到一组集群质心的任务,以在此任务进行优化。这个潜在空间。定量和定性实验结果表明了该方法的有效性。Delius对于与艺术分析有关的多个任务很有用,特别是在绘画数据集中发现的视觉链接检索和历史知识发现。
translated by 谷歌翻译
各种工作表明,图像的令人难忘性在人们中一致,因此可以被视为图像的内在特性。使用计算机视觉模型,我们可以对人们记住或忘记做出具体的预测。虽然老工作已经使用了现在过时的深度学习架构来预测图像令人难忘,但该领域的创新使我们的新技术适用于这个问题。在这里,我们提出并评估了五个替代的深度学习模型,在过去五年中利用现场开发的替代深度学习模型,这主要是引入残余神经网络,这旨在允许模型在令人难忘的估计过程中使用语义信息。通过构建的组合数据集进行了本领域的先前状态测试这些新模型,以优化类别内和跨类别预测。我们的研究结果表明,关键的令人难忘网络夸大了其概括性,并在其培训集上被过度了。我们的新模型优于此前的模型,导致我们得出结论,残差网络在令人难忘的回归中占据了更简单的卷积神经网络。我们使新的最先进的模型容易获得研究界,允许内存研究人员对更广泛的图像上的难忘性进行预测。
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译
自动图像分类是食品科学中监督机器学习的常见任务。一个例子是基于图像的水果外部质量或成熟度的分类。为此,通常使用深层卷积神经网络(CNN)。这些模型通常需要大量标记的培训样本和增强的计算资源。尽管商业水果分类线很容易满足这些要求,但这些先决条件可能会阻碍机器学习方法的使用,尤其是对于发展中国家的小农户。我们提出了一种基于预先训练的视觉变压器(VIT)的替代方法,该方法特别适用于数据可用性较低和计算资源有限的域。可以在标准设备上使用有限的资源来轻松实施,这可以使这些模型在发展中国家的基于智能手机的图像分类中民主化。我们通过用良好的CNN方法基准对香蕉和苹果水果的域数据集进行两项不同的分类任务来证明我们方法的竞争力。我们的方法在3745张图像的训练数据集上,分类精度低于表现最佳的CNN(0.950 vs. 0.958)的分类精度。同时,当只有少量标记的训练样本可用时,我们的方法是优越的。与CNN相比,它需要少三倍才能达到0.90的精度。此外,低维特征嵌入的可视化表明,我们的研究中使用的模型从看不见的数据中提取了出色的特征,而无需分配标签。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
人类活动识别是计算机视觉中的新出现和重要领域,旨在确定个体或个体正在执行的活动。该领域的应用包括从体育中生成重点视频到智能监视和手势识别。大多数活动识别系统依赖于卷积神经网络(CNN)的组合来从数据和复发性神经网络(RNN)中进行特征提取来确定数据的时间依赖性。本文提出并设计了两个用于人类活动识别的变压器神经网络:一个经常性变压器(RET),这是一个专门的神经网络,用于对数据序列进行预测,以及视觉变压器(VIT),一种用于提取显着的变压器的变压器(VIT)图像的特征,以提高活动识别的速度和可扩展性。我们在速度和准确性方面提供了对拟议的变压器神经网络与现代CNN和基于RNN的人类活动识别模型的广泛比较。
translated by 谷歌翻译
建模法检索和检索作为预测问题最近被出现为法律智能的主要方法。专注于法律文章检索任务,我们展示了一个名为Lamberta的深度学习框架,该框架被设计用于民法代码,并在意大利民法典上专门培训。为了我们的知识,这是第一项研究提出了基于伯特(来自变压器的双向编码器表示)学习框架的意大利法律制度对意大利法律制度的高级法律文章预测的研究,最近引起了深度学习方法的增加,呈现出色的有效性在几种自然语言处理和学习任务中。我们通过微调意大利文章或其部分的意大利预先训练的意大利预先训练的伯爵来定义Lamberta模型,因为法律文章作为分类任务检索。我们Lamberta框架的一个关键方面是我们构思它以解决极端的分类方案,其特征在于课程数量大,少量学习问题,以及意大利法律预测任务的缺乏测试查询基准。为了解决这些问题,我们为法律文章的无监督标签定义了不同的方法,原则上可以应用于任何法律制度。我们提供了深入了解我们Lamberta模型的解释性和可解释性,并且我们对单一标签以及多标签评估任务进行了广泛的查询模板实验分析。经验证据表明了Lamberta的有效性,以及对广泛使用的深度学习文本分类器和一些构思的几次学习者来说,其优越性是对属性感知预测任务的优势。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
Continual Learning (CL) is a field dedicated to devise algorithms able to achieve lifelong learning. Overcoming the knowledge disruption of previously acquired concepts, a drawback affecting deep learning models and that goes by the name of catastrophic forgetting, is a hard challenge. Currently, deep learning methods can attain impressive results when the data modeled does not undergo a considerable distributional shift in subsequent learning sessions, but whenever we expose such systems to this incremental setting, performance drop very quickly. Overcoming this limitation is fundamental as it would allow us to build truly intelligent systems showing stability and plasticity. Secondly, it would allow us to overcome the onerous limitation of retraining these architectures from scratch with the new updated data. In this thesis, we tackle the problem from multiple directions. In a first study, we show that in rehearsal-based techniques (systems that use memory buffer), the quantity of data stored in the rehearsal buffer is a more important factor over the quality of the data. Secondly, we propose one of the early works of incremental learning on ViTs architectures, comparing functional, weight and attention regularization approaches and propose effective novel a novel asymmetric loss. At the end we conclude with a study on pretraining and how it affects the performance in Continual Learning, raising some questions about the effective progression of the field. We then conclude with some future directions and closing remarks.
translated by 谷歌翻译
空间数据在应对与城市相关的任务中的作用近年来一直在增长。要在机器学习模型中使用它们,通常需要将它们转换为向量表示,这导致了空间数据表示学习领域的开发。还有一种越来越多的各种空间数据类型,提出了一种表示学习方法。迄今为止,公共交通时间表迄今未被用于一个城市地区的学习陈述的任务。在这项工作中,开发了一种方法来将公共交通可用性信息嵌入到矢量空间中。要对其申请进行实验,从48个城市收集公共交通时间表。使用H3空间索引方法,它们被分成微区域。还提出了一种方法来识别具有类似公共交通报价特征的地区。在其基础上,定义了该地区的公共交通报价的多层次类型。本文表明,所提出的表示方法可以识别城市之间具有相似公共交通特性的微区域,并且可用于评估城市中可用的公共交通的质量。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
T分布式随机邻居嵌入(T-SNE)是复杂高维数据的良好的可视化方法。然而,原始T-SNE方法是非参数,随机的,并且通常不能很好地预测数据的全局结构,因为它强调当地社区。通过T-SNE作为参考,我们建议将深度神经网络(DNN)与数学接地的嵌入规则相结合,以进行高维数据嵌入的规则。我们首先介绍一个深嵌入的网络(DEN)框架,它可以从高维空间到低维嵌入的参数映射。 DEN具有灵活的架构,可容纳不同的输入数据(矢量,图像或张量)和损耗功能。为提高嵌入性能,建议递归培训策略利用书房提取的潜在陈述。最后,我们提出了一种两级损耗功能,将两个流行的嵌入方法的优点相结合,即T-SNE和均匀的歧管近似和投影(UMAP),以获得最佳可视化效果。我们将建议的方法命名为深度递归嵌入(DRE),其优化了递归培训策略和两级吊袜带的DEN。我们的实验表明,在各种公共数据库中,所提出的DRE方法对高维数据嵌入的优异性能。值得注意的是,我们的比较结果表明,我们拟议的DRE可能导致全球结构改善。
translated by 谷歌翻译
在解决问题的过程中,通往解决方案的道路可以看作是一系列决策。人类或计算机做出的决定通过问题的高维表示空间来描述轨迹。通过降低维度,可以在较低维空间中可视化这些轨迹。此类嵌入式轨迹先前已应用于各种数据,但是分析几乎完全集中在单轨迹的自相似性上。相比之下,我们描述了在相同的嵌入空间中绘制许多轨迹(对于不同初始条件,终端状态和解决方案策略)而出现的模式。我们认为,可以通过解释这些模式来制定有关解决问题的任务和解决策略的一般性陈述。我们探索并描述了由人类和机器制定的各种应用领域中的决策产生的轨迹中的这种模式:逻辑难题(魔术片),策略游戏(国际象棋)和优化问题(神经网络培训)。 We also discuss the importance of suitably chosen representation spaces and similarity metrics for the embedding.
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
We propose an interactive editing method that allows humans to help deep neural networks (DNNs) learn a latent space more consistent with human knowledge, thereby improving classification accuracy on indistinguishable ambiguous data. Firstly, we visualize high-dimensional data features through dimensionality reduction methods and design an interactive system \textit{SpaceEditing} to display the visualized data. \textit{SpaceEditing} provides a 2D workspace based on the idea of spatial layout. In this workspace, the user can move the projection data in it according to the system guidance. Then, \textit{SpaceEditing} will find the corresponding high-dimensional features according to the projection data moved by the user, and feed the high-dimensional features back to the network for retraining, therefore achieving the purpose of interactively modifying the high-dimensional latent space for the user. Secondly, to more rationally incorporate human knowledge into the training process of neural networks, we design a new loss function that enables the network to learn user-modified information. Finally, We demonstrate how \textit{SpaceEditing} meets user needs through three case studies while evaluating our proposed new method, and the results confirm the effectiveness of our method.
translated by 谷歌翻译
深度学习属于人工智能领域,机器执行通常需要某种人类智能的任务。类似于大脑的基本结构,深度学习算法包括一种人工神经网络,其类似于生物脑结构。利用他们的感官模仿人类的学习过程,深入学习网络被送入(感官)数据,如文本,图像,视频或声音。这些网络在不同的任务中优于最先进的方法,因此,整个领域在过去几年中看到了指数增长。这种增长在过去几年中每年超过10,000多种出版物。例如,只有在医疗领域中的所有出版物中覆盖的搜索引擎只能在Q3 2020中覆盖所有出版物的子集,用于搜索术语“深度学习”,其中大约90%来自过去三年。因此,对深度学习领域的完全概述已经不可能在不久的将来获得,并且在不久的将来可能会难以获得难以获得子场的概要。但是,有几个关于深度学习的综述文章,这些文章专注于特定的科学领域或应用程序,例如计算机愿景的深度学习进步或在物体检测等特定任务中进行。随着这些调查作为基础,这一贡献的目的是提供对不同科学学科的深度学习的第一个高级,分类的元调查。根据底层数据来源(图像,语言,医疗,混合)选择了类别(计算机愿景,语言处理,医疗信息和其他工程)。此外,我们还审查了每个子类别的常见架构,方法,专业,利弊,评估,挑战和未来方向。
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译