Reflection high-energy electron diffraction (RHEED) is a powerful tool in molecular beam epitaxy (MBE), but RHEED images are often difficult to interpret, requiring experienced operators. We present an approach for automated surveillance of GaAs substrate deoxidation in MBE reactors using deep learning based RHEED image-sequence classification. Our approach consists of an non-supervised auto-encoder (AE) for feature extraction, combined with a supervised convolutional classifier network. We demonstrate that our lightweight network model can accurately identify the exact deoxidation moment. Furthermore we show that the approach is very robust and allows accurate deoxidation detection during months without requiring re-training. The main advantage of the approach is that it can be applied to raw RHEED images without requiring further information such as the rotation angle, temperature, etc.
translated by 谷歌翻译
在许多重要的科学和工程应用中发现了卷数据。渲染此数据以高质量和交互速率为苛刻的应用程序(例如虚拟现实)的可视化化,即使使用专业级硬件也无法实现。我们介绍了Fovolnet - 一种可显着提高数量数据可视化的性能的方法。我们开发了一种具有成本效益的渲染管道,该管道稀疏地对焦点进行了量度,并使用深层神经网络重建了全帧。 FOVEATED渲染是一种优先考虑用户焦点渲染计算的技术。这种方法利用人类视觉系统的属性,从而在用户视野的外围呈现数据时节省了计算资源。我们的重建网络结合了直接和内核预测方法,以产生快速,稳定和感知令人信服的输出。凭借纤细的设计和量化的使用,我们的方法在端到端框架时间和视觉质量中都优于最先进的神经重建技术。我们对系统的渲染性能,推理速度和感知属性进行了广泛的评估,并提供了与竞争神经图像重建技术的比较。我们的测试结果表明,Fovolnet始终在保持感知质量的同时,在传统渲染上节省了大量时间。
translated by 谷歌翻译
Motion blur from camera shake is a major problem in videos captured by hand-held devices. Unlike single-image deblurring, video-based approaches can take advantage of the abundant information that exists across neighboring frames. As a result the best performing methods rely on the alignment of nearby frames. However, aligning images is a computationally expensive and fragile procedure, and methods that aggregate information must therefore be able to identify which regions have been accurately aligned and which have not, a task that requires high level scene understanding. In this work, we introduce a deep learning solution to video deblurring, where a CNN is trained end-toend to learn how to accumulate information across frames. To train this network, we collected a dataset of real videos recorded with a high frame rate camera, which we use to generate synthetic motion blur for supervision. We show that the features learned from this dataset extend to deblurring motion blur that arises due to camera shake in a wide range of videos, and compare the quality of results to a number of other baselines 1 .
translated by 谷歌翻译
信号处理是几乎任何传感器系统的基本组件,具有不同科学学科的广泛应用。时间序列数据,图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能,数据驱动,信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述,旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题,从基础到工业研究,以简明的主题部分组织,反映了每个研究领域的当前和未来发展的趋势和影响。此外,它为研究人员和资助机构提供了识别新前景的指导。
translated by 谷歌翻译
光学成像通常用于行业和学术界的科学和技术应用。在图像传感中,通过数字化图像的计算分析来执行一个测量,例如对象的位置。新兴的图像感应范例通过设计光学组件来执行不进行成像而是编码,从而打破了数据收集和分析之间的描述。通过将图像光学地编码为适合有效分析后的压缩,低维的潜在空间,这些图像传感器可以以更少的像素和更少的光子来工作,从而可以允许更高的直通量,较低的延迟操作。光学神经网络(ONNS)提供了一个平台,用于处理模拟,光学域中的数据。然而,基于ONN的传感器仅限于线性处理,但是非线性是深度的先决条件,而多层NNS在许多任务上的表现都大大优于浅色。在这里,我们使用商业图像增强器作为平行光电子,光学到光学非线性激活函数,实现用于图像传感的多层预处理器。我们证明,非线性ONN前处理器可以达到高达800:1的压缩率,同时仍然可以在几个代表性的计算机视觉任务中高精度,包括机器视觉基准测试,流程度图像分类以及对对象中对象的识别,场景。在所有情况下,我们都会发现ONN的非线性和深度使其能够胜过纯线性ONN编码器。尽管我们的实验专门用于ONN传感器的光线图像,但替代ONN平台应促进一系列ONN传感器。这些ONN传感器可能通过在空间,时间和/或光谱尺寸中预处处理的光学信息来超越常规传感器,并可能具有相干和量子质量,所有这些都在光学域中。
translated by 谷歌翻译
与经典信号处理和基于机器学习的框架相比,基于深度学习的方法基于深度学习的方法显着提高了分类准确性。但大多数是由于脑电图数据中存在的受试者间可变性而无法概括对象无关的任务的主题依赖性研究。在这项工作中,提出了一种新的深度学习框架,其能够进行独立的情感识别,由两部分组成。首先,提出了具有通道关注自动泊车的无监督的长短期存储器(LSTM),用于获取主体不变的潜航向量子空间,即每个人的EEG数据中存在的内部变量。其次,提出了一种具有注意力框架的卷积神经网络(CNN),用于对从提出的LSTM获得的编码的较低的潜在空间表示对具有通道 - 注意自身形拓的编码的低潜空间表示的任务。通过注意机制,所提出的方法可以突出EEG信号的显着时间段,这有助于所考虑的情绪,由结果验证。已经使用公共数据集进行了验证的方法,用于EEG信号,例如Deap DataSet,SEED数据集和CHB-MIT数据集。所提出的端到端深度学习框架消除了不同手工工程特征的要求,并提供了一个单一的全面任务不可知性EEG分析工具,能够对主题独立数据进行各种EEG分析。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
遇到错误的损耗压缩正成为必不可少的技术,即当今科学项目的成功,并在模拟或仪器数据获取过程中产生了大量数据。它不仅可以显着减少数据大小,而且还可以基于用户指定的错误界限控制压缩错误。自动编码器(AE)模型已被广泛用于图像压缩中,但是很少有基于AE的压缩方法支持遇到错误的功能,这是科学应用所要求的。为了解决这个问题,我们使用卷积自动编码器探索以改善科学数据的错误损失压缩,并提供以下三个关键贡献。 (1)我们对各种自动编码器模型的特性进行了深入的研究,并根据SZ模型开发了基于错误的自动编码器的框架。 (2)我们在设计的基于AE的错误压缩框架中优化了主要阶段的压缩质量,并微调块大小和潜在尺寸,并优化了潜在向量的压缩效率。 (3)我们使用五个现实世界的科学数据集评估了我们提出的解决方案,并将其与其他六项相关作品进行了比较。实验表明,我们的解决方案在测试中的所有压缩机中表现出非常具有竞争性的压缩质量。从绝对的角度来看,与SZ2.1和ZFP相比,在高压比的情况下,它可以获得更好的压缩质量(压缩率和相同数据失真的100%〜800%提高)。
translated by 谷歌翻译
通常,基于生物谱系的控制系统可能不依赖于各个预期行为或合作适当运行。相反,这种系统应该了解未经授权的访问尝试的恶意程序。文献中提供的一些作品建议通过步态识别方法来解决问题。这些方法旨在通过内在的可察觉功能来识别人类,尽管穿着衣服或配件。虽然该问题表示相对长时间的挑战,但是为处理问题的大多数技术存在与特征提取和低分类率相关的几个缺点,以及其他问题。然而,最近的深度学习方法是一种强大的一组工具,可以处理几乎任何图像和计算机视觉相关问题,为步态识别提供最重要的结果。因此,这项工作提供了通过步态认可的关于生物识别检测的最近作品的调查汇编,重点是深入学习方法,强调他们的益处,暴露出弱点。此外,它还呈现用于解决相关约束的数据集,方法和体系结构的分类和表征描述。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
视频异常检测是现在计算机视觉中的热门研究主题之一,因为异常事件包含大量信息。异常是监控系统中的主要检测目标之一,通常需要实时行动。关于培训的标签数据的可用性(即,没有足够的标记数据进行异常),半监督异常检测方法最近获得了利益。本文介绍了该领域的研究人员,以新的视角,并评论了最近的基于深度学习的半监督视频异常检测方法,基于他们用于异常检测的共同策略。我们的目标是帮助研究人员开发更有效的视频异常检测方法。由于选择右深神经网络的选择对于这项任务的几个部分起着重要作用,首先准备了对DNN的快速比较审查。与以前的调查不同,DNN是从时空特征提取观点审查的,用于视频异常检测。这部分审查可以帮助本领域的研究人员选择合适的网络,以获取其方法的不同部分。此外,基于其检测策略,一些最先进的异常检测方法受到严格调查。审查提供了一种新颖,深入了解现有方法,并导致陈述这些方法的缺点,这可能是未来作品的提示。
translated by 谷歌翻译
where the highest resolution is required, using facial performance capture as a case in point.
translated by 谷歌翻译
所有物理定律都被描述为状态变量之间的关系,其提供相关系统动态的完整和非冗余描述。然而,尽管计算功率和AI的普及,但识别隐藏状态变量本身的过程已经抵制了自动化。用于建模物理现象的大多数数据驱动方法仍然假设观察到的数据流已经对应于相关状态变量。关键挑战是仅给予高维观察数据,从头开始识别可能的状态变量集。在这里,我们提出了一种新的原理,用于确定观察到的系统可能具有多少状态变量,以及这些变量可以直接来自视频流。我们展示了使用各种物理动态系统的视频录制的这种方法的有效性,从弹性双摆到火焰。如果没有任何相关的物理知识,我们的算法发现观察到的动态的内在尺寸,并识别候选州变量集。我们建议这种方法可以帮助促进对越来越复杂的系统的理解,预测和控制。项目网站是:https://www.cs.columbia.edu/~bchen/nebural-tate-variables
translated by 谷歌翻译
相位场建模是一种有效但计算昂贵的方法,用于捕获材料中的中尺度形态和微观结构演化。因此,需要快速且可推广的替代模型来减轻计算征税流程的成本,例如在材料的优化和设计中。尖锐相边界的存在所产生的物理现象的固有不连续性使替代模型的训练繁琐。我们开发了一个框架,该框架将卷积自动编码器架构与深神经操作员(DeepOnet)集成在一起,以了解两相混合物的动态演化,并加速预测微结构演变的时间。我们利用卷积自动编码器在低维的潜在空间中提供微观结构数据的紧凑表示。 DeepOnet由两个子网络组成,一个用于编码固定数量的传感器位置(分支网)的输入函数,另一个用于编码输出功能的位置(TRUNK NET),了解微观结构Evolution的中尺度动力学从自动编码器潜在空间。然后,卷积自动编码器的解码器部分从deponet预测中重建了时间进化的微结构。然后,可以使用训练有素的DeepOnet架构来替换插值任务中的高保真相位数值求解器或在外推任务中加速数值求解器。
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
Physically based rendering of complex scenes can be prohibitively costly with a potentially unbounded and uneven distribution of complexity across the rendered image. The goal of an ideal level of detail (LoD) method is to make rendering costs independent of the 3D scene complexity, while preserving the appearance of the scene. However, current prefiltering LoD methods are limited in the appearances they can support due to their reliance of approximate models and other heuristics. We propose the first comprehensive multi-scale LoD framework for prefiltering 3D environments with complex geometry and materials (e.g., the Disney BRDF), while maintaining the appearance with respect to the ray-traced reference. Using a multi-scale hierarchy of the scene, we perform a data-driven prefiltering step to obtain an appearance phase function and directional coverage mask at each scale. At the heart of our approach is a novel neural representation that encodes this information into a compact latent form that is easy to decode inside a physically based renderer. Once a scene is baked out, our method requires no original geometry, materials, or textures at render time. We demonstrate that our approach compares favorably to state-of-the-art prefiltering methods and achieves considerable savings in memory for complex scenes.
translated by 谷歌翻译