为了帮助开发用于光谱数据自动分类的机器学习方法,我们生成了一个通用的合成数据集,可用于模型验证。该数据集包含人工光谱,旨在表示来自X射线衍射,核磁共振和拉曼光谱的技术的实验测量。数据集生成过程具有可自定义的参数,例如扫描长度和峰值计​​数,可以调整这些参数以适应手头的问题。作为初始基准,我们模拟了一个基于500个独特类的数据集,该数据集包含35,000个光谱。为了自动化此数据的分类,评估了八个不同的机器学习体系结构。从结果来看,我们阐明了哪些因素对于在分类任务中实现最佳性能至关重要。用于生成合成光谱的脚本以及我们的基准数据集和评估程序,可公开使用,以帮助开发改进的机器学习模型以进行光谱分析。
translated by 谷歌翻译
我们开发了卷积神经网络(CNNS),快速,直接从无线电尘埃连续图像中推断出行星质量。在原始板块中的年轻行星引起的子结构可用于推断潜在的年轻行星属性。流体动力模拟已被用于研究地球属性与这些磁盘特征之间的关系。然而,这些尝试了微调的数值模拟,以一次适合一个原始磁盘,这是耗时的,或者四方平均模拟结果,以导出间隙宽度/深度和行星质量之间的一些线性关系,这丢失了信息磁盘中的不对称功能。为了应对这些缺点,我们开发了行星间隙神经网络(PGNET),以推断出2D图像的行星质量。我们首先符合张等人的网格数据。 (2018)作为分类问题。然后,通过使用近随机采样参数运行额外的模拟来分布数据集,并将行星质量和磁盘粘度一起作为回归问题衍生在一起。分类方法可以达到92 \%的准确性,而回归方法可以达到1 $ \ Sigma $ AS 0.16 DEX,用于行星质量和0.23°D磁盘粘度。我们可以在线性拟合方法中重现退化缩放$ \ alpha $ $ \ propto $ $ m_p ^ 3 $。这意味着CNN方法甚至可以用于寻找退化关系。梯度加权类激活映射有效地确认PGNETS使用适当的磁盘特征来限制行星质量。我们为张等人提供了PGNETS和传统配件方法的计划。 (2018),并讨论各种方法的优缺点。
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
我们从一组稀疏的光谱时间序列中构建了一个物理参数化的概率自动编码器(PAE),以学习IA型超新星(SNE IA)的内在多样性。 PAE是一个两阶段的生成模型,由自动编码器(AE)组成,该模型在使用归一化流(NF)训练后概率地解释。我们证明,PAE学习了一个低维的潜在空间,该空间可捕获人口内存在的非线性特征范围,并且可以直接从数据直接从数据中准确地对整个波长和观察时间进行精确模拟SNE IA的光谱演化。通过引入相关性惩罚项和多阶段训练设置以及我们的物理参数化网络,我们表明可以在训练期间分离内在和外在的可变性模式,从而消除了需要进行额外标准化的其他模型。然后,我们在SNE IA的许多下游任务中使用PAE进行越来越精确的宇宙学分析,包括自动检测SN Outliers,与数据分布一致的样本的产生以及在存在噪音和不完整数据的情况下解决逆问题限制宇宙距离测量。我们发现,与以前的研究相一致的最佳固有模型参数数量似乎是三个,并表明我们可以用$ 0.091 \ pm 0.010 $ mag标准化SNE IA的测试样本,该样本对应于$ 0.074 \ pm。 0.010 $ mag如果删除了特殊的速度贡献。训练有素的模型和代码在\ href {https://github.com/georgestein/supaernova} {github.com/georgestein/supaernova}上发布
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
模式形成过程中拓扑和微观结构方案中过渡的识别和分类对于理解和制造许多应用领域中的微观结构精确的新型材料至关重要。不幸的是,相关的微观结构过渡可能取决于以微妙而复杂的方式取决于过程参数,而经典相变理论未捕获。尽管有监督的机器学习方法可能对识别过渡制度很有用,但他们需要标签,这些标签需要先验了解订单参数或描述这些过渡的相关结构。由动态系统的通用原理的激励,我们使用一种自我监督的方法来解决使用神经网络从观察到的微观结构中预测过程参数的反问题。这种方法不需要关于不同类别的微观结构模式或预测微观结构过渡的目标任务的预定义的,标记的数据。我们表明,执行逆问题预测任务的困难与发现微观结构制度的目标有关,因为微观结构模式的定性变化与我们自我监督问题的不确定性预测的变化相对应。我们通过在两个不同的模式形成过程中自动发现微观结构方案中的过渡来证明我们的方法的价值:两相混合物的旋律分解以及在薄膜物理蒸气沉积过程中二进制合金浓度调制的形成。这种方法为发现和理解看不见的或难以辨认的过渡制度开辟了一个有希望的途径,并最终用于控制复杂的模式形成过程。
translated by 谷歌翻译
目前,由精确的径向速度(RV)观察结果受到恒星活性引入的虚假RV信号的限制。我们表明,诸如线性回归和神经网络之类的机器学习技术可以有效地从RV观测中删除活动信号(由于星形/张图引起的)。先前的工作着重于使用高斯工艺回归等建模技术仔细地过滤活性信号(例如Haywood等人,2014年)。取而代之的是,我们仅使用对光谱线平均形状的更改进行系统地删除活动信号,也没有有关收集观测值的信息。我们对模拟数据(使用SOAP 2.0软件生成; Dumusque等人,2014年生成)和从Harps-N太阳能望远镜(Dumusque等,2015; Phillips等人2015; 2016; Collier训练)培训了机器学习模型。 Cameron等人2019)。我们发现,这些技术可以从模拟数据(将RV散射从82 cm/s提高到3 cm/s)以及从HARPS-N太阳能望远镜中几乎每天进行的600多种真实观察结果来预测和消除恒星活动(将RV散射从82 cm/s提高到3 cm/s)。 (将RV散射从1.753 m/s提高到1.039 m/s,提高了约1.7倍)。将来,这些或类似的技术可能会从太阳系以外的恒星观察中去除活动信号,并最终有助于检测到阳光状恒星周围可居住的区域质量系外行星。
translated by 谷歌翻译
X射线荧光光谱(XRF)在广泛的科学领域,尤其是在文化遗产中,在元素分析中起重要作用。使用栅格扫描来获取跨艺术品的光谱的XRF成像为基于其元素组成的颜料分布的空间分析提供了机会。然而,常规的基于XRF的色素识别依赖于耗时的元素映射,该元素映射通过测量光谱的专家解释。为了减少对手动工作的依赖,最近的研究应用了机器学习技术,以在数据分析中聚集相似的XRF光谱并确定最可能的颜料。然而,对于自动色素识别策略,直接处理真实绘画的复杂结构,例如色素混合物和分层色素。此外,与平均光谱相比,基于XRF成像的像素颜料识别仍然是障碍物。因此,我们开发了一个基于深度学习的端到端色素识别框架,以完全自动化色素识别过程。特别是,它对浓度较低的颜料具有很高的敏感性,因此可以使令人满意的结果基于单像素XRF光谱映射颜料。作为案例研究,我们将框架应用于实验室准备的模型绘画和两幅19世纪的绘画:Paul Gauguin的Po \'Emes Barbares(1896),其中包含带有底层绘画的分层颜料,以及Paul Cezanne的沐浴者(1899--1899-- 1904)。色素鉴定结果表明,我们的模型通过元素映射获得了与分析的可比结果,这表明我们的模型的概括性和稳定性。
translated by 谷歌翻译
小行星主带通过平均动力和世俗共振的网络越过,这在小行星和行星的基本频率之间具有相当性时发生。传统上,这些对象是通过视觉检查其共鸣论点的时间演变来识别的,它们是小行星和扰动星球的轨道元素的结合。由于在某些情况下,受这些共振影响的小行星人口是数千个的顺序,因此对于人类观察者来说,这已成为一项纳税任务。最近的作品使用卷积神经网络(CNN)模型自动执行此类任务。在这项工作中,我们将此类模型的结果与一些最先进和可公开的CNN体​​系结构(如VGG,Inception和Resnet)进行了比较。首先使用验证集和一系列正规化技术(例如数据扩展,辍学和批处理标准)进行测试和优化此类模型的性能。然后使用三个最佳模型来预测包含数千张图像的较大测试数据库的标签。事实证明,有和没有正规化的VGG模型是预测大型数据集标签的最有效方法。由于Vera C. Rubin天文台在未来几年内可能会发现多达四百万个新的小行星,因此这些模型的使用可能会非常有价值,以识别共鸣的次要人群。
translated by 谷歌翻译
射频干扰(RFI)缓解仍然是寻找无线电技术的主要挑战。典型的缓解策略包括原点方向(DOO)滤波器,如果在天空上的多个方向上检测到信号,则将信号分类为RFI。这些分类通常依赖于信号属性的估计,例如频率和频率漂移速率。卷积神经网络(CNNS)提供了对现有过滤器的有希望的补充,因为它们可以接受培训以直接分析动态光谱,而不是依赖于推断的信号属性。在这项工作中,我们编译了由标记的动态谱的图像组组成的几个数据集,并且我们设计和训练了可以确定在另一扫描中检测到的信号是否在另一扫描中检测到的CNN。基于CNN的DOO滤波器优于基线2D相关模型以及现有的DOO过滤器在一系列指标范围内,分别具有99.15%和97.81%的精度和召回值。我们发现CNN在标称情况下将传统的DOO过滤器施加6-16倍,减少了需要目视检查的信号数。
translated by 谷歌翻译
我们向高吞吐量基准介绍了用于材料和分子数据集的化学系统的多种表示的高吞吐量基准的机器学习(ML)框架。基准测试方法的指导原理是通过将模型复杂性限制在简单的回归方案的同时,在执行最佳ML实践的同时将模型复杂性限制为简单的回归方案,允许通过沿着同步的列车测试分裂的系列进行学习曲线来评估学习进度来评估原始描述符性能。结果模型旨在为未来方法开发提供通知的基线,旁边指示可以学习给定的数据集多么容易。通过对各种物理化学,拓扑和几何表示的培训结果的比较分析,我们介绍了这些陈述的相对优点以及它们的相互关联。
translated by 谷歌翻译
虽然最近在许多科学领域都变得无处不在,但对其评估的关注较少。对于分子生成模型,最先进的是孤立或与其输入有关的输出。但是,它们的生物学和功能特性(例如配体 - 靶标相互作用)尚未得到解决。在这项研究中,提出了一种新型的生物学启发的基准,用于评估分子生成模型。具体而言,设计了三个不同的参考数据集,并引入了与药物发现过程直接相关的一组指标。特别是我们提出了一个娱乐指标,将药物目标亲和力预测和分子对接应用作为评估生成产量的互补技术。虽然所有三个指标均在测试的生成模型中均表现出一致的结果,但对药物目标亲和力结合和分子对接分数进行了更详细的比较,表明单峰预测器可能会导致关于目标结合在分子水平和多模式方法的错误结论,而多模式的方法是错误的结论。因此优选。该框架的关键优点是,它通过明确关注配体 - 靶标相互作用,将先前的物理化学域知识纳入基准测试过程,从而创建了一种高效的工具,不仅用于评估分子生成型输出,而且还用于丰富富含分子生成的输出。一般而言,药物发现过程。
translated by 谷歌翻译
本文介绍了频率卷积神经网络(CNN),用于快速,无创的​​2D剪切波速度(VS)成像的近表面地质材料。在频速度域中运行,可以在用于生成CNN输入的线性阵列,主动源实验测试配置中具有显着的灵活性,这些配置是归一化的分散图像。与波场图像不同,标准化的分散图像对实验测试配置相对不敏感,可容纳各种源类型,源偏移,接收器数量和接收器间距。我们通过将其应用于经典的近乎表面地球物理学问题,即成像两层,起伏的土壤 - 旁质界面的界面来证明频率CNN的有效性。最近,通过开发一个时间距离CNN来研究这个问题,该问题表现出了很大的希望,但在使用不同的现场测试配置方面缺乏灵活性。本文中,新的频道CNN显示出与时距CNN的可比精度,同时提供了更大的灵活性来处理各种现场应用程序。使用100,000个合成近表面模型对频率速度CNN进行了训练,验证和测试。首先,使用训练集的合成近表面模型测试了提议的频率CNN跨各种采集配置概括跨各种采集配置的能力,然后应用于在Austin的Hornsby Bend在Austin的Hornsby Bend收集的实验场数据美国德克萨斯州,美国。当针对更广泛的地质条件范围充分开发时,提出的CNN最终可以用作当前伪2D表面波成像技术的快速,端到端替代方案,或开发用于完整波形倒置的启动模型。
translated by 谷歌翻译
大多数杂草物种都会通过竞争高价值作物所需的营养而产生对农业生产力的不利影响。手动除草对于大型种植区不实用。已经开展了许多研究,为农业作物制定了自动杂草管理系统。在这个过程中,其中一个主要任务是识别图像中的杂草。但是,杂草的认可是一个具有挑战性的任务。它是因为杂草和作物植物的颜色,纹理和形状类似,可以通过成像条件,当记录图像时的成像条件,地理或天气条件进一步加剧。先进的机器学习技术可用于从图像中识别杂草。在本文中,我们调查了五个最先进的深神经网络,即VGG16,Reset-50,Inception-V3,Inception-Resnet-V2和MobileNetv2,并评估其杂草识别的性能。我们使用了多种实验设置和多个数据集合组合。特别是,我们通过组合几个较小的数据集,通过数据增强构成了一个大型DataSet,缓解了类别不平衡,并在基于深度神经网络的基准测试中使用此数据集。我们通过保留预先训练的权重来调查使用转移学习技术来利用作物和杂草数据集的图像提取特征和微调它们。我们发现VGG16比小规模数据集更好地执行,而ResET-50比其他大型数据集上的其他深网络更好地执行。
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
在过去的几年中,神经网络(NN)从实验室环境中发展为许多现实世界中的最新问题。结果表明,NN模型(即它们的重量和偏见)在训练过程中的重量空间中的独特轨迹上演变。随后,这种神经网络模型(称为模型动物园)的人群将在体重空间中形成结构。我们认为,这些结构的几何形状,曲率和平滑度包含有关训练状态的信息,并且可以揭示单个模型的潜在特性。使用这种模型动物园,可以研究(i)模型分析的新方法,(ii)发现未知的学习动力学,(iii)学习此类人群的丰富表示形式,或(iv)利用模型动物园来用于NN权重和NN权重的生成模型偏见。不幸的是,缺乏标准化模型动物园和可用的基准可以显着增加摩擦,以进一步研究NNS人群。通过这项工作,我们发布了一个新颖的模型动物园数据集,其中包含系统生成和多样化的NN模型种群,以进行进一步研究。总共提出的模型动物园数据集基于八个图像数据集,由27个模型动物园组成,该模型动物园训练有不同的超参数组合,包括50'360唯一的NN型号以及其稀疏双胞胎,导致超过3'844'360收集的型号。 。此外,对于模型动物园数据,我们提供了对动物园的深入分析,并为多个下游任务提供了基准。该数据集可在www.modelzoos.cc上找到。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
语义图像分割是手术中的背景知识和自治机器人的重要前提。本领域的状态专注于在微创手术期间获得的传统RGB视频数据,但基于光谱成像数据的全景语义分割并在开放手术期间获得几乎没有注意到日期。为了解决文献中的这种差距,我们正在研究基于在开放手术环境中获得的猪的高光谱成像(HSI)数据的以下研究问题:(1)基于神经网络的HSI数据的充分表示是完全自动化的器官分割,尤其是关于数据的空间粒度(像素与Superpixels与Patches与完整图像)的空间粒度? (2)在执行语义器官分割时,是否有利用HSI数据使用HSI数据,即RGB数据和处理的HSI数据(例如氧合等组织参数)?根据基于20猪的506个HSI图像的全面验证研究,共注释了19个类,基于深度的学习的分割性能 - 贯穿模态 - 与输入数据的空间上下文一致。未处理的HSI数据提供优于RGB数据或来自摄像机提供商的处理数据,其中优势随着输入到神经网络的输入的尺寸而增加。最大性能(应用于整个图像的HSI)产生了0.89(标准偏差(SD)0.04)的平均骰子相似度系数(DSC),其在帧间间变异性(DSC为0.89(SD 0.07)的范围内。我们得出结论,HSI可以成为全自动手术场景理解的强大的图像模型,其具有传统成像的许多优点,包括恢复额外功能组织信息的能力。
translated by 谷歌翻译