随着全球气候变化影响影响世界的影响,需要集体努力来减少温室气体排放。能源部门是气候变化的最大贡献者,许多努力集中在减少对碳源发电厂的依赖,并转向可再生能源,如太阳能。太阳能电池板位置的全面数据库对于协助分析师和政策制定者来说,在定义太阳能的进一步扩展方面的策略方面很重要。在本文中,我们专注于创建太阳能电池板的世界地图。我们识别给定地理区域内的太阳能电池板的位置和总表面积。我们使用深度学习方法来使用空中图像自动检测太阳能电池板位置及其表面积。该框架由使用具有语义分割模型的串联串联使用图像分类器的双分支模型组成的框架在我们创建的卫星图像的日数据集上培训。我们的作品提供了一种用于检测太阳能电池板的高效和可扩展的方法,实现分类的精度为0.96,并且对于分割性能,IOU分数为0.82。
translated by 谷歌翻译
准确地估算主要山区盆地中的积雪对于水资源经理来说至关重要,以便做出影响当地和全球经济,野生动植物和公共政策的决策。目前,此估计需要多个配备LIDAR的飞机飞行或原位测量值,两者均昂贵,稀疏和对可访问区域有偏见。在本文中,我们证明了来自多个,公开可用的卫星和天气数据源的空间和时间信息的融合,可以估算关键山区的积雪。我们的多源模型的表现优于单源估计值5.0英寸RMSE,并且优于稀疏的原位测量值的估计值1.2英寸RMSE。
translated by 谷歌翻译
为了克服多个对象跟踪任务中的挑战,最近的算法将交互线索与运动和外观特征一起使用。这些算法使用图形神经网络或变压器来提取导致高计算成本的交互功能。在本文中,提出了一种基于几何特征的新型交互提示,旨在检测遮挡和重新识别计算成本低的丢失目标。此外,在大多数算法中,摄像机运动被认为可以忽略不计,这是一个强有力的假设,并不总是正确的,并且导致目标转换或目标不匹配。在本文中,提出了一种测量相机运动和删除其效果的方法,可有效地降低相机运动对跟踪的影响。该算法在MOT17和MOT20数据集上进行了评估,并在MOT20上实现了MOT17的最先进性能和可比较的结果。该代码也可以公开使用。
translated by 谷歌翻译
在本文中,我们研究了波斯语的G2P转换的端到端和多模块框架的应用。结果表明,我们提出的多模型G2P系统在准确性和速度方面优于我们的端到端系统。该系统由发音词典作为我们的查找表组成,以及使用GRU和Transformer架构创建的波斯语中的同符,OOV和EZAFE的单独模型。该系统是序列级别而不是单词级别,它使其能够有效地捕获单词(跨字信息)之间的不成文关系,而无需进行任何预处理,而无需进行任何预歧歧义和EZAFE识别。经过评估后,我们的系统达到了94.48%的单词级准确性,表现优于先前的波斯语G2P系统。
translated by 谷歌翻译
已知DNN容易受到所谓的对抗攻击的攻击,这些攻击操纵输入以引起不正确的结果,这可能对攻击者有益或对受害者造成损害。最近的作品提出了近似计算,作为针对机器学习攻击的防御机制。我们表明,这些方法虽然成功地用于一系列投入,但不足以解决更强大,高信任的对抗性攻击。为了解决这个问题,我们提出了DNNShield,这是一种硬件加速防御,可使响应的强度适应对抗性输入的信心。我们的方法依赖于DNN模型的动态和随机稀疏来有效地实现推理近似值,并通过对近似误差进行细粒度控制。与检测对抗输入相比,DNNShield使用稀疏推理的输出分布特征。当应用于RESNET50时,我们显示出86%的对抗检测率为86%,这超过了最先进的接近状态的检测率,开销较低。我们演示了软件/硬件加速的FPGA原型,该原型降低了DNNShield相对于仅软件CPU和GPU实现的性能影响。
translated by 谷歌翻译
在面部识别领域,一方面猕猴神经生理学与人类电生理学之间存在令人困惑的时序差异。猕猴中的单个单位记录已显示出100毫秒刺激发作以内的外部视觉皮层中的面部身份特定响应。但是,在人类的脑电图和梅格实验中,据报道,与不熟悉和熟悉的面孔相对应的神经活动之间存在一致的区别,大约在250毫秒内出现。这表明可能存在迄今未发现的人类电生理痕迹的面部熟悉感的早期相关性。我们在这里报告了使用模式分类技术在密集的MEG录音中成功搜索这种相关性。我们的分析表明,早在刺激发作后85毫秒内,面部熟悉程度的标记。图像的低级属性(例如亮度和颜色分布)无法解释这种早期新兴响应差异。这些结果有助于调和人类和猕猴的数据,并提供有关熟悉面部感知的神经机制的线索。
translated by 谷歌翻译
对话研究的最终目标是开发可以在交互式设置中有效使用的系统。为此,我们在第9对话系统技术挑战中介绍了对话框的交互式评估。该曲目由两个子任务组成。第一个子任务涉及建立知识接地的响应生成模型。第二个子任务旨在通过与真实用户的交互式设置进行评估,旨在将对话模型扩展到静态数据集之外。我们的曲目挑战参与者开发强大的响应生成模型,并探索将它们扩展到与真实用户的来回互动的策略。从静态语料库到交互式评估的发展引入了独特的挑战,并促进了对开放域对话系统的更全面评估。本文概述了曲目,包括方法和结果。此外,它提供了有关如何最佳评估开放域对话框模型的见解
translated by 谷歌翻译
在许多应用中,人类互动识别非常重要。识别相互作用的一种关键提示是交互式部位。在这项工作中,我们提出了一个新型的交互图形变压器(Igformer)网络,以通过将交互式身体部位建模为图形,以用于基于骨架的交互识别。更具体地说,所提出的Igformer根据交互式身体部位之间的语义和距离相关性构造了相互作用图,并通过基于学习的图来汇总交互式身体部位的信息来增强每个人的表示。此外,我们提出了一个语义分区模块,以将每个人类骨架序列转换为一个身体零件序列,以更好地捕获用于学习图形的骨骼序列的空间和时间信息。在三个基准数据集上进行的广泛实验表明,我们的模型的表现优于最先进的利润率。
translated by 谷歌翻译
随着社交媒体平台上的开放文本数据的最新扩散,在过去几年中,文本的情感检测(ED)受到了更多关注。它有许多应用程序,特别是对于企业和在线服务提供商,情感检测技术可以通过分析客户/用户对产品和服务的感受来帮助他们做出明智的商业决策。在这项研究中,我们介绍了Armanemo,这是一个标记为七个类别的7000多个波斯句子的人类标记的情感数据集。该数据集是从不同资源中收集的,包括Twitter,Instagram和Digikala(伊朗电子商务公司)的评论。标签是基于埃克曼(Ekman)的六种基本情感(愤怒,恐惧,幸福,仇恨,悲伤,奇迹)和另一个类别(其他),以考虑Ekman模型中未包含的任何其他情绪。除数据集外,我们还提供了几种基线模型,用于情绪分类,重点是最新的基于变压器的语言模型。我们的最佳模型在我们的测试数据集中达到了75.39%的宏观平均得分。此外,我们还进行了转移学习实验,以将我们提出的数据集的概括与其他波斯情绪数据集进行比较。这些实验的结果表明,我们的数据集在现有的波斯情绪数据集中具有较高的概括性。 Armanemo可在https://github.com/arman-rayan-sharif/arman-text-emotion上公开使用。
translated by 谷歌翻译
学习表达性分子表示对于促进分子特性的准确预测至关重要。尽管图形神经网络(GNNS)在分子表示学习中取得了显着进步,但它们通常面临诸如邻居探索,不足,过度光滑和过度阵列之类的局限性。同样,由于参数数量大,GNN通常具有较高的计算复杂性。通常,当面对相对大尺寸的图形或使用更深的GNN模型体系结构时,这种限制会出现或增加。克服这些问题的一个想法是将分子图简化为小型,丰富且有益的信息,这更有效,更具挑战性的培训GNN。为此,我们提出了一个新颖的分子图粗化框架,名为FUNQG利用函数组,作为分子的有影响力的构件来确定其性质,基于称为商图的图理论概念。通过实验,我们表明所产生的信息图比分子图小得多,因此是训练GNN的良好候选者。我们将FUNQG应用于流行的分子属性预测基准,然后比较所获得的数据集上的GNN体系结构的性能与原始数据集上的几个最先进的基线。通过实验,除了其参数数量和低计算复杂性的急剧减少之外,该方法除了其急剧减少之外,在各种数据集上的表现显着优于先前的基准。因此,FUNQG可以用作解决分子表示学习问题的简单,成本效益且可靠的方法。
translated by 谷歌翻译