在这项工作中,我们详细描述了深度学习和计算机视觉如何帮助检测AirTender系统的故障事件,AirTender系统是售后摩托车阻尼系统组件。监测飞行员运行的最有效方法之一是在其表面上寻找油污渍。从实时图像开始,首先在摩托车悬架系统中检测到Airtender,然后二进制分类器确定Airtender是否在溢出油。该检测是在YOLO5架构的帮助下进行的,而分类是在适当设计的卷积神经网络油网40的帮助下进行的。为了更清楚地检测油的泄漏,我们用荧光染料稀释了荧光染料,激发波长峰值约为390 nm。然后用合适的紫外线LED照亮飞行员。整个系统是设计低成本检测设置的尝试。船上设备(例如迷你计算机)被放置在悬架系统附近,并连接到全高清摄像头框架架上。板载设备通过我们的神经网络算法,然后能够将AirTender定位并分类为正常功能(非泄漏图像)或异常(泄漏图像)。
translated by 谷歌翻译
与大多数机器学习系统一样,推荐系统通常通过计算在保持数据点上计算的性能指标进行评估。然而,现实世界行为无疑是细微的:必须采用临时错误分析和部署特定的测试,以确保实际部署中所需的质量。在本文中,我们提出了基于行为的测试方法的闭幕式。闭合函数通过使用案例组织推荐系统,并介绍一般的即插即用过程以扩展行为测试。我们通过分析已知的算法和黑匣子商业系统来展示其能力,我们将闭合名称作为开源,为社区的可扩展包发布。
translated by 谷歌翻译
这项工作在拆分计算领域迈出了重大步骤,即如何拆分深神经网络以将其早期部分托管在嵌入式设备上,而其余则在服务器上。到目前为止,已经确定了潜在的分裂位置,以利用独特的建筑方面,即基于层尺寸。在此范式下,只有在执行分裂并重新训练整个管道后,才能评估分裂的疗效,从而对所有合理的分裂点在时间方面进行详尽的评估。在这里,我们表明,不仅层的结构确实很重要,而且其中包含的神经元的重要性也很重要。如果神经元相对于正确的班级决策,神经元很重要。因此,应在具有高密度的重要神经元的层后立即施加拆分,以保留流动的信息。根据这个想法,我们提出了可解释的拆分(i-split):通过提供有关该分型在分类准确性方面的表现,事先对其有效实现的可靠性,以确定最合适的分裂点的过程。作为I-Split的另一个重大贡献,我们表明,多类分类问题的分裂点的最佳选择还取决于网络必须处理的特定类别。详尽的实验已在两个网络(VGG16和Resnet-50)以及三个数据集(Tiny-Imagenet-200,Notmnist和胸部X射线肺炎)上进行。源代码可在https://github.com/vips4/i-split上获得。
translated by 谷歌翻译
尽管在零射门学习(ZSL)方面取得了巨大进展,但大多数现有方法仍然依赖于人类通知的属性,这些属性很难注释和扩展。一个无监督的替代方法是使用与其语义类名称相关的单词嵌入来表示每个类。但是,从预训练的语言模型中提取的单词嵌入不一定会捕获视觉相似性,从而导致零拍的性能差。在这项工作中,我们认为在线文本文档,例如Wikipedia,包含有关对象类的丰富视觉描述,因此可以用作ZSL的强大无监督的侧面信息。为此,我们提出了I2Dformer,这是一种基于变压器的新型ZSL框架,共同学会通过在共享嵌入空间中对齐两个方式来编码图像和文档。为了从嘈杂的文档中提取歧视性的视觉单词,我们介绍了一个新的跨模式注意模块,该模块可以学习图像补丁和文档单词之间的细粒度相互作用。因此,我们的i2dformer不仅学习了捕获视觉相似性的高度歧视文档的嵌入,而且还获得了将视觉相关单词定位在图像区域中的能力。定量地,我们证明我们的i2形式在三个公共数据集上的零照片和广义零局学习设置下都显着优于先前无监督的语义嵌入。定性地,我们表明我们的方法会导致高度可解释的结果,其中文档单词可以基于图像区域。
translated by 谷歌翻译
很少有细粒度的分类和人搜索作为独特的任务和文学作品,已经分别对待了它们。但是,仔细观察揭示了重要的相似之处:这两个任务的目标类别只能由特定的对象细节歧视;相关模型应概括为新类别,而在培训期间看不到。我们提出了一个适用于这两个任务的新型统一查询引导网络(QGN)。QGN由一个查询引导的暹罗引文和兴奋子网组成,该子网还重新进行了所有网络层的查询和画廊功能,一个查询实习的区域建议特定于特定于特定的本地化以及查询指导的相似性子网络子网本网络用于公制学习。QGN在最近的一些少数细颗粒数据集上有所改善,在幼崽上的其他技术优于大幅度。QGN还对人搜索Cuhk-Sysu和PRW数据集进行了竞争性执行,我们在其中进行了深入的分析。
translated by 谷歌翻译
最近,引入了亚图增强图神经网络(SGNN),以增强图形神经网络(GNN)的表达能力,事实证明,该功能不高于一维Weisfeiler-Leman同构测试。新的范式建议使用从输入图中提取的子图提高模型的表现力,但是额外的复杂性加剧了GNNS中本来可以具有挑战性的问题:解释其预测。在这项工作中,我们将PGEXPlainer(GNNS的最新解释者之一)改编为SGNN。拟议的解释器解释了所有不同子图的贡献,并可以产生人类可以解释的有意义的解释。我们在真实和合成数据集上执行的实验表明,我们的框架成功地解释了SGNN在图形分类任务上的决策过程。
translated by 谷歌翻译
纳米四轮驱动器是小的,敏捷且廉价的平台,非常适合在狭窄,混乱的环境中部署。由于其有效载荷有限,这些车辆在处理能力方面受到了高度限制,从而使基于常规视觉的方法具有安全性和自主导航不兼容。最近的机器学习发展有望在低潜伏期处高性能感知,而专用的边缘计算硬件有可能增强这些有限设备的处理能力。在这项工作中,我们提出了Nanoflownet,这是一个轻巧的卷积神经网络,用于实时密集的光流估计,对边缘计算硬件。我们从最新的语义细分方面汲取灵感来设计该网络。此外,我们使用运动边界地面真实数据指导学习光流的学习,从而改善了性能而不会影响延迟。 MPI-SINTEL数据集的验证结果显示,鉴于其受限的体系结构,该网络的高性能。此外,我们通过将其部署在超低功率GAP8微处理器上,并将其应用于BitCraze Crazyflie,这是34 G纳米四轮摩托车的BitCraze Crazyflie,并将其应用于34 G Nano Quadcopter的BitCraze Crazyflie,从而成功地证明了纳米滚子的功能。
translated by 谷歌翻译
时空时间序列的神经预测推动了几个相关应用领域的研究和工业创新。图神经网络(GNN)通常是预测体系结构的核心组成部分。但是,在大多数时空gnns中,计算复杂度比序列时间长度缩放到二次因子,图中链接的数量是图中的链接数,因此阻碍了这些模型在大图和长时间序列中的应用。尽管在静态图的背景下提出了提高可伸缩性的方法,但很少有研究工作专门用于时空情况。为了填补这一空白,我们提出了一个可扩展的体系结构,该体系结构利用了时间和空间动力学的有效编码。特别是,我们使用一个随机的复发神经网络将输入时间序列的历史嵌入到包括多尺度时间动力学的高维状态表示中。然后,使用图形邻接矩阵的不同功率沿空间维度沿空间维度传播,以生成以富含时空特征池的特征的节点嵌入。可以在不监督的方式中有效地预先计算所得的节点嵌入,然后将其馈送到馈送前向解码器,该解码器学会映射多尺度时空表示形式为预测。然后,可以通过对节点的嵌入而无需破坏任何依赖性,从而使训练过程在节点方面并行化,从而可以对大型网络进行可扩展性。相关数据集的经验结果表明,我们的方法可以与最新技术的状态竞争,同时大大减轻了计算负担。
translated by 谷歌翻译
由于全景分割为输入中的每个像素提供了一个预测,因此,非标准和看不见的对象系统地导致了错误的输出。但是,在关键的环境中,针对分发样本的鲁棒性和角案件对于避免危险行为至关重要,例如忽略动物或道路上的货物丢失。由于驾驶数据集不能包含足够的数据点来正确采样基础分布的长尾巴,因此方法必须处理未知和看不见的方案才能安全部署。以前的方法是通过重新识别已经看到未标记的对象来针对此问题的一部分。在这项工作中,我们扩大了提出整体分割的范围:一项任务,以识别和将看不见的对象分为实例,而无需从未知数中学习,同时执行已知类别的全面分割。我们用U3HS解决了这个新问题,U3HS首先将未知数视为高度不确定的区域,然后将相应的实例感知嵌入到各个对象中。通过这样做,这是第一次使用未知对象进行综合分割,我们的U3HS未接受未知数据的训练,因此使对象类型的设置不受限制,并允许对整体场景理解。在两个公共数据集上进行了广泛的实验和比较,即CityScapes和作为转移的丢失和发现,证明了U3HS在挑战性的整体分段任务中的有效性,并具有竞争性的封闭式全盘分段性能。
translated by 谷歌翻译
学习细粒度的运动是机器人技术中最具挑战性的主题之一。这尤其是机器人手。机器人的手语获取或更具体地说,机器人中的手指手语获取可以被视为这种挑战的特定实例。在本文中,我们提出了一种从视频示例中学习灵巧的运动模仿的方法,而无需使用任何其他信息。我们为每个关节构建一个机器人手的乌尔德FF模型。通过利用预先训练的深视力模型,我们从RGB视频中提取手的3D姿势。然后,使用最新的强化学习算法进行运动模仿(即,近端政策优化),我们训练一项政策,以重现从演示中提取的运动。我们确定最佳的超参数集以基于参考运动执行模仿。此外,我们演示了我们的方法能够概括超过6个不同的手指字母的能力。
translated by 谷歌翻译