智能论文笔记

ACLNet: An Attention and Clustering-based Cloud Segmentation Network

Dhruv Makwana , Subhrajit Nag , Onkar Susladkar , Gayatri Deshmukh , Sai Chandra Teja R , Sparsh Mittal , C Krishna Mohan

分类：计算机视觉 | 人工智能

2022-07-13

我们提出了一种名为ACLNET的新型深度学习模型，用于从地面图像中分割云。ACLNET同时使用深神经网络和机器学习（ML）算法来提取互补功能。具体而言，它使用有效网络-B0作为骨干，“``trous tos blacial pyramid boming''（ASPP）在多个接受场上学习，并从图像中提取细节细节。ACLNET还使用K-均值聚类来更精确地提取云边界。ACLNET对白天和夜间图像都有效。它提供的错误率较低，较高的召回率和更高的F1得分比Art最先进的云分割模型。ACLNET的源代码可在此处获得：https：//github.com/ckmvigil/aclnet。

translated by 谷歌翻译

WaferSegClassNet -- A Light-weight Network for Classification and Segmentation of Semiconductor Wafer Defects

Subhrajit Nag , Dhruv Makwana , Sai Chandra Teja R , Sparsh Mittal , C Krishna Mohan

分类：计算机视觉 | 机器学习

2022-07-03

随着半导体晶片的整合密度和设计的复杂性的增加，它们中缺陷的幅度和复杂性也在上升。由于对晶圆缺陷的手动检查是昂贵的，因此高度需要基于自动的人工智能（AI）计算机视觉方法。先前关于缺陷分析的作品具有多个局限性，例如准确性低以及对分类和分割的单独模型的需求。为了分析混合型缺陷，一些以前的作品需要为每种缺陷类型分别训练一个模型，这是不可估计的。在本文中，我们介绍了基于编码器架构的新型网络WafersegClassnet（WSCN）。 WSCN执行单个和混合型晶圆缺陷的同时分类和分割。 WSCN使用“共享编码器”进行分类和细分，允许训练WSCN端到端。我们使用N-PAIR对比度损失首先预处理编码器，然后使用BCE-DICE损失进行分割，并进行分类的分类横向损失。使用N-PAIR对比度损失有助于更好地嵌入晶圆图的潜在维度。 WSCN的模型大小仅为0.51MB，仅执行0.2m的拖鞋。因此，它比其他最先进的型号轻得多。同样，它仅需要150个时期才能收敛，而先前的工作需要4,000个时代。我们在具有38,015张图像的混合WM38数据集上评估了我们的模型。 WSCN的平均分类精度为98.2％，骰子系数为0.9999。我们是第一个在混合WM38数据集上显示分割结果的人。可以从https://github.com/ckmvigil/wafersegclassnet获得源代码。

translated by 谷歌翻译

Post-Processing Temporal Action Detection

Sauradip Nag , Xiatian Zhu , Yi-Zhe Song , Tao Xiang

分类：计算机视觉

2022-11-27

Existing Temporal Action Detection (TAD) methods typically take a pre-processing step in converting an input varying-length video into a fixed-length snippet representation sequence, before temporal boundary estimation and action classification. This pre-processing step would temporally downsample the video, reducing the inference resolution and hampering the detection performance in the original temporal resolution. In essence, this is due to a temporal quantization error introduced during the resolution downsampling and recovery. This could negatively impact the TAD performance, but is largely ignored by existing methods. To address this problem, in this work we introduce a novel model-agnostic post-processing method without model redesign and retraining. Specifically, we model the start and end points of action instances with a Gaussian distribution for enabling temporal boundary inference at a sub-snippet level. We further introduce an efficient Taylor-expansion based approximation, dubbed as Gaussian Approximated Post-processing (GAP). Extensive experiments demonstrate that our GAP can consistently improve a wide variety of pre-trained off-the-shelf TAD models on the challenging ActivityNet (+0.2% -0.7% in average mAP) and THUMOS (+0.2% -0.5% in average mAP) benchmarks. Such performance gains are already significant and highly comparable to those achieved by novel model designs. Also, GAP can be integrated with model training for further performance gain. Importantly, GAP enables lower temporal resolutions for more efficient inference, facilitating low-resource applications. The code will be available in https://github.com/sauradip/GAP

translated by 谷歌翻译

Multi-Modal Few-Shot Temporal Action Detection via Vision-Language Meta-Adaptation

Sauradip Nag , Mengmeng Xu , Xiatian Zhu , Juan-Manuel Perez-Rua , Bernard Ghanem , Yi-Zhe Song , Tao Xiang

分类：计算机视觉 | 人工智能 | 自然语言处理 | 机器学习

2022-11-27

Few-shot (FS) and zero-shot (ZS) learning are two different approaches for scaling temporal action detection (TAD) to new classes. The former adapts a pretrained vision model to a new task represented by as few as a single video per class, whilst the latter requires no training examples by exploiting a semantic description of the new class. In this work, we introduce a new multi-modality few-shot (MMFS) TAD problem, which can be considered as a marriage of FS-TAD and ZS-TAD by leveraging few-shot support videos and new class names jointly. To tackle this problem, we further introduce a novel MUlti-modality PromPt mETa-learning (MUPPET) method. This is enabled by efficiently bridging pretrained vision and language models whilst maximally reusing already learned capacity. Concretely, we construct multi-modal prompts by mapping support videos into the textual token space of a vision-language model using a meta-learned adapter-equipped visual semantics tokenizer. To tackle large intra-class variation, we further design a query feature regulation scheme. Extensive experiments on ActivityNetv1.3 and THUMOS14 demonstrate that our MUPPET outperforms state-of-the-art alternative methods, often by a large margin. We also show that our MUPPET can be easily extended to tackle the few-shot object detection problem and again achieves the state-of-the-art performance on MS-COCO dataset. The code will be available in https://github.com/sauradip/MUPPET

translated by 谷歌翻译

Multi-Agent Exploration of an Unknown Sparse Landmark Complex via Deep Reinforcement Learning

Xiatao Sun , Yuwei Wu , Subhrajit Bhattacharya , Vijay Kumar

分类：机器人

2022-09-23

近年来，地标复合物已成功地用于无定位和无公制的自主探索，并使用一组受GPS污染的环境中的一组感应有限的限制和沟通有限的机器人。为了确保快速而完整的探索，现有的作品对环境中地标的密度和分布做出了假设。这些假设可能过于限制，尤其是在可能被破坏或完全缺失的危险环境中。在本文中，我们首先提出了一个深入的加强学习框架，用于在具有稀疏地标的环境中，同时减少客户服务器交流的环境中的多代理合作探索。通过利用有关部分可观察性和信用分配的最新发展，我们的框架可以为多机器人系统有效地培训勘探政策。该政策从范围和分辨率有限的接近传感器基于近距离传感器的行动中获得个人奖励，该传感器与小组奖励相结合，以鼓励通过观察0-，1-维度和2维的简单来鼓励地标综合体的协作探索和建设。此外，我们采用三阶段的课程学习策略来通过逐渐增加随机障碍并破坏随机地标来减轻奖励稀疏性。模拟中的实验表明，我们的方法在不同环境之间具有稀疏地标的效率中的最先进的地标复杂探索方法。

translated by 谷歌翻译

Large-Scale Product Retrieval with Weakly Supervised Representation Learning

Xiao Han , Kam Woh Ng , Sauradip Nag , Zhiyu Qu

分类：计算机视觉

2022-08-01

大规模弱监督的产品检索是实际上有用但在计算上具有挑战性的问题。本文介绍了在第九届CVPR 2022的第九次透明视觉分类研讨会（FGVC9）举行的eBay视觉搜索挑战赛（Eproduct）的新颖解决方案。这项竞赛提出了两个挑战：（a）电子商务是一个非常好的挑战。 - 包含的领域，包括许多具有细微视觉差异的产品；（b）缺少用于模型训练的目标实例级标签，只有粗糙的类别标签和产品标签可用。为了克服这些障碍，我们通过一系列专用设计制定了强大的解决方案：（a）我们从产品头衔中挖掘了数千个伪属性，而不是直接使用文本培训数据，并将其用作多标签分类的基础真相。（b）我们将几个强大的骨架与高级培训配方结合在一起，以进行更判别的表示。（c）我们进一步介绍了许多后处理技术，包括美白，重新排列和模型集合以进行检索。通过达到71.53％的3月，我们的解决方案“涉及国王”在排行榜上获得了第二个职位。

translated by 谷歌翻译

Zero-Shot Temporal Action Detection via Vision-Language Prompting

Sauradip Nag , Xiatian Zhu , Yi-Zhe Song , Tao Xiang

分类：计算机视觉 | 人工智能 | 自然语言处理

2022-07-17

现有的时间动作检测（TAD）方法依赖于大型培训数据，包括细分级注释，仅限于在推理期间单独识别先前看到的课程。为每类兴趣收集和注释一个大型培训集是昂贵的，因此无法计算。零射TAD（ZS-TAD）通过启用预训练的模型来识别任何看不见的动作类别来解决这一障碍。同时，ZS-TAD的调查大大降低，ZS-Tad也更具挑战性。受零摄像图像分类的成功的启发，我们旨在解决更复杂的TAD任务。一种直观的方法是将现成的建议探测器与剪辑样式分类集成。但是，由于顺序定位（例如，提案生成）和分类设计，它很容易进行定位误差传播。为了克服这个问题，在本文中，我们通过视觉提示（陈旧）提出了一种新型的零射击时间动作检测模型。这种新颖的设计通过破坏介于两者之间的错误传播途径来有效地消除了定位和分类之间的依赖性。我们进一步介绍了分类和定位之间的相互作用机制，以改善优化。对标准ZS-TAD视频基准测试的广泛实验表明，我们的陈旧的表现明显优于最先进的替代方案。此外，我们的模型还与最近的强大竞争对手相比，在受到监督的TAD上还能产生卓越的成果。 Stale的Pytorch实现可从https://github.com/sauradip/stale获得。

translated by 谷歌翻译

Semi-Supervised Temporal Action Detection with Proposal-Free Masking

Sauradip Nag , Xiatian Zhu , Yi-Zhe Song , Tao Xiang

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-14

现有的时间动作检测（TAD）方法依赖于带有细分级注释的大量培训数据。因此，收集和注释这样的训练集非常昂贵且不可计入。半监督的TAD（SS-TAD）通过利用规模自由的未标记视频来减轻此问题。但是，SS-Tad也比有监督的TAD更具挑战性的问题，因此研究得多。先前的SS-TAD方法直接结合了现有的基于建议的TAD方法和SSL方法。由于它们的顺序定位（例如，提案生成）和分类设计，它们很容易出现误差传播。为了克服这一局限性，在这项工作中，我们提出了一种基于无建议的时间掩模（点）的新型半监督时间动作检测模型，并具有平行的定位（掩码生成）和分类体系结构。这种新颖的设计通过切断介于两者之间的错误传播途径来有效地消除了定位和分类之间的依赖性。我们进一步介绍了用于预测细化的分类和本地化之间的交互机制，以及用于自我监督模型预训练的新借口任务。对两个标准基准测试的广泛实验表明，我们的现场表现要优于最先进的替代方案，通常是很大的边距。 pytorch实施现场可在https://github.com/sauradip/spot上获得

translated by 谷歌翻译

Temporal Action Detection with Global Segmentation Mask Learning

Sauradip Nag , Xiatian Zhu , Yi-Zhe Song , Tao Xiang

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-14

现有的时间动作检测（TAD）方法依赖于每个视频产生大量的建议。这导致由于提案生成和/或主张行动实例评估以及最终的高计算成本而导致复杂的模型设计。在这项工作中，我们首次提出了一个带有全局分割掩码（TAG）的无建议的时间动作检测模型。我们的核心想法是以完整的视频长度共同学习每个操作实例的全局细分面具。标签模型与基于常规建议的方法有显着不同，通过关注全球时间表示学习，直接在没有建议的情况下直接检测本地起点和终点的行动点。此外，通过对TAD进行整体建模，而不是在单个建议级别上进行本地建模，标签需要更简单的模型体系结构，计算成本较低。广泛的实验表明，尽管设计更简单，但标签的表现优于现有的TAD方法，在两个基准上实现了新的最新性能。重要的是，训练的速度更快约20倍，推理效率更高。我们的标签的Pytorch实现可在https://github.com/sauradip/tags上获得。

translated by 谷歌翻译

Boosting the interpretability of clinical risk scores with intervention predictions

Eric Loreaux , Ke Yu , Jonas Kemp , Martin Seneviratne , Christina Chen , Subhrajit Roy , Ivan Protsyuk , Natalie Harris , Alexander D'Amour , Steve Yadlowsky

分类：机器学习 | 人工智能

2022-07-06

机器学习系统对通过风险分数预测患者不良事件的预测显示出了巨大的希望。但是，根据培训数据中存在的干预政策，这些风险分数隐含地编码有关患者可能会接受的未来干预措施的假设。没有这种重要的背景，这些系统的预测对于临床医生而言是不太可解释的。我们提出了一种干预政策和不利事件风险的联合模型，以此作为明确传达模型对未来干预措施的假设的一种手段。我们开发了一种关于Mimic-III的干预政策模型，这是一个现实世界中的ICU数据集，并讨论了一些用例突出该方法的实用性。我们展示了将典型的风险评分（例如死亡率的可能性）与未来干预概率分数相结合，从而导致更明显的临床预测。

translated by 谷歌翻译