智能论文笔记

Rethinking Out-of-Distribution Detection From a Human-Centric Perspective

Yao Zhu , Yuefeng Chen , Xiaodan Li , Rong Zhang , Hui Xue , Xiang Tian , Rongxin Jiang , Bolun Zheng , Yaowu Chen

分类：计算机视觉

2022-11-30

Out-Of-Distribution (OOD) detection has received broad attention over the years, aiming to ensure the reliability and safety of deep neural networks (DNNs) in real-world scenarios by rejecting incorrect predictions. However, we notice a discrepancy between the conventional evaluation vs. the essential purpose of OOD detection. On the one hand, the conventional evaluation exclusively considers risks caused by label-space distribution shifts while ignoring the risks from input-space distribution shifts. On the other hand, the conventional evaluation reward detection methods for not rejecting the misclassified image in the validation dataset. However, the misclassified image can also cause risks and should be rejected. We appeal to rethink OOD detection from a human-centric perspective, that a proper detection method should reject the case that the deep model's prediction mismatches the human expectations and adopt the case that the deep model's prediction meets the human expectations. We propose a human-centric evaluation and conduct extensive experiments on 45 classifiers and 8 test datasets. We find that the simple baseline OOD detection method can achieve comparable and even better performance than the recently proposed methods, which means that the development in OOD detection in the past years may be overestimated. Additionally, our experiments demonstrate that model selection is non-trivial for OOD detection and should be considered as an integral of the proposed method, which differs from the claim in existing works that proposed methods are universal across different models.

translated by 谷歌翻译

Cyclegan Network for Sheet Metal Welding Drawing Translation

Zhiwei Song , Hui Yao , Dan Tian , Gaohui Zhan

分类：计算机视觉 | 机器学习

2022-09-28

在智能制造中，机器翻译工程图的质量将直接影响其制造精度。目前，大多数工作都是手动翻译的，大大降低了生产效率。本文提出了一种基于环状生成对抗网络（Cyclegan）的焊接结构工程图的自动翻译方法。不成对转移学习的Cyclegan网络模型用于学习真实焊接工程图的功能映射，以实现工程图的自动翻译。 U-NET和PatchGAN分别是生成器和鉴别器的主要网络。基于删除身份映射函数，提出了一个高维稀疏网络，以取代传统的密集网络以改善噪声稳健性。增加残留块隐藏层以增加生成图的分辨率。改进和微调的网络模型经过实验验证，计算实际数据和生成数据之间的差距。它符合焊接工程精度标准，并解决了焊接制造过程中低绘图识别效率的主要问题。结果显示。在我们的模型训练之后，焊接工程图的PSNR，SSIM和MSE分别达到44.89％，99.58％和2.11，它们在训练速度和准确性方面都优于传统网络。

translated by 谷歌翻译

CSSAM: U-net Network for Application and Segmentation of Welding Engineering Drawings

Zhiwei Song , Hui Yao , Dan Tian , GaoHui Zhan

分类：计算机视觉 | 机器学习

2022-09-28

重型设备制造将特定的轮廓分解为图纸，并切割钣金以缩放焊接。当前，手动实现了焊接图轮廓的大多数分割和提取。它的效率大大降低了。因此，我们提出了一种基于U-NET的轮廓分割和用于焊接工程图的提取方法。工程图纸所需的零件的轮廓可以自动划分和清空，从而大大提高了制造效率。 U-NET包括一个编码器，该编码器通过语义差异和编码器和解码器之间的空间位置特征信息实现端到端映射。尽管U-NET擅长于细分医学图像，但我们在焊接结构图数据集上进行的广泛实验表明，经典的U-NET体系结构在细分焊接工程图纸方面缺乏。因此，我们设计了一种新型的通道空间序列注意模块（CSSAM），并在经典的U-NET上进行改进。同时，提出了垂直最大池和平均水平池。通过两个相等的卷积将池操作传递到CSSAM模块中。汇总之前的输出和功能通过语义聚类融合在一起，它取代了传统的跳跃结构，并有效地缩小了编码器和解码器之间的语义差距，从而改善了焊接工程图的分割性能。我们使用VGG16作为骨干网络。与经典的U-NET相比，我们的网络在工程绘图数据集细分方面具有良好的性能。

translated by 谷歌翻译

Searching a High-Performance Feature Extractor for Text Recognition Network

Hui Zhang , Quanming Yao , James T. Kwok , Xiang Bai

分类：计算机视觉 | 人工智能

2022-09-27

功能提取器在文本识别（TR）中起着至关重要的作用，但是由于昂贵的手动调整，自定义其体系结构的探索相对较少。在这项工作中，受神经体系结构搜索（NAS）的成功启发，我们建议搜索合适的功能提取器。我们通过探索具有良好功能提取器的原理来设计特定于域的搜索空间。该空间包括用于空间模型的3D结构空间和顺序模型的基于转换的空间。由于该空间是巨大且结构复杂的，因此无法应用现有的NAS算法。我们提出了一种两阶段算法，以有效地在空间中进行搜索。在第一阶段，我们将空间切成几个块，并借助辅助头逐步训练每个块。我们将延迟约束引入第二阶段，并通过自然梯度下降从受过训练的超级网络搜索子网络。在实验中，进行了一系列消融研究，以更好地了解设计的空间，搜索算法和搜索架构。我们还将所提出的方法与手写和场景TR任务上的各种最新方法进行了比较。广泛的结果表明，我们的方法可以以较小的延迟获得更好的识别性能。

translated by 谷歌翻译

Enhance the Visual Representation via Discrete Adversarial Training

Xiaofeng Mao , Yuefeng Chen , Ranjie Duan , Yao Zhu , Gege Qi , Shaokai Ye , Xiaodan Li , Rong Zhang , Hui Xue

分类：计算机视觉

2022-09-16

对抗性训练（AT）通常被认为是防御对抗性例子的最有效的方法之一，可能会在很大程度上损害标准绩效，因此对工业规模的生产和应用的有用性有限。令人惊讶的是，这种现象在自然语言处理（NLP）任务中完全相反，在该任务中甚至可以从中受益。我们注意到NLP任务中AT的优点可能来自离散和符号输入空间。为了借用NLP风格的优势，我们提出了离散的对抗训练（DAT）。 DAT利用VQGAN改革图像数据以离散类似文本的输入，即视觉单词。然后，它可以最大程度地减少这种离散图像的最大风险，并具有符号对抗扰动。我们从分布的角度进一步提供了解释，以证明DAT的有效性。作为增强视觉表示的插件技术，DAT可以在多个任务上取得重大改进，包括图像分类，对象检测和自我监督学习。尤其是，该模型通过胶带自动编码（MAE）预先训练并由我们的DAT进行微调，而没有额外的数据可以在Imagenet-C上获得31.40 MCE，并且在Stylized-Imagenet上进行了32.77％的TOP-1准确性，建立了新的状态 - 艺术。该代码将在https://github.com/alibaba/easyrobust上找到。

translated by 谷歌翻译

Latent Heterogeneous Graph Network for Incomplete Multi-View Learning

Pengfei Zhu , Xinjie Yao , Yu Wang , Meng Cao , Binyuan Hui , Shuai Zhao , Qinghua Hu

分类：机器学习 | 计算机视觉

2022-08-29

近年来，多视图学习迅速发展。尽管许多先前的研究都认为每个实例都出现在所有视图中，但在现实世界应用程序中很常见，从某些视图中丢失实例，从而导致多视图数据不完整。为了解决这个问题，我们提出了一个新型潜在的异质图网络（LHGN），以实现不完整的多视图学习，该学习旨在以灵活的方式尽可能充分地使用多个不完整的视图。通过学习统一的潜在代表，隐含地实现了不同观点之间一致性和互补性之间的权衡。为了探索样本与潜在表示之间的复杂关系，首次提出了邻域约束和视图约束，以构建异质图。最后，为了避免训练和测试阶段之间的任何不一致之处，基于图形学习的分类任务应用了转导学习技术。对现实世界数据集的广泛实验结果证明了我们模型对现有最新方法的有效性。

translated by 谷歌翻译

RuDi: Explaining Behavior Sequence Models by Automatic Statistics Generation and Rule Distillation

Yao Zhang , Yun Xiong , Yiheng Sun , Caihua Shan , Tian Lu , Hui Song , Yangyong Zhu

分类：机器学习 | 人工智能

2022-08-12

风险评分系统已被广泛地部署在许多应用程序中，这些应用程序根据用户的行为序列将风险分数分配给了。尽管许多具有复杂设计的深度学习方法已经取得了令人鼓舞的结果，但由于公平，解释性和合规性考虑，黑框的性质阻碍了他们的应用。在这些敏感情况下，基于规则的系统被认为是可靠的。但是，构建规则系统是劳动密集型的。专家需要从用户行为序列，基于统计数据的设计规则中找到信息统计信息，并为每个规则分配权重。在本文中，我们弥合了有效但黑色框模型与透明规则模型之间的差距。我们提出了一种两阶段的方法Rudi，该方法将黑框教师模型的知识提炼成基于规则的学生模型。我们设计了一种基于蒙特卡洛树搜索的统计生成方法，该方法可以在第一阶段提供一组信息统计信息。然后，通过模仿教师模型的输出，将统计数据与我们提出的神经逻辑网络组成逻辑规则。我们在三个现实世界公共数据集和一个工业数据集上评估了Rudi，以证明其有效性。

translated by 谷歌翻译

Entropy-driven Sampling and Training Scheme for Conditional Diffusion Generation

Shengming Li , Guangcong Zheng , Hui Wang , Taiping Yao , Yang Chen , Shoudong Ding , Xi Li

分类：计算机视觉

2022-06-23

denoisis扩散概率模型（DDPM）能够通过引入独立的噪声吸引分类器来在每次deosoing过程的时间步骤中提供条件梯度指导，从而使有条件的图像从先前的噪声到真实数据。但是，由于分类器能够轻松地区分不完全生成的图像仅具有高级结构的能力，因此梯度是一种类信息指导，倾向于尽早消失，导致从条件生成过程中崩溃到无条件过程。为了解决这个问题，我们从两个角度提出了两种简单但有效的方法。对于抽样程序，我们将预测分布的熵作为指导消失水平的度量，并提出一种熵感知的缩放方法，以适应性地恢复条件语义指导。每个生成样品的％。对于训练阶段，我们提出了熵吸引的优化目标，以减轻噪音数据的过度自信预测。在Imagenet1000 256x256中，我们提出的采样方案和训练有素的分类器（预训练的条件和无条件的DDPM模型可以实现10.89％（4.59至4.59至4.09））和43.5％（12至6.78）FID改善。

translated by 谷歌翻译

Automorphic Equivalence-aware Graph Neural Network

Fengli Xu , Quanming Yao , Pan Hui , Yong Li

分类：机器学习 | 人工智能

2020-11-09

区分图表中节点的自同质等效在许多科学域中起重要作用，例如计算生物学家和社会网络分析。然而，现有的图形神经网络（GNNS）无法捕获如此重要的财产。为了使GNN意识到同类同性量，我们首先介绍这个概念的本地化变体 - 以自我为中心的自动形态等价（EGO-AE）。然后，我们设计了一种GNN的新型变体，即葡萄，它使用可知的AE感知的聚合器明确地将每个节点邻居的EGO-AE与各种子图模板的辅助装置分辨。虽然子图模板的设计可能很难，但我们进一步提出了一种遗传算法来自动从图数据中搜索它们。此外，我们理论上证明，就具有不同EGO-AE特征的节点的不同表示，葡萄是表达的，其填充了现有GNN变体的基本差距。最后，我们经验验证了我们的八个真实图表数据的模型，包括社交网络，电子商务共同购买网络和引文网络，并表明它一直以现有的GNN达成胜过。源代码是在https://github.com/tsinghua-fib-lab/grape上获得的公开。

translated by 谷歌翻译

Semi-Structured Object Sequence Encoders

Rudra Murthy V , Riyaz Bhat , Chulaka Gunasekara , Hui Wan , Tejas Indulal Dhamecha , Danish Contractor , Marina Danilevsky

分类：计算机视觉 | 人工智能 | 自然语言处理

2023-01-03

In this paper we explore the task of modeling (semi) structured object sequences; in particular we focus our attention on the problem of developing a structure-aware input representation for such sequences. In such sequences, we assume that each structured object is represented by a set of key-value pairs which encode the attributes of the structured object. Given a universe of keys, a sequence of structured objects can then be viewed as an evolution of the values for each key, over time. We encode and construct a sequential representation using the values for a particular key (Temporal Value Modeling - TVM) and then self-attend over the set of key-conditioned value sequences to a create a representation of the structured object sequence (Key Aggregation - KA). We pre-train and fine-tune the two components independently and present an innovative training schedule that interleaves the training of both modules with shared attention heads. We find that this iterative two part-training results in better performance than a unified network with hierarchical encoding as well as over, other methods that use a {\em record-view} representation of the sequence \cite{de2021transformers4rec} or a simple {\em flattened} representation of the sequence. We conduct experiments using real-world data to demonstrate the advantage of interleaving TVM-KA on multiple tasks and detailed ablation studies motivating our modeling choices. We find that our approach performs better than flattening sequence objects and also allows us to operate on significantly larger sequences than existing methods.

translated by 谷歌翻译