智能论文笔记

Multi-Agent Path Finding via Tree LSTM

Yuhao Jiang , Kunjie Zhang , Qimai Li , Jiaxin Chen , Xiaolong Zhu

分类：人工智能 | 机器学习

2022-10-24

In recent years, Multi-Agent Path Finding (MAPF) has attracted attention from the fields of both Operations Research (OR) and Reinforcement Learning (RL). However, in the 2021 Flatland3 Challenge, a competition on MAPF, the best RL method scored only 27.9, far less than the best OR method. This paper proposes a new RL solution to Flatland3 Challenge, which scores 125.3, several times higher than the best RL solution before. We creatively apply a novel network architecture, TreeLSTM, to MAPF in our solution. Together with several other RL techniques, including reward shaping, multiple-phase training, and centralized control, our solution is comparable to the top 2-3 OR methods.

translated by 谷歌翻译

IdeaReader: A Machine Reading System for Understanding the Idea Flow of Scientific Publications

Qi Li , Yuyang Ren , Xingli Wang , Luoyi Fu , Jiaxin Ding , Xinde Cao , Xinbing Wang , Chenghu Zhou

分类：自然语言处理

2022-09-27

了解出版物思想的起源和影响对于进行科学研究至关重要。但是，科学出版物的扩散使研究人员难以弄清所有相关文献的演变。为此，我们介绍了Ideareader，这是一种机器阅读系统，发现哪些论文最有可能激发或受到目标出版物的影响，并以自然语言总结了这些论文的想法。具体而言，Ideareader首先将目标出版物的参考和引用（一阶或高阶）和所获得的集群视为激发或受到目标出版物影响的主题。然后，它从每个集群中挑选出重要的论文来提取想法流的骨骼。最后，Ideareader会自动生成对每个主题中重要论文的文献综述。我们的系统可以帮助研究人员深入了解科学思想如何通过自动生成的调查和想法流的可视化来从目标出版物的引用引用。

translated by 谷歌翻译

Label-Only Membership Inference Attack against Node-Level Graph Neural Networks

Mauro Conti , Jiaxin Li , Stjepan Picek , Jing Xu

分类：机器学习

2022-07-27

受卷积神经网络（CNN）启发的图形神经网络（GNN）汇总了节点邻居的信息和结构信息，以获取节点分类，图形分类和链接预测的节点的表达性表示。先前的研究表明，GNN容易受到会员推理攻击（MIA）的攻击，这些攻击（MIAS）推断出节点是否在GNNS的训练数据中，并泄漏了节点的私人信息，例如患者的疾病史。以前的MIA的实现利用了模型的概率输出，如果GNN仅提供输入的预测标签（仅标签），则是不可行的。在本文中，我们在GNNS的柔性预测机制（例如，即使邻居的信息不可用，也可以获得一个节点的预测标签，借助GNNS的灵活预测机制，即使获得一个节点的预测标签，我们提出了针对GNNS的标签MIA。对于大多数数据集和GNN模型，我们的攻击方法实现了曲线（AUC）下60 \％的准确性，精度和区域，其中一些模型比我们在我们的下实施的基于最新概率的MIA具有竞争力甚至更好环境和设置。此外，我们分析了采样方法，模型选择方法和过度拟合水平对仅标签MIA攻击性能的影响。这两个因素都会影响攻击性能。然后，我们考虑有关对手的附加数据集（影子数据集）的假设以及有关目标模型的额外信息的情况。即使在这种情况下，我们仅使用标签的MIA在大多数情况下都能取得更好的攻击性能。最后，我们探讨了可能的防御能力，包括辍学，正则化，归一化和跳跃知识。这四个防御都没有完全阻止我们的攻击。

translated by 谷歌翻译

PVT-COV19D: Pyramid Vision Transformer for COVID-19 Diagnosis

Lilang Zheng , Jiaxuan Fang , Xiaorun Tang , Hanzhang Li , Jiaxin Fan , Tianyi Wang , Rui Zhou , Zhaoyan Yan

分类：计算机视觉

2022-06-30

随着Covid-19的爆发，近年来已经出现了大量相关研究。我们提出了一个基于肺CT扫描图像的自动COVID-19诊断框架，即PVT-COV19D。为了适应图像输入的不同维度，我们首先使用变压器模型对图像进行了分类，然后根据正常分布对数据集中进行采样，并将采样结果馈送到修改的PVTV2模型中以进行训练。COV19-CT-DB数据集上的大量实验证明了该方法的有效性。

translated by 谷歌翻译

SRCN3D: Sparse R-CNN 3D Surround-View Camera Object Detection and Tracking for Autonomous Driving

Yining Shi , Jingyan Shen , Yifan Sun , Yunlong Wang , Jiaxin Li , Shiqi Sun , Kun Jiang , Diange Yang

分类：计算机视觉

2022-06-29

移动对象（DATMO）的检测和跟踪是自动驾驶环境感知的重要组成部分。虽然使用环绕视图摄像机的3D检测器只是蓬勃发展，但越来越多的趋势是使用不同的基于变压器的方法从透视图的2D特征图中学习3D空间中的查询。本文提出了稀疏的R-CNN 3D（SRCN3D），这是一种新颖的两阶段全横向卷积映射管道，用于环绕视图摄像机检测和跟踪。 SRCN3D采用了级联结构，具有固定数量的提案盒和提案潜在功能的双轨更新。预计提案框可以透视视图，以汇总感兴趣的区域（ROI）本地特征。基于此，提案功能通过动态实例交互式头部进行完善，然后生成分类，并应用于原始边界框。与先前的艺术相比，我们的稀疏功能采样模块仅利用本地2D功能来调整每个相应的3D提案盒，从而导致完整的稀疏范式。提案功能和外观特征均在数据关联过程中采用多刺激性3D多对象跟踪方法。 Nuscenes数据集的广泛实验证明了我们提出的SRCN3D检测器和跟踪器的有效性。代码可在https://github.com/synsin0/srcn3d上找到。

translated by 谷歌翻译

GraphQ IR: Unifying the Semantic Parsing of Graph Query Languages with One Intermediate Representation

Lunyiu Nie , Shulin Cao , Jiaxin Shi , Jiuding Sun , Qi Tian , Lei Hou , Juanzi Li , Jidong Zhai

分类：自然语言处理

2022-05-24

Subject to the huge semantic gap between natural and formal languages, neural semantic parsing is typically bottlenecked by its complexity of dealing with both input semantics and output syntax. Recent works have proposed several forms of supplementary supervision but none is generalized across multiple formal languages. This paper proposes a unified intermediate representation (IR) for graph query languages, named GraphQ IR. It has a natural-language-like expression that bridges the semantic gap and formally defined syntax that maintains the graph structure. Therefore, a neural semantic parser can more precisely convert user queries into GraphQ IR, which can be later losslessly compiled into various downstream graph query languages. Extensive experiments on several benchmarks including KQA Pro, Overnight, GrailQA, and MetaQA-Cypher under standard i.i.d., out-of-distribution, and low-resource settings validate GraphQ IR's superiority over the previous state-of-the-arts with a maximum 11% accuracy improvement.

translated by 谷歌翻译

Representation Learning for Compressed Video Action Recognition via Attentive Cross-modal Interaction with Motion Enhancement

Bing Li , Jiaxin Chen , Dongming Zhang , Xiuguo Bao , Di Huang

分类：计算机视觉

2022-05-07

压缩视频动作识别最近引起了人们的注意，因为它通过用稀疏采样的RGB帧和压缩运动提示（例如运动向量和残差）替换原始视频来大大降低存储和计算成本。但是，这项任务严重遭受了粗糙和嘈杂的动力学以及异质RGB和运动方式的融合不足。为了解决上面的两个问题，本文提出了一个新颖的框架，即具有运动增强的细心跨模式相互作用网络（MEACI-NET）。它遵循两流体系结构，即一个用于RGB模式，另一个用于运动模态。特别是，该运动流采用带有denoising模块的多尺度块来增强表示表示。然后，通过引入选择性运动补充（SMC）和跨模式增强（CMA）模块来加强两条流之间的相互作用，其中SMC与时空上的局部局部运动相互补充，CMA和CMA进一步将两种模态与两种模态相结合。选择性功能增强。对UCF-101，HMDB-51和Kinetics-400基准的广泛实验证明了MEACI-NET的有效性和效率。

translated by 谷歌翻译

LiDAR Distillation: Bridging the Beam-Induced Domain Gap for 3D Object Detection

Yi Wei , Zibu Wei , Yongming Rao , Jiaxin Li , Jie Zhou , Jiwen Lu

分类：计算机视觉 | 机器人

2022-03-28

在本文中，我们提出了激光雷达蒸馏，以弥合由不同的激光束引起的3D对象检测的域间隙。在许多现实世界中，大规模生产的机器人和车辆使用的激光点通常比大型公共数据集的光束少。此外，随着LIDARS升级到具有不同光束量的其他产品模型，使用先前版本的高分辨率传感器捕获的标记数据变得具有挑战性。尽管域自适应3D检测最近取得了进展，但大多数方法都难以消除梁诱导的域间隙。我们发现，在训练过程中，必须将源域的点云密度与目标域的点云密度保持一致。受到这一发现的启发，我们提出了一个渐进式框架，以减轻光束诱导的域移位。在每次迭代中，我们首先通过下采样高光束点云来产生低光束伪激光雷达。然后，使用教师学生的框架来将丰富的信息从数据中提取更多的信息。 Waymo，Nuscenes和Kitti数据集的大量实验具有三个不同的基于激光雷达的探测器，这证明了我们激光蒸馏的有效性。值得注意的是，我们的方法不会增加推理的任何额外计算成本。

translated by 谷歌翻译

Joint-training on Symbiosis Networks for Deep Nueral Machine Translation models

Zhengzhe Yu , Jiaxin Guo , Minghan Wang , Daimeng Wei , Hengchao Shang , Zongyao Li , Zhanglin Wu , Yuxia Wang , Yimeng Chen , Chang Su

分类：自然语言处理 | 人工智能

2021-12-22

已被证明在改善神经电机翻译（NMT）系统方面有效的深度编码器，但是当编码器层数超过18时，它达到了翻译质量的上限。更糟糕的是，更深的网络消耗了很多内存，使其无法实现有效地训练。在本文中，我们呈现了共生网络，其包括完整的网络作为共生主网络（M-Net）和另一个具有相同结构的共享子网，但层数较少为共生子网（S-Net）。我们在变压器深度（M-N）架构上采用共生网络，并在NMT中定义M-Net和S-Net之间的特定正则化损耗$ \ mathcal {l} _ {\ tau} $。我们对共生网络进行联合培训，并旨在提高M净性能。我们拟议的培训策略在CMT'14 en-> De，De-> EN和EN-> FR任务的经典培训下将变压器深（12-6）改善了0.61,0.49和0.69 BLEU。此外，我们的变压器深（12-6）甚至优于经典变压器深度（18-6）。

translated by 谷歌翻译

Self-Distillation Mixup Training for Non-autoregressive Neural Machine Translation

Jiaxin Guo , Minghan Wang , Daimeng Wei , Hengchao Shang , Yuxia Wang , Zongyao Li , Zhengzhe Yu , Zhanglin Wu , Yimeng Chen , Chang Su

分类：自然语言处理 | 人工智能

2021-12-22

最近，非自动增加（NAT）模型并行地预测输出，与自回归（AT）模型相比，实现了产生速度的大量改进。在对原始数据上表现更差的同时，大多数NAT模型都被培训为在教师模型生成的蒸馏数据上的学生模型，称为序列级知识蒸馏。提高模型性能的有效培训策略是自蒸馏混合（SDM）培训，预先训练原始数据模型，通过预先训练的模型本身产生蒸馏数据，最后重新列举模型原始数据和蒸馏数据的组合。在这项工作中，我们的目标是查看NAT模型的SDM，但发现直接采用SDM到NAT模型在翻译质量方面没有改进。通过仔细分析，我们观察失效与教师模型与NAT学生模型的建模和确认偏差相关。基于这些发现，我们提出了一种增强的策略，通过向经典SDM添加两个阶段来提高名为SDMRT的策略：一个是在自蒸馏数据上进行预重磅，另一个是对滤波后的教师蒸馏数据进行微调。我们的结果在多个NAT模型上以0.6至1.2 bleu表示基础。作为另一个奖励，对于迭代细化NAT模型，我们的方法可以在半迭代号内倾斜基线，这意味着2x加速度。

translated by 谷歌翻译