智能论文笔记

An Adaptive Deep RL Method for Non-Stationary Environments with Piecewise Stable Context

Xiaoyu Chen , Xiangming Zhu , Yufeng Zheng , Pushi Zhang , Li Zhao , Wenxue Cheng , Peng Cheng , Yongqiang Xiong , Tao Qin , Jianyu Chen

分类：机器学习

2022-12-24

One of the key challenges in deploying RL to real-world applications is to adapt to variations of unknown environment contexts, such as changing terrains in robotic tasks and fluctuated bandwidth in congestion control. Existing works on adaptation to unknown environment contexts either assume the contexts are the same for the whole episode or assume the context variables are Markovian. However, in many real-world applications, the environment context usually stays stable for a stochastic period and then changes in an abrupt and unpredictable manner within an episode, resulting in a segment structure, which existing works fail to address. To leverage the segment structure of piecewise stable context in real-world applications, in this paper, we propose a \textit{\textbf{Se}gmented \textbf{C}ontext \textbf{B}elief \textbf{A}ugmented \textbf{D}eep~(SeCBAD)} RL method. Our method can jointly infer the belief distribution over latent context with the posterior over segment length and perform more accurate belief context inference with observed data within the current context segment. The inferred belief context can be leveraged to augment the state, leading to a policy that can adapt to abrupt variations in context. We demonstrate empirically that SeCBAD can infer context segment length accurately and outperform existing methods on a toy grid world environment and Mujuco tasks with piecewise-stable context.

translated by 谷歌翻译

EndoBoost: a plug-and-play module for false positive suppression during computer-aided polyp detection in real-world colonoscopy (with dataset)

Haoran Wang , Yan Zhu , Wenzheng Qin , Yizhe Zhang , Pinghong Zhou , Quanlin Li , Shuo Wang , Zhijian Song

分类：计算机视觉 | 人工智能

2022-12-23

The advance of computer-aided detection systems using deep learning opened a new scope in endoscopic image analysis. However, the learning-based models developed on closed datasets are susceptible to unknown anomalies in complex clinical environments. In particular, the high false positive rate of polyp detection remains a major challenge in clinical practice. In this work, we release the FPPD-13 dataset, which provides a taxonomy and real-world cases of typical false positives during computer-aided polyp detection in real-world colonoscopy. We further propose a post-hoc module EndoBoost, which can be plugged into generic polyp detection models to filter out false positive predictions. This is realized by generative learning of the polyp manifold with normalizing flows and rejecting false positives through density estimation. Compared to supervised classification, this anomaly detection paradigm achieves better data efficiency and robustness in open-world settings. Extensive experiments demonstrate a promising false positive suppression in both retrospective and prospective validation. In addition, the released dataset can be used to perform 'stress' tests on established detection systems and encourages further research toward robust and reliable computer-aided endoscopic image analysis. The dataset and code will be publicly available at http://endoboost.miccai.cloud.

translated by 谷歌翻译

COLO: A Contrastive Learning based Re-ranking Framework for One-Stage Summarization

Chenxin An , Ming Zhong , Zhiyong Wu , Qin Zhu , Xuanjing Huang , Xipeng Qiu

分类：自然语言处理

2022-09-29

用于提取和抽象性摘要系统的传统培训范例始终仅使用令牌级别或句子级培训目标。但是，始终从摘要级别评估输出摘要，从而导致培训和评估的不一致。在本文中，我们提出了一个基于对比度学习的重新排列框架，用于一阶段的摘要，称为COLO。通过建模对比目标，我们表明摘要模型能够根据摘要级别的分数直接生成摘要，而无需其他模块和参数。广泛的实验表明，CORO在CNN/DailyMail基准测试中提高了单阶段系统的提取和抽象结果，将其提高到44.58和46.33 Rouge-1得分，同时保留了参数效率和推断效率。与最先进的多阶段系统相比，我们节省了100多个GPU训练时间，并在推理期间获得3〜8加速比，同时保持可比的结果。

translated by 谷歌翻译

A Validation Approach to Over-parameterized Matrix and Image Recovery

Lijun Ding , Zhen Qin , Liwei Jiang , Jinxin Zhou , Zhihui Zhu

分类：机器学习 | (统计)机器学习

2022-09-21

在本文中，我们研究了从许多嘈杂的随机线性测量值中恢复低级别基质的问题。我们考虑以下设置的设置，即基地矩阵的等级是未知的，并使用矩阵变量的过度指定的分组表示，其中全局最佳解决方案过拟合，并且与基础基础真相不符。然后，我们使用梯度下降和小的随机初始化解决了相关的非凸问题。我们表明，只要测量运算符能够满足受限的等轴测特性（RIP），其等级参数缩放具有地面真相矩阵等级，而不是使用过度指定的矩阵变量进行缩放，那么梯度下降迭代就会在特定的轨迹上朝向地面。 - 正确矩阵并在适当停止时获得了几乎信息理论上的最佳恢复。然后，我们提出了一种基于共同持有方法的有效的早期停止策略，并表明它可以检测到几乎最佳的估计量。此外，实验表明，所提出的验证方法也可以有效地用于图像恢复，并具有深层图像先验，从而使图像过度参与了深层网络。

translated by 谷歌翻译

Bit Allocation using Optimization

Tongda Xu , Han Gao , Chenjian Gao , Jinyong Pi , Yanghao Li , Yuanyuan Wang , Ziyu Zhu , Dailan He , Mao Ye , Hongwei Qin

分类：计算机视觉

2022-09-20

在本文中，我们考虑了神经视频压缩（NVC）中位分配的问题。由于帧参考结构，使用相同的R-D（速率）权衡参数$ \ lambda $的当前NVC方法是次优的，这带来了位分配的需求。与以前基于启发式和经验R-D模型的方法不同，我们建议通过基于梯度的优化解决此问题。具体而言，我们首先提出了一种基于半损坏的变异推理（SAVI）的连续位实现方法。然后，我们通过更改SAVI目标，使用迭代优化提出了一个像素级隐式分配方法。此外，我们基于NVC的可区分特征得出了精确的R-D模型。我们通过使用精确的R-D模型证明其等效性与位分配的等效性来展示我们的方法的最佳性。实验结果表明，我们的方法显着改善了NVC方法，并且胜过现有的位分配方法。我们的方法是所有可区分NVC方法的插件，并且可以直接在现有的预训练模型上采用。

translated by 谷歌翻译

CAMO-MOT: Combined Appearance-Motion Optimization for 3D Multi-Object Tracking with Camera-LiDAR Fusion

Li Wang , Xinyu Zhang , Wenyuan Qin , Xiaoyu Li , Lei Yang , Zhiwei Li , Lei Zhu , Hong Wang , Jun Li , Huaping Liu

分类：计算机视觉

2022-09-06

3D多对象跟踪（MOT）确保在连续动态检测过程中保持一致性，有利于自动驾驶中随后的运动计划和导航任务。但是，基于摄像头的方法在闭塞情况下受到影响，准确跟踪基于激光雷达的方法的对象的不规则运动可能是具有挑战性的。某些融合方法效果很好，但不认为在遮挡下出现外观特征的不可信问题。同时，错误检测问题也显着影响跟踪。因此，我们根据组合的外观运动优化（Camo-Mot）提出了一种新颖的相机融合3D MOT框架，该框架使用相机和激光镜数据，并大大减少了由遮挡和错误检测引起的跟踪故障。对于遮挡问题，我们是第一个提出遮挡头来有效地选择最佳对象外观的人，从而减少了闭塞的影响。为了减少错误检测在跟踪中的影响，我们根据置信得分设计一个运动成本矩阵，从而提高了3D空间中的定位和对象预测准确性。由于现有的多目标跟踪方法仅考虑一个类别，因此我们还建议建立多类损失，以在多类别场景中实现多目标跟踪。在Kitti和Nuscenes跟踪基准测试上进行了一系列验证实验。我们提出的方法在KITTI测试数据集上的所有多模式MOT方法中实现了最先进的性能和最低的身份开关（IDS）值（CAR为23，行人为137）。并且我们提出的方法在Nuscenes测试数据集上以75.3％的AMOTA进行了所有算法中的最新性能。

translated by 谷歌翻译

AIM 2022 Challenge on Super-Resolution of Compressed Image and Video: Dataset, Methods and Results

Ren Yang , Radu Timofte , Xin Li , Qi Zhang , Lin Zhang , Fanglong Liu , Dongliang He , Fu li , He Zheng , Weihang Yuan

分类：计算机视觉

2022-08-23

本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率，轨迹〜2靶向压缩视频的超分辨率。在轨道1中，我们使用流行的数据集DIV2K作为培训，验证和测试集。在轨道2中，我们提出了LDV 3.0数据集，其中包含365个视频，包括LDV 2.0数据集（335个视频）和30个其他视频。在这一挑战中，有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。

translated by 谷歌翻译

CSDN: Cross-modal Shape-transfer Dual-refinement Network for Point Cloud Completion

Zhe Zhu , Liangliang Nan , Haoran Xie , Honghua Chen , Mingqiang Wei , Jun Wang , Jing Qin

分类：计算机视觉

2022-08-01

您将如何通过一些错过来修复物理物体？您可能会想象它的原始形状从先前捕获的图像中，首先恢复其整体（全局）但粗大的形状，然后完善其本地细节。我们有动力模仿物理维修程序以解决点云完成。为此，我们提出了一个跨模式的形状转移双转化网络（称为CSDN），这是一种带有全循环参与图像的粗到精细范式，以完成优质的点云完成。 CSDN主要由“ Shape Fusion”和“ Dual-Refinect”模块组成，以应对跨模式挑战。第一个模块将固有的形状特性从单个图像传输，以指导点云缺失区域的几何形状生成，在其中，我们建议iPadain嵌入图像的全局特征和部分点云的完成。第二个模块通过调整生成点的位置来完善粗糙输出，其中本地改进单元通过图卷积利用了小说和输入点之间的几何关系，而全局约束单元则利用输入图像来微调生成的偏移。与大多数现有方法不同，CSDN不仅探讨了图像中的互补信息，而且还可以在整个粗到精细的完成过程中有效利用跨模式数据。实验结果表明，CSDN对十个跨模式基准的竞争对手表现出色。

translated by 谷歌翻译

Error Analysis of Tensor-Train Cross Approximation

Zhen Qin , Alexander Lidiak , Zhexuan Gong , Gongguo Tang , Michael B. Wakin , Zhihui Zhu

分类：机器学习

2022-07-09

张量火车的分解因其高维张量的简洁表示，因此在机器学习和量子物理学中广泛使用，克服了维度的诅咒。交叉近似 - 从近似形式开发用于从一组选定的行和列中表示矩阵，这是一种有效的方法，用于构建来自其少数条目的张量的张量列器分解。虽然张量列车交叉近似在实际应用中取得了显着的性能，但迄今为止缺乏其理论分析，尤其是在近似误差方面的理论分析。据我们所知，现有结果仅提供元素近似精度的保证，这会导致扩展到整个张量时的束缚非常松。在本文中，我们通过提供精确测量和嘈杂测量的整个张量来保证准确性来弥合这一差距。我们的结果说明了选定子观察器的选择如何影响交叉近似的质量，并且模型误差和/或测量误差引起的近似误差可能不会随着张量的顺序而指数增长。这些结果通过数值实验来验证，并且可能对高阶张量的交叉近似值（例如在量子多体状态的描述中遇到的）具有重要意义。

translated by 谷歌翻译

VEM$^2$L: A Plug-and-play Framework for Fusing Text and Structure Knowledge on Sparse Knowledge Graph Completion

Tao He , Tianwen Jiang , Zihao Zheng , Haichao Zhu , Jingrun Zhang , Ming Liu , Sendong Zhao , Bin Qin

分类：自然语言处理

2022-07-04

知识图完成最近已广泛研究，以通过主要建模图结构特征来完成三元组中的缺失元素，但对图形结构的稀疏性敏感。期望解决这一挑战的相关文本，例如实体名称和描述，充当知识图（kgs）的另一种表达形式（kgs）。已经提出了几种使用两个编码器的结构和文本消息的方法，但由于未能平衡它们之间的权重有限。并在推理期间保留结构和文本编码器，也遭受了沉重的参数。通过知识蒸馏的激励，我们将知识视为从输入到输出概率的映射，并在稀疏的kgs上提出了一个插件框架VEM2L，以将从文本和结构消息提取到统一的知识中融合知识。具体而言，我们将模型获取的知识分配为两个不重叠的部分：一个部分与训练三元组合的合适能力有关，可以通过激励两个编码者互相学习训练集来融合。另一个反映了未观察到的查询的概括能力。相应地，我们提出了一种新的融合策略，该策略由变量EM算法证明，以融合模型的概括能力，在此期间，我们还应用图形致密操作以进一步缓解稀疏的图形问题。通过结合这两种融合方法，我们最终提出了VEM2L框架。详细的理论证据以及定量和定性实验都证明了我们提出的框架的有效性和效率。

translated by 谷歌翻译