智能论文笔记

Adaptive Semantic Communications: Overfitting the Source and Channel for Profit

Jincheng Dai , Sixian Wang , Ke Yang , Kailin Tan , Xiaoqi Qin , Zhongwei Si , Kai Niu , Ping Zhang

分类：机器学习

2022-11-08

Most semantic communication systems leverage deep learning models to provide end-to-end transmission performance surpassing the established source and channel coding approaches. While, so far, research has mainly focused on architecture and model improvements, but such a model trained over a full dataset and ergodic channel responses is unlikely to be optimal for every test instance. Due to limitations on the model capacity and imperfect optimization and generalization, such learned models will be suboptimal especially when the testing data distribution or channel response is different from that in the training phase, as is likely to be the case in practice. To tackle this, in this paper, we propose a novel semantic communication paradigm by leveraging the deep learning model's overfitting property. Our model can for instance be updated after deployment, which can further lead to substantial gains in terms of the transmission rate-distortion (RD) performance. This new system is named adaptive semantic communication (ASC). In our ASC system, the ingredients of wireless transmitted stream include both the semantic representations of source data and the adapted decoder model parameters. Specifically, we take the overfitting concept to the extreme, proposing a series of ingenious methods to adapt the semantic codec or representations to an individual data or channel state instance. The whole ASC system design is formulated as an optimization problem whose goal is to minimize the loss function that is a tripartite tradeoff among the data rate, model rate, and distortion terms. The experiments (including user study) verify the effectiveness and efficiency of our ASC system. Notably, the substantial gain of our overfitted coding paradigm can catalyze semantic communication upgrading to a new era.

translated by 谷歌翻译

Anticipating the Unseen Discrepancy for Vision and Language Navigation

Yujie Lu , Huiliang Zhang , Ping Nie , Weixi Feng , Wenda Xu , Xin Eric Wang , William Yang Wang

分类：计算机视觉 | 自然语言处理

2022-09-10

视觉导航要求代理商遵循自然语言说明以达到特定目标。可见的环境和看不见的环境之间的巨大差异使代理商概括良好的挑战。先前的研究提出了数据增强方法，以明确或隐式地减轻数据偏见并提供概括的改进。但是，他们试图记住增强的轨迹，并在测试时忽略在看不见的环境下的分布变化。在本文中，我们提出了一个看不见的差异，预期视力和语言导航（戴维斯），该差异通过鼓励测试时间的视觉一致性来概括为看不见的环境。具体来说，我们设计了：1）半监督框架戴维斯（Davis），该框架利用类似的语义观测来利用视觉一致性信号。 2）一个两阶段的学习程序，鼓励适应测试时间分布。该框架增强了模仿和强化学习的基本混合物与动量形成对比，以鼓励在联合训练阶段和测试时间适应阶段对类似观察的稳定决策。广泛的实验表明，戴维斯在R2R和RXR基准上实现了与先前最先进的VLN基线相比，取得了模型不合命源性的改进。我们的源代码和数据是补充材料。

translated by 谷歌翻译

Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence

Junjie Wang , Yuxiang Zhang , Lin Zhang , Ping Yang , Xinyu Gao , Ziwei Wu , Xiaoqun Dong , Junqing He , Jianheng Zhuo , Qi Yang

分类：自然语言处理

2022-09-07

如今，基础模型已成为人工智能中的基本基础设施之一，铺平了通往通用情报的方式。但是，现实提出了两个紧急挑战：现有的基础模型由英语社区主导；用户通常会获得有限的资源，因此不能总是使用基础模型。为了支持中文社区的发展，我们介绍了一个名为Fengshenbang的开源项目，该项目由认知计算与自然语言研究中心（CCNL）领导。我们的项目具有全面的功能，包括大型预培训模型，用户友好的API，基准，数据集等。我们将所有这些都包装在三个子项目中：风水次模型，风水框架和狂热基准。 Fengshenbang的开源路线图旨在重新评估中国预培训的大型大型模型的开源社区，促使整个中国大型模型社区的发展。我们还希望构建一个以用户为中心的开源生态系统，以允许个人访问所需的模型以匹配其计算资源。此外，我们邀请公司，大学和研究机构与我们合作建立大型开源模型的生态系统。我们希望这个项目将成为中国认知情报的基础。

translated by 谷歌翻译

DRL Enabled Coverage and Capacity Optimization in STAR-RIS Assisted Networks

Xinyu Gao , Wenqiang Yi , Yuanwei Liu , Jianhua Zhang , Ping Zhang

分类：人工智能

2022-09-01

同时传输和反射可重构的智能表面（星际摩托车）是一种有前途的被动装置，通过同时传输和反映入射信号，从而有助于全空间覆盖。作为无线通信的新范式，如何分析星际轮胎的覆盖范围和能力性能变得至关重要，但具有挑战性。为了解决星际辅助网络中的覆盖范围和容量优化（CCO）问题，提出了多目标近端策略优化（MO-PPO）算法来处理长期利益，而不是传统优化算法。为了在每个目标之间取得平衡，MO-PPO算法提供了一组最佳解决方案，以形成Pareto前部（PF），其中PF上的任何解决方案都被视为最佳结果。此外，研究了为了提高MO-PPO算法的性能，两种更新策略，即基于动作值的更新策略（AVU）和基于损失功能的更新策略（LFUS）。对于AVU，改进的点是整合覆盖范围和容量的动作值，然后更新损失函数。对于LFU，改进的点仅是为覆盖范围和容量损失函数分配动态权重，而权重在每个更新时由最小值求解器计算出来。数值结果表明，调查的更新策略在不同情况下的固定权重优化算法优于MO优化算法，其中包括不同数量的样品网格，星轮的数量，星轮中的元素数量和大小星际船。此外，星际辅助网络比没有星际轮胎的传统无线网络获得更好的性能。此外，具有相同的带宽，毫米波能够提供比低6 GHz更高的容量，但覆盖率较小。

translated by 谷歌翻译

HTML版本

Domain Randomization-Enhanced Depth Simulation and Restoration for Perceiving and Grasping Specular and Transparent Objects

Qiyu Dai , Jiyao Zhang , Qiwei Li , Tianhao Wu , Hao Dong , Ziyuan Liu , Ping Tan , He Wang

分类：计算机视觉

2022-08-07

商业深度传感器通常会产生嘈杂和缺失的深度，尤其是在镜面和透明的对象上，这对下游深度或基于点云的任务构成了关键问题。为了减轻此问题，我们提出了一个强大的RGBD融合网络Swindrnet，以进行深度修复。我们进一步提出了域随机增强深度模拟（DREDS）方法，以使用基于物理的渲染模拟主动的立体声深度系统，并生成一个大规模合成数据集，该数据集包含130k Photorealistic RGB图像以及其模拟深度带有现实主义的传感器。为了评估深度恢复方法，我们还策划了一个现实世界中的数据集，即STD，该数据集捕获了30个混乱的场景，这些场景由50个对象组成，具有不同的材料，从透明，透明，弥漫性。实验表明，提议的DREDS数据集桥接了SIM到实地域间隙，因此，经过训练，我们的Swindrnet可以无缝地概括到其他真实的深度数据集，例如。 ClearGrasp，并以实时速度优于深度恢复的竞争方法。我们进一步表明，我们的深度恢复有效地提高了下游任务的性能，包括类别级别的姿势估计和掌握任务。我们的数据和代码可从https://github.com/pku-epic/dreds获得

translated by 谷歌翻译

Towards No.1 in CLUE Semantic Matching Challenge: Pre-trained Language Model Erlangshen with Propensity-Corrected Loss

Junjie Wang , Yuxiang Zhang , Ping Yang , Ruyi Gan

分类：自然语言处理

2022-08-05

该报告描述了一个预先训练的语言模型Erlangshen，其倾向校正损失是线索语义匹配挑战中的第一名。在预训练阶段，我们基于掩盖语言建模（MLM）的知识构建动态掩盖策略，并具有整个单词掩盖。此外，通过观察数据集的特定结构，预先训练的Erlangshen在微调阶段应用了经倾向校正的损失（PCL）。总体而言，我们在F1得分中获得72.54分，测试集的准确性为78.90分。我们的代码可在以下网址公开获取：https：//github.com/idea-ccnl/fengshenbang-lm/tree/hf-ds/fengshen/examples/clue_sim。

translated by 谷歌翻译

Communication Beyond Transmitting Bits: Semantics-Guided Source and Channel Coding

Jincheng Dai , Ping Zhang , Kai Niu , Sixian Wang , Zhongwei Si , Xiaoqi Qin

分类：人工智能 | 机器学习

2022-08-04

经典的交流范式专注于准确地通过嘈杂的渠道传输位，而香农理论则对可靠通信速率提供了基本的理论限制。在这种方法中，位平均对待，并且通信系统忽略了这些位传达或如何使用的含义。可以预见的是，对智力和简洁性的未来沟通将发挥主导作用，连接的智能代理的扩散需要对编码传输范式进行根本性的重新思考，以支持地平线上的新通信形态。最近的“语义通信”概念提供了有希望的研究方向。将语义指南注入编码传输设计以实现语义感知通信，这表现出了进一步突破性和可靠性的巨大潜力。本文阐明了语义引导的源和频道编码作为语义通信的传输范式，该传输范式可以利用数据语义的多样性和无线通道多样性，以增强整个系统性能。我们介绍一般的系统体系结构和关键技术，并指出有关此主题的一些开放问题。

translated by 谷歌翻译

EgPDE-Net: Building Continuous Neural Networks for Time Series Prediction with Exogenous Variables

Penglei Gao , Xi Yang , Kaizhu Huang , Rui Zhang , Ping Guo , John Y. Goulermas

分类：机器学习

2022-08-03

虽然外源变量对时间序列分析的性能改善有重大影响，但在当前的连续方法中很少考虑这些序列间相关性和时间依赖性。多元时间序列的动力系统可以用复杂的未知偏微分方程（PDE）进行建模，这些方程（PDE）在科学和工程的许多学科中都起着重要作用。在本文中，我们提出了一个任意步骤预测的连续时间模型，以学习多元时间序列中的未知PDE系统，其管理方程是通过自我注意和封闭的复发神经网络参数化的。所提出的模型\下划线{变量及其对目标系列的影响。重要的是，使用特殊设计的正则化指南可以将模型简化为正则化的普通微分方程（ODE）问题，这使得可以触犯的PDE问题以获得数值解决方案，并且可行，以预测目标序列的多个未来值。广泛的实验表明，我们提出的模型可以在强大的基准中实现竞争精度：平均而言，它通过降低RMSE的$ 9.85 \％$和MAE的MAE $ 13.98 \％$的基线表现优于最佳基准，以获得任意步骤预测的MAE $。

translated by 谷歌翻译

Generative Steganography Network

Ping Wei , Sheng Li , Xinpeng Zhang , Ge Luo , Zhenxing Qian , Qing Zhou

分类：计算机视觉

2022-07-28

隐肌通常会将覆盖媒体修改为嵌入秘密数据。最近出现了一种称为生成隐志（GS）的新型隐志方法，其中直接从秘密数据中生成了Stego图像（包含秘密数据的图像），而无需覆盖媒体。但是，现有的GS方案经常因其表现不佳而受到批评。在本文中，我们提出了一个先进的生成隐志网络（GSN），该网络可以在不使用封面图像的情况下生成逼真的Stego图像，其中首先在Stego Image生成中引入了相互信息。我们的模型包含四个子网络，即图像生成器（$ g $），一个歧视器（$ d $），steganalyzer（$ s $）和数据提取器（$ e $）。 $ d $和$ s $充当两个对抗歧视器，以确保生成的Stego图像的视觉和统计不可识别。 $ e $是从生成的Stego图像中提取隐藏的秘密。发电机$ g $灵活地构建以合成具有不同输入的封面或seego图像。它通过隐藏在普通图像发生器中生成seego图像的功能来促进秘密通信。一个名为Secret Block的模块设计用于在图像生成过程中掩盖特征地图中的秘密数据，并实现了高隐藏容量和图像保真度。此外，开发了一种新型的层次梯度衰减技能来抵抗切割分析的检测。实验证明了我们工作比现有方法的优越性。

translated by 谷歌翻译

RenderNet: Visual Relocalization Using Virtual Viewpoints in Large-Scale Indoor Environments

Jiahui Zhang , Shitao Tang , Kejie Qiu , Rui Huang , Chuan Fang , Le Cui , Zilong Dong , Siyu Zhu , Ping Tan

分类：计算机视觉

2022-07-26

在3D视觉中，视觉重新定位已被广泛讨论：鉴于预构建的3D视觉图，估计查询图像的6 DOF（自由度）姿势。大规模室内环境中的重新定位可实现有吸引力的应用程序，例如增强现实和机器人导航。但是，当相机移动时，在这种环境中，外观变化很快，这对于重新定位系统来说是具有挑战性的。为了解决这个问题，我们建议一种基于虚拟视图综合方法Rendernet，以丰富有关此特定情况的数据库和完善姿势。我们选择直接渲染虚拟观点的必要全局和本地特征，而不是渲染需要高质量3D模型的真实图像，并分别将它们应用于后续图像检索和功能匹配操作中。所提出的方法在很大程度上可以改善大规模室内环境中的性能，例如，在INLOC数据集中获得7.1 \％和12.2 \％的改善。

translated by 谷歌翻译