随着自然语言处理的快速发展,信息的最新进展隐藏在秘密地嵌入秘密信息中。这些算法要么修改给定的封面文本,要么直接生成包含秘密信息的文本,但是,该文本并非可逆,这意味着除非预先共享许多侧面信息,否则无法完美地恢复原始文本。为了解决这个问题,在本文中,我们提出了一个通用框架,将秘密信息嵌入给定的封面文本中,为此,可以从标记的文本中完美地检索到嵌入式信息和原始封面文本。提出方法的主要思想是使用蒙版的语言模型来生成如此明显的文本,以至于可以通过收集某些位置的单词来重建封面文本,并且可以处理其他位置的单词来提取秘密信息。我们的结果表明,原始封面文本和秘密信息可以成功地嵌入和提取。同时,带有秘密信息的标记文本具有良好的流利性和语义质量,表明所提出的方法具有令人满意的安全性,这已通过实验结果验证。此外,不需要数据HIDER和数据接收器共享语言模型,从而大大降低了侧面信息,因此在应用程序中具有良好的潜力。
translated by 谷歌翻译
我们介绍了一种新型的格式转换加密,其中密文的格式隐含在机器学习的生成模型中。在这个原始的周围,我们构建了一个用于大型公共互联网平台(例如Twitter)上的秘密消息传递的系统。宽松地,我们的系统构成了经过身份验证的加密方案,一种方法是将随机密文钻头编码为生成模型的种子索引令牌分布的样品中的样品。通过修复部署方案,我们被迫考虑系统级和算法解决方案,以应对真正的挑战 - 例如接收者端解析的歧义,以及实际的代币发行的低信息携带能力〜-先前的工作。我们将GPT-2用作生成模型,以便我们的系统加密将明文Bitsring转换为适合发布公共平台的自然语言封面。我们考虑了对互联网平台内容的全面视图的对手,其目标是表面使用我们的系统进行秘密消息传递的帖子。我们进行了一套实验,以提供安全性证据,并探索运营效率和可检测性之间的权衡。
translated by 谷歌翻译
深度神经网络(DNNS)已经在许多应用领域取得了巨大的成功,并为我们的社会带来了深刻的变化。但是,它也引发了新的安全问题,其中如何保护DNN的知识产权(IP)免受侵权的侵权是最重要但最具挑战性的主题之一。为了解决这个问题,最近的研究通过应用数字水印来关注DNN的IP保护,该水印将通过直接或间接调整网络参数将源信息和/或身份验证数据嵌入DNN模型中。但是,调整网络参数不可避免地会扭曲DNN,因此无疑会损害DNN模型在其最初任务上的性能,而不管性能降解的程度如何。它激发了本文中的作者提出一种称为\ emph {汇总会员推理(PMI)}的新技术,以保护DNN模型的IP。提出的PMI既没有改变给定DNN模型的网络参数,也没有用一系列精心制作的触发样品来微调DNN模型。取而代之的是,它使原始的DNN模型保持不变,但是可以通过推断出多个迷你数据集中的哪个迷你数据箱来确定DNN模型的所有权。实践。实验还证明了这项工作的优势和适用性。
translated by 谷歌翻译
数字图像水印寻求保护数字媒体信息免受未经授权的访问,其中消息被嵌入到数字图像中并从中提取,甚至在各种数据处理下应用一些噪声或失真,包括有损图像压缩和交互式内容编辑。在用一些事先约束时,传统图像水印解决方案容易受到鲁棒性,而最近的基于深度学习的水印方法无法在特征编码器和解码器的各种单独管道下进行良好的信息丢失问题。在本文中,我们提出了一种新的数字图像水印解决方案,具有一个小巧的神经网络,名为可逆的水印网络(IWN)。我们的IWN架构基于单个可逆的神经网络(INN),这种双翼飞变传播框架使我们能够通过将它们作为彼此的一对逆问题同时解决信息嵌入和提取的挑战,并学习稳定的可逆性映射。为了增强我们的水印解决方案的稳健性,我们具体地引入了一个简单但有效的位消息归一化模块,以冷凝要嵌入的位消息,并且噪声层旨在模拟我们的iWN框架下的各种实际攻击。广泛的实验表明了我们在各种扭曲下的解决方案的优越性。
translated by 谷歌翻译
人类或语言模型创建的文本内容通常被对手被盗或滥用。跟踪文本出处可以帮助索取文本内容的所有权,或者标识分发误导内容的恶意用户,如机器生成的假新闻。有一些尝试实现这一目标,主要基于水印技术。具体而言,传统文本水印方法通过略微改变文本格式,如线间距和字体略微改变,但是,这是易碎的跨媒体传输,如OCR。考虑到这一点,自然语言水印方法通过用手工杂志资源(例如Wordnet)的同义词替换原始句子中的单词来代表水印,但他们不考虑替换对整体句子的意义的影响。最近,提出了一种基于变换器的网络来通过修改不引人注意的单词(例如,功能词)来嵌入水印,这也损害了句子的逻辑和语义连贯性。此外,一个训练有素的网络在其他不同类型的文本内容上都会失败。为了解决上述限制,我们提出了一种基于背景感知词汇替代(LS)的自然语言水印方案。具体而言,我们使用BERT来推断候选人与原句与原始句子之间的语义相关性建议LS候选。基于此,进一步设计了在同步性和替代性方面的选择策略,以测试一个单词是否完全适合于携带水印信号。广泛的实验表明,在客观和主观度量下,我们的水印方案可以很好地保持原始句子的语义完整性,并且具有比现有方法更好的可转换性。此外,拟议的LS方法优于斯坦福词语替代基准测试的最先进的方法。
translated by 谷歌翻译
运动向量(MV)的局部最优性是视频编码中的内在属性,并且对MV的任何修改都将不可避免地破坏这种最优性,使其成为MV域中的隐写术的敏感指标。因此,局部最优态通常用于设计落体特征,并且局部最优性的估计已成为视频隐星分析的首要任务。然而,现有工程中的局部最优性通常是不准确的或使用不合理的假设估计,限制其在塞巴巴分析中的能力。在本文中,我们建议以更合理和更全面的方式估计当地最优性,并在两个方面概括了局部最优性的概念。首先,通过MV和预测的运动矢量(PMV)共同确定以速率失真感测量测量的局部最优,并且PMV的可变性将影响局部最优性的估计。因此,我们将本地最优性概括为动态估计。其次,PMV是MV的特殊情况,并且还可以反映MVS中的嵌入痕迹。因此,我们将本地最优性从MV域概括到PMV域。根据本地最优性的两个概括,我们构建了新型的落物特征,并提出了特征对称规则来减少特征维度。在三个数据库中进行的广泛实验展示了所提出的特征的有效性,这在各种条件下实现了最先进的精度和鲁棒性,包括覆盖源失配,视频预测方法,视频编解码器和视频分辨率。
translated by 谷歌翻译
迄今为止,通信系统主要旨在可靠地交流位序列。这种方法提供了有效的工程设计,这些设计对消息的含义或消息交换所旨在实现的目标不可知。但是,下一代系统可以通过将消息语义和沟通目标折叠到其设计中来丰富。此外,可以使这些系统了解进行交流交流的环境,从而为新颖的设计见解提供途径。本教程总结了迄今为止的努力,从早期改编,语义意识和以任务为导向的通信开始,涵盖了基础,算法和潜在的实现。重点是利用信息理论提供基础的方法,以及学习在语义和任务感知通信中的重要作用。
translated by 谷歌翻译
Along with the springing up of semantics-empowered communication (SemCom) researches, it is now witnessing an unprecedentedly growing interest towards a wide range of aspects (e.g., theories, applications, metrics and implementations) in both academia and industry. In this work, we primarily aim to provide a comprehensive survey on both the background and research taxonomy, as well as a detailed technical tutorial. Specifically, we start by reviewing the literature and answering the "what" and "why" questions in semantic transmissions. Afterwards, we present corresponding ecosystems, including theories, metrics, datasets and toolkits, on top of which the taxonomy for research directions is presented. Furthermore, we propose to categorize the critical enabling techniques by explicit and implicit reasoning-based methods, and elaborate on how they evolve and contribute to modern content \& channel semantics-empowered communications. Besides reviewing and summarizing the latest efforts in SemCom, we discuss the relations with other communication levels (e.g., reliable and goal-oriented communications) from a holistic and unified viewpoint. Subsequently, in order to facilitate the future developments and industrial applications, we also highlight advanced practical techniques for boosting semantic accuracy, robustness, and large-scale scalability, just to mention a few. Finally, we discuss the technical challenges that shed light on future research opportunities.
translated by 谷歌翻译
社会科学的学术文献是记录人类文明并研究人类社会问题的文献。随着这种文献的大规模增长,快速找到有关相关问题的现有研究的方法已成为对研究人员的紧迫需求。先前的研究,例如SCIBERT,已经表明,使用特定领域的文本进行预训练可以改善这些领域中自然语言处理任务的性能。但是,没有针对社会科学的预训练的语言模型,因此本文提出了关于社会科学引文指数(SSCI)期刊上许多摘要的预培训模型。这些模型可在GitHub(https://github.com/s-t-full-text-knowledge-mining/ssci-bert)上获得,在学科分类和带有社会科学文学的抽象结构 - 功能识别任务方面表现出色。
translated by 谷歌翻译
Controllable Text Generation (CTG) is emerging area in the field of natural language generation (NLG). It is regarded as crucial for the development of advanced text generation technologies that are more natural and better meet the specific constraints in practical applications. In recent years, methods using large-scale pre-trained language models (PLMs), in particular the widely used transformer-based PLMs, have become a new paradigm of NLG, allowing generation of more diverse and fluent text. However, due to the lower level of interpretability of deep neural networks, the controllability of these methods need to be guaranteed. To this end, controllable text generation using transformer-based PLMs has become a rapidly growing yet challenging new research hotspot. A diverse range of approaches have emerged in the recent 3-4 years, targeting different CTG tasks which may require different types of controlled constraints. In this paper, we present a systematic critical review on the common tasks, main approaches and evaluation methods in this area. Finally, we discuss the challenges that the field is facing, and put forward various promising future directions. To the best of our knowledge, this is the first survey paper to summarize CTG techniques from the perspective of PLMs. We hope it can help researchers in related fields to quickly track the academic frontier, providing them with a landscape of the area and a roadmap for future research.
translated by 谷歌翻译
NLP是与计算机或机器理解和解释人类语言的能力有关的人工智能和机器学习的一种形式。语言模型在文本分析和NLP中至关重要,因为它们允许计算机解释定性输入并将其转换为可以在其他任务中使用的定量数据。从本质上讲,在转移学习的背景下,语言模型通常在大型通用语料库上进行培训,称为预训练阶段,然后对特定的基本任务进行微调。结果,预训练的语言模型主要用作基线模型,该模型包含了对上下文的广泛掌握,并且可以进一步定制以在新的NLP任务中使用。大多数预训练的模型都经过来自Twitter,Newswire,Wikipedia和Web等通用领域的Corpora培训。在一般文本中训练的现成的NLP模型可能在专业领域效率低下且不准确。在本文中,我们提出了一个名为Securebert的网络安全语言模型,该模型能够捕获网络安全域中的文本含义,因此可以进一步用于自动化,用于许多重要的网络安全任务,否则这些任务将依靠人类的专业知识和繁琐的手动努力。 Securebert受到了我们从网络安全和一般计算域的各种来源收集和预处理的大量网络安全文本培训。使用我们提出的令牌化和模型权重调整的方法,Securebert不仅能够保留对一般英语的理解,因为大多数预训练的语言模型都可以做到,而且在应用于具有网络安全含义的文本时也有效。
translated by 谷歌翻译
Unilog:部署一个模型并专门为所有日志分析任务专门
translated by 谷歌翻译
现有的深度学习的语义通信系统通常依赖于包含经验数据及其相关语义信息的发射器和接收器之间的共同背景知识。实际上,语义信息是由接收器的务实任务定义的,发射器不能知道。发射机上的实际可观察​​数据也可以具有与共享背景知识库中的经验数据相同的分布。为了解决这些实际问题,本文提出了一个新的基于神经网络的语义通信系统,用于图像传输,该任务在发射器上不知道,并且数据环境是动态的。该系统由两个主要部分组成,即语义编码(SC)网络和数据适应(DA)网络。 SC网络学习如何使用接收器领导训练过程提取和传输语义信息。通过使用传输学习的域适应技术,DA网络学习了如何将观察到的数据转换为SC网络可以在不进行重新验证的情况下进行处理的类似形式的经验数据。数值实验表明,所提出的方法可以适应可观察的数据集,同时在数据恢复和任务执行方面保持高性能。
translated by 谷歌翻译
隐私保护是联合学习中的一个重要和有关的主题,特别是对于自然语言处理。在客户端设备中,用户每天由用户产生大量包含个人信息的文本。由于来自用户信息的直接应用可能会引起个人隐私,因此在联合学习中提出了许多方法来阻止来自客户端设备中的原始信息的中心模型。在本文中,我们尝试通过在保留语义时扭曲文本来更新语言。在实践中,我们利用最近提出的公制,邻近分布分配,以评估失真期间的语义保存。基于度量标准,我们提出了两个用于语义保存的失真,生成的一个和替代的框架。由于目前的自然语言处理领域中缺乏隐私相关任务,我们对命名实体识别和选区解析进行实验。我们的实验结果表明了我们扭曲的合理性和效率,作为个人隐私保护的方法。
translated by 谷歌翻译
拼写错误纠正是自然语言处理中具有很长历史的主题之一。虽然以前的研究取得了显着的结果,但仍然存在挑战。在越南语中,任务的最先进的方法从其相邻音节中介绍了一个音节的上下文。然而,该方法的准确性可能是不令人满意的,因为如果模型可能会失去上下文,如果两个(或更多)拼写错误彼此静置。在本文中,我们提出了一种纠正越南拼写错误的新方法。我们使用深入学习模型解决错误错误和拼写错误错误的问题。特别地,嵌入层由字节对编码技术提供支持。基于变压器架构的序列模型的序列使我们的方法与上一个问题不同于同一问题的方法。在实验中,我们用大型合成数据集训练模型,这是随机引入的拼写错误。我们使用现实数据集测试所提出的方法的性能。此数据集包含11,202个以9,341不同的越南句子中的人造拼写错误。实验结果表明,我们的方法达到了令人鼓舞的表现,检测到86.8%的误差,81.5%纠正,分别提高了最先进的方法5.6%和2.2%。
translated by 谷歌翻译
随着深度学习(DL)的发展,自然语言处理(NLP)使我们可以分析和理解大量语言文本。因此,在NLP的帮助下,我们可以在联合语义源和噪声频道上进行联合语义源和信道进行语义通信。然而,实现这一目标的现有方法是使用NLP的固定变压器,同时忽略每个句子中包含的语义信息的差异。为了解决这个问题,我们提出了一种基于通用变压器的新语义通信系统。与传统变压器相比,在通用变压器中引入了自适应循环机制。通过引入循环机制,新的语义通信系统可以更灵活地传输具有不同语义信息的句子,并在各种信道条件下实现更好的端到端性能。
translated by 谷歌翻译
It has become common to publish large (billion parameter) language models that have been trained on private datasets. This paper demonstrates that in such settings, an adversary can perform a training data extraction attack to recover individual training examples by querying the language model. We demonstrate our attack on GPT-2, a language model trained on scrapes of the public Internet, and are able to extract hundreds of verbatim text sequences from the model's training data. These extracted examples include (public) personally identifiable information (names, phone numbers, and email addresses), IRC conversations, code, and 128-bit UUIDs. Our attack is possible even though each of the above sequences are included in just one document in the training data.We comprehensively evaluate our extraction attack to understand the factors that contribute to its success. Worryingly, we find that larger models are more vulnerable than smaller models. We conclude by drawing lessons and discussing possible safeguards for training large language models.
translated by 谷歌翻译
由于最近的自然语言处理的进步,几种作品已经将伯特的预先接受审查的屏蔽语言模型(MLM)应用于语音识别的后校正。然而,现有的预先训练的模型仅考虑语义校正,同时忽略了单词的语音特征。因此,语义后校正将降低性能,因为在中国ASR中同音误差相当常见。在本文中,我们提出了一种集体利用了语境化表示的新方法以及错误与其替换候选人之间的语音信息来缓解中国ASR的错误率。我们对现实世界语音识别数据集的实验结果表明,我们所提出的方法明显地低于基线模型的CER,其利用预先训练的BERT MLM作为校正器。
translated by 谷歌翻译
Most semantic communication systems leverage deep learning models to provide end-to-end transmission performance surpassing the established source and channel coding approaches. While, so far, research has mainly focused on architecture and model improvements, but such a model trained over a full dataset and ergodic channel responses is unlikely to be optimal for every test instance. Due to limitations on the model capacity and imperfect optimization and generalization, such learned models will be suboptimal especially when the testing data distribution or channel response is different from that in the training phase, as is likely to be the case in practice. To tackle this, in this paper, we propose a novel semantic communication paradigm by leveraging the deep learning model's overfitting property. Our model can for instance be updated after deployment, which can further lead to substantial gains in terms of the transmission rate-distortion (RD) performance. This new system is named adaptive semantic communication (ASC). In our ASC system, the ingredients of wireless transmitted stream include both the semantic representations of source data and the adapted decoder model parameters. Specifically, we take the overfitting concept to the extreme, proposing a series of ingenious methods to adapt the semantic codec or representations to an individual data or channel state instance. The whole ASC system design is formulated as an optimization problem whose goal is to minimize the loss function that is a tripartite tradeoff among the data rate, model rate, and distortion terms. The experiments (including user study) verify the effectiveness and efficiency of our ASC system. Notably, the substantial gain of our overfitted coding paradigm can catalyze semantic communication upgrading to a new era.
translated by 谷歌翻译
本文旨在通过介绍第一个中国数学预训练的语言模型〜(PLM)来提高机器的数学智能,以有效理解和表示数学问题。与其他标准NLP任务不同,数学文本很难理解,因为它们在问题陈述中涉及数学术语,符号和公式。通常,它需要复杂的数学逻辑和背景知识来解决数学问题。考虑到数学文本的复杂性质,我们设计了一种新的课程预培训方法,用于改善由基本和高级课程组成的数学PLM的学习。特别是,我们首先根据位置偏见的掩盖策略执行令牌级预训练,然后设计基于逻辑的预训练任务,旨在分别恢复改组的句子和公式。最后,我们介绍了一项更加困难的预训练任务,该任务强制执行PLM以检测和纠正其生成的解决方案中的错误。我们对离线评估(包括九个与数学相关的任务)和在线$ A/B $测试进行了广泛的实验。实验结果证明了与许多竞争基线相比,我们的方法的有效性。我们的代码可在:\ textColor {blue} {\ url {https://github.com/rucaibox/jiuzhang}}}中获得。
translated by 谷歌翻译