The security of artificial intelligence (AI) is an important research area towards safe, reliable, and trustworthy AI systems. To accelerate the research on AI security, the Artificial Intelligence Security Competition (AISC) was organized by the Zhongguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, and RealAI as part of the Zhongguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en). The competition consists of three tracks, including Deepfake Security Competition, Autonomous Driving Security Competition, and Face Recognition Security Competition. This report will introduce the competition rules of these three tracks and the solutions of top-ranking teams in each track.
translated by 谷歌翻译
We propose a PiggyBack, a Visual Question Answering platform that allows users to apply the state-of-the-art visual-language pretrained models easily. The PiggyBack supports the full stack of visual question answering tasks, specifically data processing, model fine-tuning, and result visualisation. We integrate visual-language models, pretrained by HuggingFace, an open-source API platform of deep learning technologies; however, it cannot be runnable without programming skills or deep learning understanding. Hence, our PiggyBack supports an easy-to-use browser-based user interface with several deep learning visual language pretrained models for general users and domain experts. The PiggyBack includes the following benefits: Free availability under the MIT License, Portability due to web-based and thus runs on almost any platform, A comprehensive data creation and processing technique, and ease of use on deep learning-based visual language pretrained models. The demo video is available on YouTube and can be found at https://youtu.be/iz44RZ1lF4s.
translated by 谷歌翻译
Myocardial pathology segmentation (MyoPS) can be a prerequisite for the accurate diagnosis and treatment planning of myocardial infarction. However, achieving this segmentation is challenging, mainly due to the inadequate and indistinct information from an image. In this work, we develop an end-to-end deep neural network, referred to as MyoPS-Net, to flexibly combine five-sequence cardiac magnetic resonance (CMR) images for MyoPS. To extract precise and adequate information, we design an effective yet flexible architecture to extract and fuse cross-modal features. This architecture can tackle different numbers of CMR images and complex combinations of modalities, with output branches targeting specific pathologies. To impose anatomical knowledge on the segmentation results, we first propose a module to regularize myocardium consistency and localize the pathologies, and then introduce an inclusiveness loss to utilize relations between myocardial scars and edema. We evaluated the proposed MyoPS-Net on two datasets, i.e., a private one consisting of 50 paired multi-sequence CMR images and a public one from MICCAI2020 MyoPS Challenge. Experimental results showed that MyoPS-Net could achieve state-of-the-art performance in various scenarios. Note that in practical clinics, the subjects may not have full sequences, such as missing LGE CMR or mapping CMR scans. We therefore conducted extensive experiments to investigate the performance of the proposed method in dealing with such complex combinations of different CMR sequences. Results proved the superiority and generalizability of MyoPS-Net, and more importantly, indicated a practical clinical application.
translated by 谷歌翻译
网络安全漏洞是分布式网络物理系统(CPS)的常见异常。但是,即使使用尖端人工智能(AI)方法,网络安全漏洞分类仍然是一个困难的问题。在本文中,我们研究了网络安全性的多类分类问题,以进行攻击检测。考虑了一个具有挑战性的多节点数据审查案例。在这种情况下,当本地数据不完整时,每个数据中心/节点中的数据都无法共享。特别是,本地节点仅包含多个类别的一部分。为了培训全球多级分类器而不在所有节点上共享原始数据,我们研究的主要结果是设计多节点多级分类合奏方法。通过从每个局部节点收集二进制分类器和数据密度的估计参数,每个局部节点的丢失信息都可以完成,以构建全局多类分类器。进行数值实验以验证在多节点数据审查情况下提出的方法的有效性。在这种情况下,我们甚至显示了对全数据ATA方法的拟议方法的表现。
translated by 谷歌翻译
预审前的语言模型已被证明在许多与软件有关的一代任务中都是有效的。但是,它们不适合编辑任务,因为它们不是为了推理编辑的原因。为了解决这个问题,我们提出了一个新颖的预处理目标,该目标明确地对编辑进行了建模并使用它来构建Coditt5,这是一种用于软件相关编辑任务的大型语言模型,该任务是在大量源代码和自然语言评论中鉴定的。我们将其对各种下游编辑任务进行微调,包括评论更新,错误修复和自动代码审核。通过优于基于纯生成的模型,我们证明了方法的普遍性及其对编辑任务的适用性。我们还展示了纯生成模型和我们的基于编辑的模型如何通过简单的重读策略相互补充,我们可以通过该策略实现三个下游编辑任务的最新性能。
translated by 谷歌翻译
人对象相互作用(HOI)检测在活动理解中起着至关重要的作用。尽管已经取得了重大进展,但交互性学习仍然是HOI检测的一个具有挑战性的问题:现有方法通常会产生冗余的负H-O对提案,并且无法有效提取交互式对。尽管已经在整个身体和部分级别研究了互动率,并促进了H-O配对,但以前的作品仅专注于目标人一次(即,从本地角度来看)并忽略了其他人的信息。在本文中,我们认为同时比较多人的身体零件可以使我们更有用,更补充的互动提示。也就是说,从全球的角度学习身体部分的互动:当对目标人的身体零件互动进行分类时,不仅要从自己/他本人,而且还从图像中的其他人那里探索视觉提示。我们基于自我注意力来构建身体的显着性图,以挖掘交叉人物的信息线索,并学习所有身体零件之间的整体关系。我们评估了广泛使用的基准曲线和V-Coco的建议方法。从我们的新角度来看,整体的全部本地人体互动互动学习可以对最先进的发展取得重大改进。我们的代码可从https://github.com/enlighten0707/body-part-map-for-interactimence获得。
translated by 谷歌翻译
最近,神经隐式渲染技术已经迅速发展,并在新型视图合成和3D场景重建中显示出很大的优势。但是,用于编辑目的的现有神经渲染方法提供了有限的功能,例如刚性转换,或不适用于日常生活中的一般物体的细粒度编辑。在本文中,我们通过编码神经隐性字段,并在网格顶点上编码神经隐式字段,并在网格顶点上编码纹理代码,从而促进了一组编辑功能,包括网格引导的几何形状编辑,指定的纹理编辑,纹理交换,纹理交换,,纹理交换,,纹理编辑,,纹理编辑,,纹理编辑,,纹理编辑,,纹理编辑,,纹理编辑,,纹理编辑,,纹理编辑。填充和绘画操作。为此,我们开发了几种技术,包括可学习的符号指标,以扩大基于网格的表示,蒸馏和微调机制的空间区分性,以稳定地收敛,以及空间感知的优化策略,以实现精确的纹理编辑。关于真实和合成数据的广泛实验和编辑示例都证明了我们方法在表示质量和编辑能力上的优越性。代码可在项目网页上找到:https://zju3dv.github.io/neumesh/。
translated by 谷歌翻译
本文介绍了我们针对IWSLT 2022离线任务的端到端Yitrans语音翻译系统的提交,该任务从英语音频转换为德语,中文和日语。 Yitrans系统建立在大规模训练的编码器模型上。更具体地说,我们首先设计了多阶段的预训练策略,以建立具有大量标记和未标记数据的多模式模型。然后,我们为下游语音翻译任务微调模型的相应组件。此外,我们做出了各种努力,以提高性能,例如数据过滤,数据增强,语音细分,模型集合等。实验结果表明,我们的Yitrans系统比在三个翻译方向上的强基线取得了显着改进,并且比去年在TST2021英语 - 德国人中的最佳端到端系统方面的改进+5.2 BLEU改进。根据自动评估指标,我们的最终意见在英语 - 德国和英语端到端系统上排名第一。我们使代码和模型公开可用。
translated by 谷歌翻译
本文研究了一种新型的预训练技术,该技术具有未配对的语音数据Segend2C,用于基于编码器的自动语音识别(ASR)。在一个多任务学习框架内,我们使用声音单元(即伪代码)介绍了编码器 - 编码器网络的两个预训练任务,这些任务来自离线聚类模型。一种是通过在编码器输出中通过掩盖语言建模来预测伪代码,例如Hubert模型,而另一个使解码器学会学会重建伪代码自动加工,而不是生成文本脚本。通过这种方式,解码器学会了在学习生成正确的文本之前先用代码重建原始语音信息。在Librispeech语料库上进行的综合实验表明,在没有解码器预训练的情况下,提出的Speek2C可以相对将单词错误率(WER)降低19.2%,并且在最先进的WAV2VEC 2.0和HUBERT上的表现显着优于微调子集为10h和100h。我们在https://github.com/microsoft/speecht5/tree/main/main/speech2c上发布代码和模型。
translated by 谷歌翻译
自我监督的语音表示学习在各种语音处理任务中显示出令人鼓舞的结果。但是,预先训练的模型,例如休伯特是存储密集型变压器,限制了其在低资源设置下的应用程序范围。为此,我们建议通过修剪结构化参数自动找到所需的体系结构Lighthubert,这是一个曾经是变压器的压缩框架。更确切地说,我们创建了一个基于变压器的超级网,该超网嵌套着数千个重量共享子网,并设计了一个两阶段的蒸馏策略,以利用休伯特的上下文化潜在表示。关于自动语音识别(ASR)和出色基准的实验表明,拟议的lighthubert可实现$ 10^9 $的架构,该体系结构涉及嵌入尺寸,注意力维度,头部编号,进率向前网络比率和网络深度。 Lighthubert优于ASR上的原始Hubert和Hubert大小的五个出色的任务,在大多数任务中,在大多数任务中都具有可比的性能,并减少了29%的参数,并获得了$ 3.5 \ times $ times $ compression $压缩比在三个超级任务中,例如自动扬声器验证,关键字发现和意图分类,略有准确的损失。代码和预培训模型可在https://github.com/mechanicalsea/lighthubert上找到。
translated by 谷歌翻译