联邦学习是一种广泛采用的方法,可以通过分布式数据训练神经网络。一个主要限制是数据异构地分布时发生的性能下降。虽然许多作品已经尝试解决这个问题,但这些方法是因为它们的内容而不是对神经网络的理解。在这项工作中,我们验证了神经网络中只有某些重要层数需要正规化以获得有效的培训。我们还验证了中心内核对齐(CKA)最精确地计算在不同数据上培训的神经网络层之间的相似性。通过在培训期间将基于CKA的正则化应用于重要层,我们显着提高了异构环境的性能。我们展示了Fedcka:一个简单的框架,在各种深度学习任务上出于以前的最先进方法,同时提高了效率和可扩展性。
translated by 谷歌翻译
社交媒体平台难以通过内容审核来保护用户免受有害内容的影响。这些平台最近利用机器学习模型来应对每天大量的用户生成内容。由于节制政策因国家和产品类型而异,因此每项政策训练和部署模型是很常见的。但是,这种方法效率很低,尤其是当策略发生变化时,需要在移动的数据分布上重新标记并重新训练数据集。为了减轻这种成本降低,社交媒体平台经常采用第三方内容审核服务,这些服务提供了多个子任务的预测分数,例如预测未成年人,粗鲁的手势或武器的存在,而不是直接提供最终的调节决策。但是,还没有广泛探索从多个子任务的预测分数中做出可靠的自动审核决策。在这项研究中,我们制定了内容节制的现实情况,并引入了一种简单而有效的阈值优化方法,该方法搜索了多个子任务的最佳阈值,以以具有成本效益的方式做出可靠的适度决策。广泛的实验表明,与现有的阈值优化方法和启发式方法相比,我们的方法在内容节制中表现出更好的性能。
translated by 谷歌翻译
本文旨在研究入侵攻击,然后为区块链网络开发新的网络攻击检测框架。具体来说,我们首先在实验室设计和实施区块链网络。该区块链网络将实现两个目的,即为我们的学习模型生成真实的流量数据(包括正常数据和攻击数据),并实施实时实验,以评估我们建议的入侵检测框架的性能。据我们所知,这是第一个在区块链网络中用于网络攻击的实验室中合成的数据集。然后,我们提出了一个新颖的协作学习模型,该模型允许区块链网络中的有效部署来检测攻击。提出的学习模型的主要思想是使区块链节点能够积极收集数据,从其数据中分享知识,然后与网络中的其他区块链节点交换知识。这样,我们不仅可以利用网络中所有节点的知识,而且还不需要收集所有原始数据进行培训,以便在常规的集中学习解决方案等集中式节点上进行培训。这样的框架还可以避免暴露本地数据的隐私以及过多的网络开销/拥堵的风险。密集模拟和实时实验都清楚地表明,我们提出的基于协作的入侵检测框架可以在检测攻击方面达到高达97.7%的准确性。
translated by 谷歌翻译
尽管变形金刚在段落的生成中取得了重大成功,但它们将句子视为令牌的线性序列,并且经常忽略其层次结构信息。先前的工作表明,输入令牌分解粒度〜(例如,单词,短语或句子)的水平已产生实质性改进,这表明可以通过更细粒度的粒度建模来增强变形金刚。在这项工作中,我们提出了粒度生成(C-DNPG)的粒度连续分解。为了有效地将粒度纳入编码句子中,C-DNPG引入了一种粒度感知的注意力(GA-注意)机制,该机制扩展了多头自我注意力,以:1)自动渗透句子的粒度头,该机制自动渗透了句子的等级结构通过神经估计每个输入令牌的粒度水平; 2)两个新的注意力面膜,即粒度共振和粒度范围,以有效地将粒度编码为注意力。在两个基准测试的实验(包括Quora问题对和Twitter URL)上表明,C-DNPG的表现优于基线模型,而在许多指标方面,C-DNPG的基线模型优于基线模型。定性分析表明,C-DNPG确实具有有效性捕获细粒度的粒度水平。
translated by 谷歌翻译
我们为韩国人物Hangul的OCR(光学特征识别)提供了一种新颖的方法。作为唱片图,Hangul可以通过描述每个字符的组合来代表11,172个不同的字符,只有52个图形。由于字符的总数可能压倒了神经网络的容量,因此现有的OCR编码方法预定了一组经常使用的字符集。这种设计选择自然会损害发行中长尾字符的性能。在这项工作中,我们证明了石墨素编码不仅有效,而且对Hangul OCR的表现也是表现的。基准测试表明,我们的方法解决了hangul OCR的两个主要问题:类失衡和目标类选择。
translated by 谷歌翻译
基金标记已广泛用于识别可以通过相机检测到的对象或嵌入式消息。主要是,现有的检测方法假设标记印刷在理想的平面表面上。由于光学/透视失真和运动模糊的各种成像伪像,标记通常无法识别。为了克服这些局限性,我们提出了一个新型的可变形基准标记系统,该系统由三个主要部分组成:首先,基准标记生成器会创建一组自由形式的颜色模式,以在唯一的视觉代码中编码大量的大规模信息。其次,一个可区分的图像模拟器创建了具有变形标记的影像现实主义场景图像的训练数据集,并在优化期间以可区分的方式渲染。渲染的图像包括带有镜面反射,光学失真,散焦和运动模糊,颜色改变,成像噪声以及标记的形状变形的逼真的阴影。最后,训练有素的标记探测器寻求感兴趣的区域,并通过反变形转换同时识别多个标记模式。可变形的标记创建者和探测器网络以端到端的方式通过可区分的光真逼真的渲染器共同优化,使我们能够以高精度来稳健地识别广泛的可变形标记。我们的可变形标记系统能够在〜29 fps中成功解码36位消息,并具有严重的形状变形。结果验证了我们的系统明显优于传统和数据驱动的标记方法。我们基于学习的标记系统打开了基准标记的新有趣应用,包括对人体的成本效益运动捕获,使用我们的基金标记阵列作为结构化的光模式进行主动3D扫描,以及强大的增强现实对象的虚拟物体在动态上进行虚拟对象渲染表面。
translated by 谷歌翻译
GPT-3显示了培训的大规模语言模型(LMS)的卓越情调学习能力,培训数十亿规模数据。在这里,我们解决了GPT-3纸张报告的一些剩余问题,例如非英语LM,不同大小模型的性能,以及最近引入的迅速优化对上下文学习的效果。为实现这一目标,我们介绍了HyperClova,一个韩国VPT-3的韩国变体训练在一个以韩国为中心的560b标准的令牌。通过我们的韩国特定标记化,HyperClova与我们的培训配置增强,显示了韩国各种下游任务的最先进的上下游零射击和几秒钟学习表演。此外,我们展示了基于及时的学习的性能优势,并演示如何集成到迅速的工程管道中。然后,我们讨论了通过引入Hyperclova Studio,互动提示工程界面向ML的非专家提供AI原型设计能力来实现No Code AI范例的可能性。最后,我们展示了我们具有三个成功的内部应用程序的方法的潜力。
translated by 谷歌翻译
预先接受训练的语言模型的最新进展具有显着改善的神经反应生成。但是,现有方法通常将对话背景视为令牌的线性序列,并通过令牌级自我关注学习生成下一个单词。这些令牌级编码阻碍了话语中话语水平一致性的探索。本文介绍了对话贝特,这是一种新的会话响应生成模型,可以增强以前的基于PLM的对话模型。 DialogBert采用分层变压器架构。为了有效地捕捉话语中的话语水平一致性,我们提出了两种培训目标,包括蒙面的话语回归和分布式话语秩序与原始BERT训练相比。在三个多转对谈话数据集上的实验表明,在定量评估方面,我们的方法非常优于BART和Dialogpt等基线。人类评估表明,DialogBert比具有显着利润率的基线产生更加连贯,信息和人类的反应。
translated by 谷歌翻译
Configurable software systems are employed in many important application domains. Understanding the performance of the systems under all configurations is critical to prevent potential performance issues caused by misconfiguration. However, as the number of configurations can be prohibitively large, it is not possible to measure the system performance under all configurations. Thus, a common approach is to build a prediction model from a limited measurement data to predict the performance of all configurations as scalar values. However, it has been pointed out that there are different sources of uncertainty coming from the data collection or the modeling process, which can make the scalar predictions not certainly accurate. To address this problem, we propose a Bayesian deep learning based method, namely BDLPerf, that can incorporate uncertainty into the prediction model. BDLPerf can provide both scalar predictions for configurations' performance and the corresponding confidence intervals of these scalar predictions. We also develop a novel uncertainty calibration technique to ensure the reliability of the confidence intervals generated by a Bayesian prediction model. Finally, we suggest an efficient hyperparameter tuning technique so as to train the prediction model within a reasonable amount of time whilst achieving high accuracy. Our experimental results on 10 real-world systems show that BDLPerf achieves higher accuracy than existing approaches, in both scalar performance prediction and confidence interval estimation.
translated by 谷歌翻译
In this work, we propose a new approach that combines data from multiple sensors for reliable obstacle avoidance. The sensors include two depth cameras and a LiDAR arranged so that they can capture the whole 3D area in front of the robot and a 2D slide around it. To fuse the data from these sensors, we first use an external camera as a reference to combine data from two depth cameras. A projection technique is then introduced to convert the 3D point cloud data of the cameras to its 2D correspondence. An obstacle avoidance algorithm is then developed based on the dynamic window approach. A number of experiments have been conducted to evaluate our proposed approach. The results show that the robot can effectively avoid static and dynamic obstacles of different shapes and sizes in different environments.
translated by 谷歌翻译