我们提出了一种预测搜索查询项目关系的有效方法。我们结合了预训练的变压器和LSTM模型,并使用对抗性训练,指数移动平均值,多样采样的辍学和基于多样性的集合来提高模型鲁棒性,以解决一个非常困难的问题,即预测以前从未见过的查询。我们所有的策略都集中在提高深度学习模型的鲁棒性上,并适用于使用深度学习模型的任何任务。采用我们的策略,我们在KDD CUP 2022产品替换分类任务中获得了第十名。
translated by 谷歌翻译
对于大部分现实生活中的话语,其意图不能仅由它们的语义或句法特征决定。尽管并非所有的社会语言和务实信息都可以数字化,但至少语音特征在理解口语中是必不可少的。尤其是在诸如韩国人之类的头部最终语言中,句子 - 最终韵律在识别说话者的意图方面非常重要。本文提出了一个系统,该系统鉴于其笔录在某些情况下使用辅助声学特征,可以识别出口语的固有意图。这里的要点是对于歧视意图需要声学提示的情况。因此,提出的分类系统决定给定的话语是利用来自头部金属的语调依赖性的片段,陈述,问题,命令还是命令/命令。基于对参与数据注释的韩语的直观理解,我们构建了一个网络,该网络识别语音的意图,并通过测试句子验证其实用性。该系统如果与最新的语音识别器结合在一起,则预计将灵活地插入各种语言理解模块中。
translated by 谷歌翻译
Accurately extracting driving events is the way to maximize computational efficiency and anomaly detection performance in the tire frictional nose-based anomaly detection task. This study proposes a concise and highly useful method for improving the precision of the event extraction that is hindered by extra noise such as wind noise, which is difficult to characterize clearly due to its randomness. The core of the proposed method is based on the identification of the road friction sound corresponding to the frequency of interest and removing the opposite characteristics with several frequency filters. Our method enables precision maximization of driving event extraction while improving anomaly detection performance by an average of 8.506%. Therefore, we conclude our method is a practical solution suitable for road surface anomaly detection purposes in outdoor edge computing environments.
translated by 谷歌翻译
尽管最近的凝视估计方法非常重视从面部或眼睛图像中提取与目光相关的特征,但如何定义包括凝视相关组件在内的特征是模棱两可的。这种模糊性使该模型不仅学习了与之相关的功能,而且还学会了无关紧要的功能。特别是,这对于跨数据库的性能是致命的。为了克服这个具有挑战性的问题,我们提出了一种基于数据驱动的方法,该方法具有数据驱动的方法,该方法具有生成的对抗网络反转的分解特征,以选择性地利用潜在代码中的目光相关特征。此外,通过利用基于GAN的编码器生成过程,我们将输入图像从目标域转移到源域图像,而凝视估计器充分了解了。此外,我们建议在编码器中凝视失真损失,以防止凝视信息的失真。实验结果表明,我们的方法在跨域凝视估计任务中实现了最新的凝视估计精度。该代码可在https://github.com/leeisack/latentgaze/上找到。
translated by 谷歌翻译
尽管已经通过深度学习技术开发了凝视估计方法,但没有采取诸如以50像素或更少的像素宽度或更少的像素宽度的低分辨率面部图像中准确性能的方法。为了在具有挑战性的低分辨率条件下解决限制,我们提出了高频专注的超级分辨凝视估计网络,即Haze-Net。我们的网络改善了输入图像的分辨率,并通过基于高频注意力块提出的超级分辨率模块增强了眼睛特征和这些边界。此外,我们的凝视估计模块利用眼睛的高频组件以及全球外观图。我们还利用面部的结构位置信息来近似头姿势。实验结果表明,即使在具有28x28像素的低分辨率面部图像中,提出的方法也表现出强大的凝视估计性能。该工作的源代码可在https://github.com/dbseorms16/haze_net/上获得。
translated by 谷歌翻译
网络安全研究中的关键主题之一是自动COA(行动)攻击搜索方法。被动搜索攻击的传统COA攻击方法可能很困难,尤其是随着网络变大。为了解决这些问题,正在开发新的自动COA技术,其中,本文设计了一种智能的空间算法,以在可扩展网络中有效运行。除空间搜索外,还考虑了基于蒙特卡洛(MC)的时间方法来照顾时间变化的网络行为。因此,我们为可扩展和时变网络的时空攻击COA搜索算法提出了一个时空攻击。
translated by 谷歌翻译
在本文中,我们提出了一种量化的学习方程,具有对所提出的算法的量化和随机分析的单调增加分辨率。根据致密且均匀分布的量化误差的白噪声假设,我们可以将量化误差视为i.i.d. \白噪声。基于此,我们表明,具有单调增加量化分辨率的学习方程作为分布观点略微收敛。本文的分析表明,全局优化对于满足Lipschitz条件的域,而不是局部会聚属性,例如客观函数的Hessian约束。
translated by 谷歌翻译
局灶性肝脏病变(FLLS)的计算机辅助诊断有助于改善工作流程并实现正确的诊断; FLL检测是如此计算机辅助诊断的第一步。尽管近期基于深度学习的方法在检测到FLLS方面取得了成功,但目前的方法对于评估未对准的多相数据来说是不够稳健的。通过在特征空间中引入注意引导的多相对准,本研究提出了一种用于检测来自多相计算机断层扫描(CT)图像的FLL的完全自动化的端到端学习框架。由于其完全基于学习的方法,我们的方法是对错位的多相图像的强大,这降低了模型对注册质量的敏感性,并且可以在临床实践中独立地部署模型。具有280名患者的大型数据集的评估证实,我们的方法优于先前的最先进的方法,并显着降低了使用未对准的多相CT图像检测FLL的性能劣化。所提出的方法的稳健性可以增强深学习的计算机辅助检测系统的临床采用。
translated by 谷歌翻译
现有研究突出物体检测(SOD)对专注于提取与边缘信息的不同对象和聚合多级功能来提高SOD性能。为了实现令人满意的性能,该方法采用精细的边缘信息和低多级差异。然而,不能实现性能增益和计算效率,这有动力研究了我们研究现有编码器解码器结构中的低效率,以避免这种权衡。我们提出了示踪剂,通过结合引导的跟踪模块来检测具有显式边缘的突出物体。我们使用快速傅里叶变换在第一编码器的末尾采用掩蔽边缘注意模块,以将精细边缘信息传播到下游特征提取。在多级聚合阶段,联盟注意力模块识别互补信道和重要的空间信息。为了提高解码器性能和计算效率,我们最大限度地减少了对对象注意模块的解码器块使用。该模块从精细通道和空间表示中提取未检测到的对象和边缘信息。随后,我们提出了一种自适应像素强度损失函数来处理与传统损耗函数不同的像素相对重要的像素,其同样处理所有像素。与13现有方法的比较显示,示踪剂在五个基准数据集上实现了最先进的性能。特别地,追踪性3(TE3)优于LDF,现有方法,同时需要1.8倍的学习参数,更少的时间; TE3速度快5倍。
translated by 谷歌翻译
Steering language generation towards objectives or away from undesired content has been a long-standing goal in utilizing language models (LM). Recent work has demonstrated reinforcement learning and weighted decoding as effective approaches to achieve a higher level of language control and quality with pros and cons. In this work, we propose a novel critic decoding method for controlled language generation (CriticControl) that combines the strengths of reinforcement learning and weighted decoding. Specifically, we adopt the actor-critic framework to train an LM-steering critic from non-differentiable reward models. And similar to weighted decoding, our method freezes the language model and manipulates the output token distribution using called critic, improving training efficiency and stability. Evaluation of our method on three controlled generation tasks, namely topic control, sentiment control, and detoxification, shows that our approach generates more coherent and well-controlled texts than previous methods. In addition, CriticControl demonstrates superior generalization ability in zero-shot settings. Human evaluation studies also corroborate our findings.
translated by 谷歌翻译