人工智能和神经科学都深受互动。人工神经网络(ANNS)是一种多功能的工具,用于研究腹侧视觉流中的神经表现,以及神经科学中的知识返回激发了ANN模型,以提高任务的性能。但是,如何将这两个方向合并到统一模型中较少研究。这里,我们提出了一种混合模型,称为深度自动编码器,具有神经响应(DAE-NR),其将来自视觉皮质的信息包含在ANN中,以实现生物和人造神经元之间的更好的图像重建和更高的神经表示相似性。具体地,对小鼠脑和DAE-NR的输入相同的视觉刺激(即自然图像)。 DAE-NR共同学会通过映射函数将编码器网络的特定层映射到腹侧视觉流中的生物神经响应,并通过解码器重建视觉输入。我们的实验表明,如果只有在联合学习,DAE-NRS可以(i)可以提高图像重建的性能,并且(ii)增加生物神经元和人工神经元之间的代表性相似性。 DAE-NR提供了一种关于计算机视觉和视觉神经科学集成的新视角。
translated by 谷歌翻译
基于模型的单幅图像脱水算法用尖锐的边缘和丰富的细节恢复图像,以牺牲低PSNR值。数据驱动的那些恢复具有高PSNR值的图像,但具有低对比度,甚至一些剩余的阴霾。在本文中,通过融合基于模型和数据驱动的方法来引入新颖的单图像脱水算法。通过基于模型的方法初始化透射图和大气光,并通过构成神经增强的深度学习方法来精制。通过使用传输地图和大气光来恢复无雾图像。实验结果表明,该算法可以从现实世界和合成朦胧图像中脱离雾度。
translated by 谷歌翻译
机器学习在医学图像分析中发挥着越来越重要的作用,产卵在神经影像症的临床应用中的新进展。之前有一些关于机器学习和癫痫的综述,它们主要专注于电生理信号,如脑电图(EEG)和立体脑电图(SEENG),同时忽略癫痫研究中神经影像的潜力。 NeuroImaging在确认癫痫区域的范围内具有重要的优点,这对于手术后的前诊所评估和评估至关重要。然而,脑电图难以定位大脑中的准确癫痫病变区。在这篇综述中,我们强调了癫痫诊断和预后在癫痫诊断和预后的背景下神经影像学和机器学习的相互作用。我们首先概述癫痫诊所,MRI,DWI,FMRI和PET中使用的癫痫和典型的神经影像姿态。然后,我们在将机器学习方法应用于神经影像数据的方法:i)将手动特征工程和分类器的传统机器学习方法阐述了两种方法,即卷积神经网络和自动化器等深度学习方法。随后,详细地研究了对癫痫,定位和横向化任务等分割,本地化和横向化任务的应用,以及与诊断和预后直接相关的任务。最后,我们讨论了目前的成就,挑战和潜在的未来方向,希望为癫痫的计算机辅助诊断和预后铺平道路。
translated by 谷歌翻译
大多数现有的视频文本发现基准测试专注于评估单一语言和具有有限数据的场景。在这项工作中,我们引入了大规模的双语,开放世界视频文本基准数据集(BovText)。 BovText有四个功能。首先,我们提供2,000多个具有超过1,75万多帧的视频,比现有最大数据集大25倍,其中包含录像中的附带文本。其次,我们的数据集涵盖了具有多种各种场景的30多个开放类别,例如Life VLog,驾驶,电影等。第三,为不同的代表提供了丰富的文本类型注释(即标题,标题或场景文本)视频中的意义。第四,BOVTEXT提供双语文本注释,以促进多种文化的生活和沟通。此外,我们提出了一个与变压器的端到端视频文本发现框架,被称为TransVtspotter,它通过简单但高效的关注的查询密钥机制解决了视频中的多东方文本。它将来自前一个帧的对象特征应用于当前帧的跟踪查询,并引入旋转角度预测以适合多大学实例。在ICDAR2015(视频)上,Transvtspotter以44.1%的Mota,9 FPS实现最先进的性能。 DataSet和TransVtspotter的代码可以在GitHub中找到:COM = Weijiawu = BovText和GitHub:Com = Weijiawu = Transvtspotter。
translated by 谷歌翻译
人类活动识别(HAR)是使用有效的机器学习(ML)方法将传感器数据解释为人类运动的问题。 HAR系统依靠来自不受信任的用户的数据,使他们容易受到数据中毒攻击的影响。在中毒攻击中,攻击者操纵传感器读数以污染训练集,从而误导了har以产生错误的结果。本文介绍了针对HAR系统的标签翻转数据中毒攻击的设计,在数据收集阶段,传感器读数的标签发生了恶意更改。由于传感环境中的噪音和不确定性,这种攻击对识别系统构成了严重威胁。此外,当将活动识别模型部署在安全至关重要的应用中时,标记翻转攻击的脆弱性是危险的。本文阐明了如何通过基于智能手机的传感器数据收集应用程序在实践中进行攻击。据我们所知,这是一项较早的研究工作,它通过标签翻转中毒探索了攻击HAR模型。我们实施了提出的攻击并根据以下机器学习算法进行活动识别模型进行测试:多层感知器,决策树,随机森林和XGBoost。最后,我们评估了针对拟议攻击的基于K-Nearest邻居(KNN)的防御机制的有效性。
translated by 谷歌翻译
随着大型预训练的Vison语言模型(如剪辑)的出现,可以通过及时调整来调整可转让表示形式。及时调整试图从存储在预训练的视觉模型的图像和文本编码器中的常识中探索有益信息,以探索下游任务。最近提出的名为“上下文优化”(COP)的方法将一组可学习的向量从语言侧引入文本提示符,而单独调整文本提示符则不会影响图像编码器的计算视觉特征,从而导致了次级优势。在本文中,我们通过学习文本提示并同时为文本和图像编码器提供双重模式提示调整范式。此外,为了使视觉提示更多地集中在目标视觉概念上,我们提出了类感知的视觉及时调整(CAVPT),该调整是通过在模板提示和视觉类别令牌嵌入的语言描述之间进行交叉注意来动态生成的。我们的方法提供了一种新的范式来调整大型预训练的视觉模型,并在8个数据集上进行了广泛的实验结果,证明了该方法的有效性。我们的代码在补充材料中可用。
translated by 谷歌翻译
面向目标的意见单词提取(TOWE)是一项精细的情感分析任务,旨在从句子中提取给定意见目标的相应意见单词。最近,深度学习方法在这项任务上取得了显着进步。然而,由于昂贵的数据注释过程,TOWE任务仍然遭受培训数据的稀缺性。有限的标记数据增加了测试数据和培训数据之间分配变化的风险。在本文中,我们建议利用大量未标记的数据来通过增加模型对变化分布变化的暴露来降低风险。具体而言,我们提出了一种新型的多透明一致性正则化(MGCR)方法,以利用未标记的数据并设计两个专门用于TOWE的过滤器,以在不同的粒度上过滤嘈杂的数据。四个TOWE基准数据集的广泛实验结果表明,与当前的最新方法相比,MGCR的优越性。深入分析还证明了不同粒度过滤器的有效性。我们的代码可在https://github.com/towessl/towessl上找到。
translated by 谷歌翻译
无监督的摘要方法通过纳入预训练的语言模型的表示形式来取得了显着的结果。但是,当输入文档非常长的同时,现有方法无法考虑效率和有效性。为了解决这个问题,在本文中,我们提出了一个基于语义块的无监督长期文档摘要,提议有效的粗到1个方面的排名(C2F-FAR)框架。语义块是指描述相同方面的文档中的连续句子。具体而言,我们通过将一步排名方法转换为层次多范围两阶段排名来解决此问题。在粗级阶段,我们提出了一种新的段算法,将文档拆分为相关的语义块,然后过滤量微不足道的块。在精细阶段,我们在每个块中选择显着句子,然后从选定的句子中提取最终摘要。我们在四个长文档摘要数据集上评估了我们的框架:Gov-Report,Billsum,Arxiv和PubMed。我们的C2F-FAR可以在Gov-Report和Billsum上实现新的无监督摘要结果。此外,我们的方法比以前的方法高4-28倍。
translated by 谷歌翻译
立体类像素细分旨在通过左右视图将离散的像素分组为感知区域,以更加协作和高效地分组。现有的Superpixel分割算法主要利用颜色和空间特征作为输入,这可能会对空间信息施加强大的约束,同时利用立体声图像对的差异信息。为了减轻此问题,我们提出了一种立体声超级像素细分方法,并在本工作中具有空间信息的脱钩机制。为了解除立体视差信息和空间信息,在融合立体声图像对的特征之前,暂时删除空间信息,并提出了脱钩的立体声融合模块(DSFM),以处理立体声的特征特征特征对齐和遮挡问题。此外,由于空间信息对于超像素分割至关重要,因此我们进一步设计一个动态空间嵌入模块(DSEM)以重新添加空间信息,并且将通过DSEM中的DSEM进行自适应调整空间信息的权重(DF)用于实现更好的细分。全面的实验结果表明,我们的方法可以在KITTI2015和CityScapes数据集上实现最新性能,并且还可以在NJU2K数据集上的显着对象检测中验证效率。源代码将在接受纸张后公开提供。
translated by 谷歌翻译
随着处理点云数据中深度学习的繁荣,最近的作品表明,后门攻击对3D视觉应用构成了严重的安全威胁。攻击者通过用触发器中毒一些训练样本将后门注射到3D模型中,从而使后门模型在干净的样品上表现良好,但在出现扳机模式时会恶意行为。现有的攻击通常将一些附加点插入点云中,或使用线性转换(例如旋转)来构建中毒点云。但是,这些中毒样品的影响可能会被某些常用的3D点云的常用预处理技术削弱,甚至可以消除,例如,离群的去除或旋转增强。在本文中,我们提出了一种新颖的觉得不可察觉,强大的后门攻击(IRBA)来应对这一挑战。我们利用一种称为加权局部变换(WLT)的非线性和局部变换来构建具有独特转换的中毒样品。由于WLT中有几种超参数和随机性,因此很难产生两个类似的转换。因此,具有独特转化的中毒样品可能对上述预处理技术有抵抗力。此外,由于由固定的WLT引起的失真的可控性和平滑度,因此生成的中毒样品也无法察觉到人类检查。在三个基准数据集和四个模型上进行的广泛实验表明,即使使用预处理技术,IRBA在大多数情况下都可以达到80%+ ASR,这显着高于以前的最新攻击。
translated by 谷歌翻译