组成零射击学习(CZSL)旨在识别训练过程中从可见状态和物体形成的看不见的构图。由于与不同对象纠缠的视觉外观中相同的状态可能是不同的,因此CZSL仍然是一项艰巨的任务。某些方法使用两个训练有素的分类器识别状态和对象,忽略了对象与状态之间的相互作用的影响;其他方法试图学习状态对象组成的联合表示,从而导致可见和看不见的组成集之间的域间隙。在本文中,我们提出了一种新颖的暹罗对比度嵌入网络(场景)(代码:https://github.com/xduxyli/scen-master),以实现看不见的构图识别。考虑到状态与物体之间的纠缠,我们将视觉特征嵌入了暹罗对比度空间中,以分别捕获它们的原型,从而减轻了状态与物体之间的相互作用。此外,我们设计了一个状态过渡模块(STM),以增加训练组成的多样性,从而提高识别模型的鲁棒性。广泛的实验表明,我们的方法在三个具有挑战性的基准数据集(包括最近提出的C-QGA数据集)上的最先进方法大大优于最先进的方法。
translated by 谷歌翻译
面对抗泡沫(FAS)和伪造探测在保护面部生物识别系统免受演示攻击(PAS)和恶性数字操作(例如,Deepfakes)中的生物识别系统中起着至关重要的作用。尽管大规模数据和强大的深层模型有希望的表现,但现有方法的概括问题仍然是一个空旷的问题。最近的大多数方法都集中在1)单峰视觉外观或生理学(即远程光摄影学(RPPG))线索;和2)用于FAS或面部伪造检测的分离特征表示。一方面,单峰外观和RPPG功能分别容易受到高保真的面孔3D面膜和视频重播攻击的影响,从而激发了我们设计可靠的多模式融合机制,用于广义面部攻击检​​测。另一方面,FAS和面部伪造探测任务(例如,定期的RPPG节奏和BONAFIDE的香草外观)都有丰富的共同特征,提供了可靠的证据来设计联合FAS和面部伪造探测系统,以多任务学习方式。在本文中,我们使用视觉外观和生理RPPG提示建立了第一个关节面欺骗和伪造的检测基准。为了增强RPPG的周期性歧视,我们使用两种面部时空时代的RPPG信号图及其连续小波转换为输入的两分支生理网络。为了减轻模态偏差并提高融合功效,我们在多模式融合之前对外观和RPPG特征进行了加权批次和层归一化。我们发现,可以通过对这两个任务的联合培训来改善单峰(外观或RPPG)和多模式(外观+RPPG)模型的概括能力。我们希望这种新的基准将促进FAS和DeepFake检测社区的未来研究。
translated by 谷歌翻译
为了使视频模型能够在不同环境中无缝应用,已经提出了各种视频无监督的域适应性(VUDA)方法来提高视频模型的鲁棒性和可传递性。尽管模型鲁棒性有所改进,但这些VUDA方法仍需要访问源数据和源模型参数以进行适应,从而提高了严重的数据隐私和模型可移植性问题。为了应对上述问题,本文首先将Black-Box视频域的适应(BVDA)制定为更现实但具有挑战性的场景,在该场景中,仅作为Black-Box预测器提供了源视频模型。尽管在图像域中提出了一些针对黑框域适应性(BDA)的方法,但这些方法不能适用于视频域,因为视频模式具有更复杂的时间特征,难以对齐。为了解决BVDA,我们通过应用蒙版到混合策略和视频量的正则化:内部正规化和外部正规化,提出了一个新颖的内野和外部正规化网络(EXTERS),在剪辑和时间特征上执行,并进行外部正规化,同时将知识从从黑框预测变量获得的预测中提炼出来。经验结果表明,在各种跨域封闭设置和部分集合动作识别基准中,外部的最先进性能甚至超过了具有源数据可访问性的大多数现有视频域适应方法。
translated by 谷歌翻译
本文介绍了机器学习推动的各种脑电图应用程序和当前的脑电图市场生态系统。使用脑电图越来越多的开放医疗和健康数据集鼓励数据驱动的研究,并有望通过知识发现和机器学习数据科学算法开发来改善患者护理的神经病学。这项工作导致各种脑电图发展,目前构成了新的脑电图市场。本文试图对脑电图市场进行全面的调查,并涵盖脑电图的六个重要应用,包括诊断/筛查,药物开发,神经营销,日常健康,元元和年龄/残疾援助。这项调查的重点是研究领域与商业市场之间的比较和对比。我们的调查指出了脑电图的当前局限性,并指示了上面列出的每个脑电图应用程序的研究和商机的未来方向。根据我们的调查,对基于机器学习的脑电图应用程序的更多研究将导致与脑电图相关的更强大的市场。越来越多的公司将使用研究技术并将其应用于现实生活中。随着与EEG相关的市场的增长,与EEG相关的设备将收集更多的脑电图数据,并且将有更多的EEG数据供研究人员在他们的研究中使用,以作为一个良性周期。我们的市场分析表明,在上面列出的六个应用程序中使用脑电图数据和机器学习有关的研究指向脑电图生态系统和机器学习世界的增长和发展的明确趋势。
translated by 谷歌翻译
在最新的联合学习研究(FL)的研究中,广泛采用了客户选择方案来处理沟通效率的问题。但是,从随机选择的非代表性子集汇总的模型更新的较大差异直接减慢了FL收敛性。我们提出了一种新型的基于聚类的客户选择方案,以通过降低方差加速FL收敛。简单而有效的方案旨在改善聚类效果并控制效果波动,因此,以采样的一定代表性生成客户子集。从理论上讲,我们证明了降低方差方案的改进。由于差异的差异,我们还提供了提出方法的更严格的收敛保证。实验结果证实了与替代方案相比,我们计划的效率超出了效率。
translated by 谷歌翻译
随着智能设备产生的数据快速增长以及物联网(IoT)时代的处理需求的指数激增,资源丰富的云中心已被用来应对这些挑战。为了减轻云中心的负担,边缘云计算卸载成为一个有前途的解决方案,因为通过将计算任务从云到边缘设备缩小计算任务可以改善性能和服务质量(QOS),从而缩短了数据源和计算之间的接近度。已经提出了几种Edge-Cloud计算卸载的优化模型,以考虑计算成本和异质通信成本。但是,没有共同考虑几个重要因素,例如任务的异质性,节点之间的负载平衡以及计算任务所产生的利润,这导致了本文提出的PECCO的利润和面向成本的计算。考虑到该模型本质上很难并且优化目标是无可分析的,我们提出了改进的蛾式优化器PECCO-MFI,该pecco-MFI解决了原始的moth-flame优化器的某些缺陷,并将其集成在边缘环境下。在优化边缘云环境下提议的任务卸载模型时,进行了全面的实验,以验证所提出的方法的出色性能。
translated by 谷歌翻译
可以通过看不见的合作伙伴生成可以实现零拍打协调(ZSC)的代理是在合作多代理增强学习(MARL)中的新挑战。最近,一些研究通过在培训过程中将代理暴露于不同的伴侣中,从而在ZSC中取得了进展。他们通常在训练伴侣时涉及自我竞争,因为他们隐含地假设任务是同质的。但是,许多现实世界的任务都是异质的,因此以前的方法可能会失败。在本文中,我们首次研究了异质ZSC问题,并提出了一种基于协同进化的通用方法,该方法通过三个子过程进行了协调的两个代理和合作伙伴种群:配对,更新和选择。协作烹饪任务的实验结果表明需要考虑异质环境,并说明我们所提出的方法是异构合作MARL的有前途解决方案。
translated by 谷歌翻译
从3D点云中识别3D零件实例对于3D结构和场景理解至关重要。几种基于学习的方法使用语义细分和实例中心预测作为培训任务,并且无法进一步利用形状语义和部分实例之间的固有关系。在本文中,我们提出了一种用于3D份实例分割的新方法。我们的方法将语义分割利用为融合非本地实例特征(例如中心预测),并以多种和跨层次的方式进一步增强了融合方案。我们还提出了一个语义区域中心预测任务,以训练和利用预测结果来改善实例点的聚类。我们的方法优于现有方法,在Partnet基准测试方面有大幅度的改进。我们还证明,我们的功能融合方案可以应用于其他现有方法,以提高其在室内场景实例细分任务中的性能。
translated by 谷歌翻译
基于卷积神经网络(CNN)的方法提供了有效的解决方案,以增强压缩图像和视频的质量。但是,这些方法忽略了使用原始数据增强质量的方法。在本文中,我们通过提出一种基于在线学习的方法来采用HEVC内编码图像的质量增强质量增强图。当需要增强质量时,我们在线训练我们在编码器端提出的模型,然后使用参数来更新解码器端的模型。该方法不仅可以改善模型性能,而且还可以使一个模型可用于多个编码方案。此外,离散余弦变换(DCT)系数中的量化误差是各种HEVC压缩伪像的根本原因。因此,我们结合了频域先验以协助图像重建。我们设计了基于DCT的卷积层,以生成适合CNN学习的DCT系数。实验结果表明,与最先进的方法相比,我们提出的基于在线学习的双域网络(OL-DN)取得了出色的性能。
translated by 谷歌翻译
误差校正技术仍然有效地通过自动语音识别(ASR)模型来完善输出。现有的端到端错误校正方法基于编码器架构架构过程在解码阶段中所有令牌,都会产生不良的延迟。在本文中,我们提出了一种利用校正操作预测的ASR误差校正方法。更具体地说,我们在编码器和解码器之间构建一个预测指标,以了解是否应保留一个令牌(“ k”),已删除(“ d”)或更改(“ C”)以限制解码仅为输入的一部分序列嵌入(“ C”令牌)用于快速推断。三个公共数据集的实验证明了拟议方法在减少ASR校正中解码过程的潜伏期中的有效性。与固体编码器基线相比,我们提出的两个模型的推理速度至少提高了3次(3.4次和5.7次),同时保持相同的准确性(分别降低0.53%和1.69%)。同时,我们生产并发布了为ASR错误校正社区做出贡献的基准数据集,以促进沿这一行的研究。
translated by 谷歌翻译