在本文中,我们开发Faceqgen,基于生成的对抗网络的面部图像的No参考质量评估方法,其产生与面部识别精度相关的标量质量测量。 Faceqgen不需要标记为培训的质量措施。它从使用SCFace数据库从头开始培训。 Faceqgen将图像恢复应用于未知质量的面部图像,将其转换为规范的高质量图像,即正面姿势,均匀的背景等。质量估计是原始图像和恢复图像之间的相似性,因为低质量图像由于恢复而体验更大的变化。我们比较三种不同的数值质量措施:a)原始和恢复的图像之间的MSE,b)他们的SSIM和c)甘杆菌鉴别器的输出得分。结果表明,面部QGEN的质量措施是面部识别准确性的良好估计。我们的实验包括与针对面部和一般图像设计的其他质量评估方法的比较,以便在现有技术中定位面部。这种比较表明,即使面对面识别准确性预测方面不超过最佳现有的面部质量评估方法,它也实现了足够的结果,以证明质量估计的半监督学习方法的潜力(特别是数据 - 基于每个受试者的单一高质量图像的驱动学习),具有提高未来性能的能力,通过对模型的充分改进以及竞争方法的显着优势,不需要质量标签的发展。这使得Faceqgen灵活且可扩展,而无需昂贵的数据策激。
translated by 谷歌翻译
本章的主要范围是作为面部介绍攻击检测的介绍,包括过去几年的关键资源和领域的进步。下一页呈现了面部识别系统可以面对的不同演示攻击,其中攻击者向传感器提供给传感器,主要是相机,呈现攻击仪器(PAI),这通常是照片,视频或掩码,试图冒充真正的用户。首先,我们介绍了面部识别的现状,部署水平及其挑战。此外,我们介绍了面部识别系统可能暴露的漏洞和可能的攻击,表明呈现攻击检测方法的高度重要性。我们审核不同类型的演示攻击方法,从更简单到更复杂,在哪个情况下它们可能是有效的。然后,我们总结了最受欢迎的演示文稿攻击检测方法来处理这些攻击。最后,我们介绍了研究界使用的公共数据集,以探索面部生物识别性的脆弱性,以呈现攻击,并对已知的PAI制定有效的对策。
translated by 谷歌翻译
在本文中,我们开发FaceQVEC,一种软件组件,用于估计ISO / IEC 19794-5中所考虑的每个要点的面部图像的符合性,这是一个质量标准,该标准定义了将它们可接受或不可接受的面部图像的一般质量指南用于官方文件,如护照或身份证。这种质量评估的工具可以有助于提高面部识别的准确性,并确定哪些因素影响给定的面部图像的质量,并采取行动消除或减少这些因素,例如,具有后处理技术或重新获取图像。 FaceQVEC由与上述标准中预期的不同点相关的25个单独测试的自动化,以及被认为与面部质量有关的图像的其他特征。我们首先包括在现实条件下捕获的开发数据集上评估的质量测试的结果。我们使用这些结果来调整每个测试的判定阈值。然后,我们再次在评估数据库中再次检查,该评估数据库包含在开发期间未见的新脸部图像。评估结果展示了个人测试的准确性,用于检查遵守ISO / IEC 19794-5。 Faceqvec可在线获取(https://github.com/uam-biometrics/faceqvec)。
translated by 谷歌翻译
在当代流行的音乐作品中,鼓声设计通常是通过繁琐的浏览和处理声音库中预录的样品的处理来执行的。人们还可以使用专门的合成硬件,通常通过低级,音乐上毫无意义的参数来控制。如今,深度学习领域提供了通过学习的高级功能来控制合成过程的方法,并允许产生各种声音。在本文中,我们提出了Drumgan VST,这是一个使用生成对抗网络合成鼓声的插件。Drumgan VST可在44.1 kHz样品速率音频上运行,提供独立且连续的仪表类控件,并具有编码的神经网络,该网络映射到GAN的潜在空间中,从而可以重新合成并操纵前持有的鼓声。我们提供了许多声音示例和建议的VST插件的演示。
translated by 谷歌翻译
本文介绍了广义计划(GP)问题及其解决方案的新颖代表,作为C ++程序。我们的C ++表示允许正式证明广义计划的终止,并指定其渐近复杂性W.R.T.世界对象的数量。表征C ++广义计划的复杂性,可以应用组合搜索,该搜索以复杂性顺序列举了可能的GP解决方案的空间。实验结果表明,我们称之为BFGP ++的实施,我们的实施优于先前的GP作为启发式搜索方法,用于计算以编译器式程序为代表的通用计划。最后但并非最不重要的一点是,在经典计划实例上执行C ++程序是一个无确定性的无基接地过程,因此我们的C ++表示允许我们自动在数千个对象的大型测试实例上自动验证计算的解决方案,其中有数千个对象,其中现成的古典规划人员会陷入预处理或搜索中。
translated by 谷歌翻译
从许多科目中,从一系列文本中提取频繁的单词都在很大程度上进行。另一方面,提取短语通常是由于提取短语时固有的并发症而进行的,最重要的并发症是双计数的并发症,当单词或短语出现在较长的短语中时,它们也被计算在内。已经写了几篇关于这一问题解决方案的短语挖掘的论文。但是,他们要么需要一个所谓的质量短语列表,要么可以用于提取过程,要么需要人类的互动来在此过程中识别这些质量短语。我们提出了一种消除双重计数的方法,而无需识别质量短语列表。在一组文本的上下文中,我们将主短语定义为不交叉标点标记的短语,不以停止词开头用停止单词,在这些文本中经常出现,而无需双重计数,并且对用户有意义。我们的方法可以独立地识别这种主短语而无需人类投入,并可以从任何文本中提取。已经开发了一个称为PHM的R软件包,以实现此方法。
translated by 谷歌翻译
我们介绍了MLPERF小型推理基准(FPGA)平台上MLPERF微小的推理基准的最新结果。我们使用开源HLS4ML和Finn工作流,旨在使FPGA中优化神经网络的AI硬件代码民主化。我们介绍关键字发现,异常检测和图像分类基准任务的设计和实现过程。最终的硬件实现是针对速度和效率量身定制的,可配置的,可配置的空间数据流体系结构,并引入了新的通用优化和作为本工作的一部分开发的常见工作流程。完整的工作流程从量化感知培训到FPGA实施。该解决方案部署在芯片(PYNQ-Z2)和纯FPGA(ARTY A7-100T)平台上。由此产生的提交的潜伏期低至20 $ \ mu $ s和每次推论的低至30 $ \ mu $ j的能耗。我们展示了异质硬件平台上新兴的ML基准如何催化协作和开发新技术和更容易访问的工具。
translated by 谷歌翻译
我们提出Plingo,这是具有各种概率推理模式的ASP系统clingo的扩展。Plingo以Lp^mln为中心,Lp^mln是基于Markov Logic的权重方案的ASP的概率扩展。这种选择是由于可以将核心概率推理模式映射到优化问题的事实而动机,并且LP^mln可以用作与其他概率方法相关的中间地形式主义。结果,Plingo为Lp^mln,P-Log和Problog提供了三个替代前端。相应的输入语言和推理模式是通过Clingo的多拍和理论解决功能来实现的。pling脚的核心等于在现代ASP技术方面重新实现LP^mln,并以一种基于新方法以最佳顺序进行答案集枚举的近似技术扩展。我们通过将Plingo的性能与其他概率系统进行比较,从经验上评估。
translated by 谷歌翻译
联邦学习(FL)最近由于其在保留隐私而使用分散数据的能力,最近引起了人们的关注。但是,这也提出了与参与设备的异质性有关的其他挑战,无论是在其计算能力和贡献数据方面。同时,神经体系结构搜索(NAS)已成功用于集中式数据集,从而产生了最新的结果,从而获得了受限(硬件意识)和不受约束的设置。但是,即使是在NAS和FL的交集的最新工作,也假定了与数据中心硬件的均匀计算环境,并且无法解决使用受约束,异质设备的问题。结果,在联合环境中对NAS的实际用法仍然是我们在工作中解决的一个空旷的问题。我们设计我们的系统Fedoras,在处理具有非IID分布数据的不同功能的设备时发现和培训有希望的体系结构,并提供了其在不同环境中有效性的经验证据。具体而言,我们在跨越三种不同模式(视觉,语音,文本)的数据集中评估了Fedoras,并且与最先进的联合解决方案相比,其性能更好,同时保持资源效率。
translated by 谷歌翻译
在本文中,我们推出了一种新的通用依赖树木库,用于亚马逊尼亚的一种濒危语言:秘鲁在秘鲁说的Panoan语言Kakataibo。我们首先讨论实施的协作方法,事实证明,在本科生的计算语言课程的背景下创建树库有效。然后,我们描述了树库的一般细节以及针对拟议的注释实施的特定于语言的注意事项。我们最终对词性标记和句法依赖性解析进行了一些实验。我们专注于单语和转移学习设置,在这里我们研究了另一种Panoan语言资源的Shipibo-Konibo Treebos的影响。
translated by 谷歌翻译