在本文中,我们提出了一种通过无序的固定长度位串来表示指纹图像的方法,该方法提供了改进的精度性能,更快的匹配时间和可压缩性。首先,我们设计了一个新的基于minutia的局部结构,该结构由像素空间中的2D椭圆高斯函数的混合建模。通过将局部结构与与其相关联的细节数进行归一化,将每个局部结构映射到欧几里德空间。这个简单但至关重要的关键点可以实现两个局部结构的快速相异性计算,其中欧氏距离无失真。还引入了基于细节的局部结构的基于纹理的互补局部结构,其中两者都可以通过主成分分析进行压缩并且在欧几里德空间中容易融合。然后通过K均值聚类算法将融合的局部结构转换为K位有序串。仅使用欧几里德距离的这种计算链对于快速和有区别的位串转换是至关重要的。通过手指特定的比特训练算法可以进一步提高准确度,其中利用两个标准来选择有用的比特位置以进行匹配。在指纹验证竞赛(FVC)数据库上进行实验,以与现有技术进行比较,以显示所提出的方法的优越性。
translated by 谷歌翻译
本文提出了一种新的分类问题集成学习方法,即投影寻踪随机森林(PPF)。 PPF使用Lee等人引入的PPtreealgorithm。 (2013年)。在PPF中,通过分割随机选择的变量的线性组合来构造树。 Projectionpursuit用于选择最佳分类的变量投影。利用变量的线性组合来分离类,需要考虑变量之间的相关性,这允许PPF在组之间的分离发生变量组合时优于传统的随机森林。此处介绍的方法可用于多类问题,并实现为R(R Core Team,2018)软件包,PPforest,可在CRAN上获得,开发版本位于https://github.com/natydasilva/PPforest。
translated by 谷歌翻译
Shi,Huang和Lee(2017)通过将基于传输的依赖解析器的动态编程实现与最小的双向LSTMfeature集合相结合,获得了英语和中文依赖解析的最新结果。但是,他们的结果仅限于投影解析。在本文中,我们通过提供MH_4算法的第一个实际实现来扩展他们的方法以支持非投射性,这是一种$ O(n ^ 4)$轻度非投射动态编程解析器,在非投影树库上具有非常高的覆盖率。为了使MH_4与最小的基于转换的特征集兼容,我们引入了基于转换的解释,其中将较小的项映射到转换序列。因此,我们获得了基于非投影过渡的解析的全局解码的第一次实现,并且凭经验证明它在解析许多高度非投射语言时比它的投射对象更有效。
translated by 谷歌翻译
最近,没有并行数据的语音转换(VC)已经成功地适用于多目标场景,其中训练单个模型以将输入语音转换为许多不同的扬声器。然而,这种模型受限于它只能将语音转换为训练数据中的扬声器,这缩小了VC的适用场景。在本文中,我们提出了一种新颖的一次性VC方法,它只能通过源和目标说话者的示例话语来执行VC,并且在训练期间甚至不需要看到源和目标说话者。这是通过将说话者和内容表示与实例正态化(IN)解开来实现的。客观和主观评价表明,我们的模型能够产生类似于目标说话者的声音。除了性能测量之外,我们还证明该模型能够在没有任何监督的情况下学习有意义的演讲者表示。
translated by 谷歌翻译
为全世界95%以上的资源提供大量用于训练ASR系统的注释语音数据仍然很困难。然而,我们注意到人类婴儿开始通过少量示例词的声音(或语音结构)来学习语言,并且在没有听到大量数据的情况下将这些知识“概括”为其他词语。我们在这方面开展了一些初步工作。音频Word2Vec用于从口语(信号段)学习语音结构,而另一个自动编码器用于从文本词中学习语音结构。上述两者之间的关系可以在上述两个训练有素之后共同学习。这种关系可用于具有非常低资源的语音识别。在对TIMMIT数据集的初步实验中,只有2.1小时的语音数据(其中2500个口语单词被注释,其余未标记)的单词错误率为44.6%,如果4.1小时的语音数据,这个数字可以减少到34.2%(其中有20000个口语被注释)。这些结果并不令人满意,但是起点很好。
translated by 谷歌翻译
准确识别解剖标志是颅颌面(CMF)骨骼变形分析和手术计划的关键步骤。可用方法需要对感兴趣的对象进行分割以进行精确的标记。与此类似,我们在本研究中的目的是使用CMF骨骼的固有关系来执行解剖标记,而无需明确地对其进行分割。我们提出了一种新的深度网络架构,称为关系推理网络(RRN),用于准确了解地标的局部和全局关系。具体而言,我们感兴趣的是学习CMF区域中的地标:下颌骨,上颌骨和鼻骨。所提出的RRN以端到端的方式工作,利用基于密集块单元的地标的学习关系,而不需要分段。对于给定的几个界标作为输入,所提出的系统准确且有效地将剩余的界标定位在上述骨骼上。为了全面评估RRN,我们对250名患者进行了锥形束计算机断层扫描(CBCT)扫描。即使在骨骼中存在严重的病理或变形时,所提出的系统也非常准确地识别界标位置。建议的RRN还揭示了地标之间的独特关系,这有助于我们推断出几个有关地标点信息的推理。 RRN对于标记的顺序是不变的,并且它允许我们发现在感兴趣的对象(下颌骨)或附近的对象(上颌骨和鼻窦)内定位的地标的最佳配置(数量和位置)。据我们所知,这是第一个使用深度学习找到对象解剖关系的算法。
translated by 谷歌翻译
最近,强化学习与深度神经网络相结合,在许多游戏类型中表现出色。它在固定游戏环境和回合制两种玩家棋盘游戏中超越了人类级别的表现。但是,据我们所知,没有任何研究表明过现代复杂格斗游戏的结果超过人类水平。这是由于现代格斗游戏的固有困难,包括巨大的动作空间,实时约束以及各种要素所需的性能概括。我们克服了这些挑战,并为商业游戏“Blade&Soul”制作了1v1战斗AI代理商。经过培训的代理商与五位专业游戏玩家进行了比赛,获得了62%的胜率。本文介绍了一种实用的强化学习方法,包括一种新颖的自学游戏和数据跳过技术。通过课程,奖励塑造创造了三种不同风格的奖励,并且相互训练以获得良好的表现。此外,本文还提出了数据跳过技术,这些技术可以提高数据效率并促进广阔空间的探索。
translated by 谷歌翻译
我们提出了一种新方法,通过利用运动规划器从少量人类标记数据生成“专家”训练轨迹,使机器人能够快速学会操纵对象。与传统的感知 - 计划 - 行为周期相比,我们提出了一种深度学习架构和称为PtPNet的训练方案,可以直接从物体的单个RGB-D图像估计有效的末端效应物体。此外,我们提供数据收集和增强管道可以自动生成大量(数百万)训练图像和轨迹示例,几乎不需要人工标记。我们在非基于工具的基于工具的操作任务中展示了我们的方法,特别是用钩子拾起鞋子。在硬件实验中,PtPNet生成的运动计划(开环轨迹)可靠地(在189次试验中取得89%的成功)从一系列位置和方向上拾取四种截然不同的鞋子,并可靠地拿起前所未有的鞋子。与传统的感知 - 计划 - 行为范式相比,我们的系统具有操作稀疏信息(单个RGB-D帧)的优势,比“专家”规划器(300ms对几秒)更快地产生高质量的轨迹,并有效地推广到先前的看不见的鞋子。
translated by 谷歌翻译
我们提出了一个简单的完全卷积模型,用于实时实例分割,在单个Titan Xp上以33 fps的MS COCO实现29.8 mAP,这比之前的任何竞争方法都要快得多。此外,我们仅在培训后获得此结果一个GPU。我们通过将实例分割分成两个并行子任务来实现这一点:(1)生成一组原型掩码和(2)预测每个实例的掩码系数。然后我们通过将原型与掩模系数线性组合来生成实例掩码。我们发现因为这个过程不依赖于重新制作,所以这种方法可以产生非常高质量的蒙版,并且可以免费获得时间稳定性。此外,我们分析了我们原型的紧急行为,并展示他们学习以翻译变体的方式本地化他们的实例,尽管是完全卷积的。最后,我们还提出了快速NMS,一个直接的12毫秒更快的替换forstandard NMS,只有有一个边际绩效惩罚。
translated by 谷歌翻译
我们解决了语义对应的问题,即在描绘同一对象或场景类别的不同实例的图像之间建立腺体流场。我们建议使用带有二元前景掩模注释的图像并进行合成几何变形来训练用于此任务的卷积神经网络(CNN)。使用这些掩模作为监控信号的一部分,在语义流方法之间提供了良好的折衷,其中训练数据的数量受到手动选择点对应的成本的限制,以及语义对齐,其中图像之间的单个全局几何变换的回归可能是敏感的特定于图像的细节,例如背景杂乱。我们提出了一个新的CNN架构,称为SFNet,它实现了这个想法。它利用argmax功能的新的不同版本进行端到端训练,并将面罩和流量一致性与平滑度相结合。实验结果证明了我们的方法的有效性,它显着优于标准基准测试的最新技术水平。
translated by 谷歌翻译