成立I4U联盟是为了促进联合进入NISTspeaker识别评估(SRE)。这种关节提交的最新版本在SRE 2018中,其中I4U提交是最佳表现系统之一。 SRE'18也标志着I4Uconsortium进入NIST SRE系列评估10周年。本文的主要目的是总结基于提交给SRE'18的各子系统及其融合的结果和经验教训。我们也有意提出一个共同观点,即我们在过去十年中从SRE'08到SRE'18见证了SRE参与者的进步,进展和主要范式转变。在这方面,除其他外,我们已经看到从超向量表示到深度说话人嵌入的范例转换,以及从信道补偿到领域适应的研究挑战的转变。
translated by 谷歌翻译
我们在自动化通信验证(ASV)的背景下考虑技术辅助的模仿攻击。我们使用ASV本身来选择目标扬声器,以便通过基于人类的模仿进行攻击。我们记录了6个天真的模仿,我们使用i-vector系统从VoxCeleb1和VoxCeleb2语料库(7,365个潜在目标)中选择了名人。攻击者试图模仿所选择的目标,使用独立开发的x向量系统对话语进行ASV测试。我们的主要发现是负面的:即使针对目标发言者的一些攻击者得分略有增加,我们的模仿也没有成功地欺骗x-vector系统。然而,有趣的是,所选择的目标(最近,最远,中位数)的相对排序在系统之间是一致的,这表明系统之间具有某种程度的可转移性。
translated by 谷歌翻译
将状态映射到深度强化学习中的动作主要基于视觉信息。处理视觉信息的常用方法是从图像中提取像素并将其用作强化学习代理的状态表示。但是,任何只有视觉的代理人都是由于无法感知到听觉线索而被禁止的。使用听觉,动物可以感知超出视觉范围的目标。在这项工作中,我们建议仅在国家代表中使用音频作为视觉的补充信息。我们评估了这种多模式设置对ViZDoom环境中的目标任务的影响。结果表明,当视觉信息伴随听觉特征时,年龄改善其行为。
translated by 谷歌翻译
具有基于强化学习技术的训练代理需要数千个步骤,这意味着应用于操纵机器人时的长训练期。通过在模拟环境中培训政策,我们避免了这种限制。通常,模拟和真实机器人中的动作空间尽可能相似,但如果我们想要使用通用模拟环境,则此策略将不起作用。像Doom(1993)这样的视频游戏提供了一个粗略但多用途的环境,可以用来学习各种各样的东西。然而,原始的Doom有四个不连续的运动动作,在我们的情况下,机器人有两个连续的动作。在这项工作中,我们研究了这两个不同动作空间之间的转移。我们从模拟环境中的实验开始,之后我们在真实机器人上验证结果。结果表明,微调最初学习的网络参数导致不可靠的结果,但通过保持大部分神经网络冻结,我们在模拟和真实机器人实验中获得了超过$ 90%的成功率。
translated by 谷歌翻译
在这项工作中,我们提出了一种新颖的,生物启发的多感官SLAM方法,称为ViTa-SLAM。与其他多感官SLAM变体相比,这种方法可以实现无缝的多感官信息融合,同时与环境自然地相互作用。该算法使用称为WhiskEye的仿生机器人平台在模拟设置中进行经验评估。我们的结果显示,在闭环检测方面,现有的生物启发SLAM方法的性能有望得到改善。
translated by 谷歌翻译
近似最近邻算法用于在各种应用中加速最近的邻居。然而,当前的索引方法会产生几个需要调整以达到可接受的准确度 - 速度权衡的超参数。由于耗时的索引构建过程,参数空间中的网格搜索通常是非常慢的。因此,我们提出了一种基于随机空间分割树自动调整索引方法的超参数的算法。特别是,我们使用随机k-d树,随机投影树和随机PCA树来呈现结果。调整算法为索引构建过程增加了最小的开销,但能够准确地找到最佳超参数。我们证明了该算法显着更快的现有方法,并且所使用的索引方法与查询时间中最先进的方法竞争,同时更快地构建。
translated by 谷歌翻译
人类活动检测中的现有工作使用传感器信号的单个固定长度子集对物理活动进行分类。然而,不利用传感器信号的时间连续子集。这对于由一系列简单活动(原子活动)的时间序列组成的物理活动(复合活动)进行分类并不是最佳的。体育活动包括以该运动独有的方式结合的体育活动。构成体育活动和运动并没有根本的不同。我们提出了一种基于三轴加速度计读数的人体活动检测的计算图形结构。由此产生的模型学习1)运动的原子活动的表示和2)将物理活动分类为原子活动的组成。建议的模型,以及一组基线模型,进行了八种身体活动(步行,越野行走,跑步,足球,划船,骑自行车,运动骑自行车和躺下)的同时分类测试。所提出的模型获得的总体平均准确度为77.91%(人口)和95.28%(个性化)。最佳基线模型的相应准确度分别为73.52%和90.03%。然而,在没有组合连续原子活动的情况下,所提出的模型的相应准确度分别为71.52%和91.22%。结果表明,我们提出的模型准确,优于基线模型,学会将简单活动结合到复杂活动中。复合活动可以归类为原子活动的组合。我们提出的体系结构是人类活动检测中精确模型的基础。
translated by 谷歌翻译
自主系统和人工智能在我们生活中不断增长的影响力和决策能力迫使我们考虑这些系统中嵌入的价值。但道德应该如何在这些系统中实施?在这项研究中,解决方案在哲学概念化中被视为形成人工智能伦理实践实施模型的框架。为了获得概念化的第一步,需要确定在该领域使用的主要概念。针对人工智能和道德规范中使用的关键词进行了基于关键词的系统映射研究(SMS),以帮助识别,挑战和比较当前人工智能伦理话语中使用的主要概念。在1062篇论文中,在83篇学术论文中,SMS发现了37个重新发生的关键词。 Wensuggest认为,关注寻找关键词是指导和提供AI伦理领域未来研究方向的第一步。
translated by 谷歌翻译
我们提供Toribash学习环境(ToriLLE),这是一个与视频游戏Toribash的接口,用于培训机器学习代理。 Toribash是一种类似MuJoCo的环境,由两个人形角色相互斗争,通过改变身体关节的状态来控制。 Toribash的竞争本质本身就是双代理实验,而主动玩家基础可以用于人类基线。本白皮书以其优点,缺点和局限性描述了环境,并通过成功培训强化学习代理实验性地显示了ToriLLE作为学习环境的适用性。代码可以通过以下网址获得://github.com/Miffyli/ToriLLE。
translated by 谷歌翻译
许多移动机器人依靠2D激光扫描仪进行定位,绘图和导航。然而,这些传感器不能正确地提供距离障碍物,例如玻璃面板和桌子,其实际占用率在传感器测量的高度处是不可见的。在这项工作中,我们提出了一种直接从原始2D激光器数据估计距离的方法,而不是从更丰富的传感器读数(如3D激光器或RGBD传感器)估计对障碍物的距离。为了学习从原始2D激光距离到障碍物的映射,我们将问题构建为学习任务并训练形成自动编码器的神经网络。针对手头的任务提出了一种新的网络超参数配置,并在测试集上进行了定量验证。最后,我们在Care-O-bot 4上实时定性地证明训练网络可以成功地推断出部分2D激光读取的障碍距离。
translated by 谷歌翻译