长期以来,面部表达分析一直是计算机视觉的积极研究领域。传统方法主要分析原型离散情绪的图像;结果,它们不能准确描述人类复杂的情绪状态。此外,在可见光光谱中,照明方差仍然是面部分析的挑战。为了解决这些问题,我们建议使用基于价和唤醒的维数模型,以代表更广泛的情绪,并结合近红外(NIR)图像,这对于照明变化更为强大。由于没有现有的NIR面部表达数据集具有价值标签,因此我们提供两种互补的数据增强方法(面部变形和自行车方法),可以创建具有来自现有的分类和/或可见光光数据集的尺寸情感标签的NIR Image数据集。我们的实验表明,就数据质量和基线预测性能而言,这些生成的NIR数据集与现有数据集相当。
translated by 谷歌翻译
强大的深度学习技术的发展为社会和个人带来了一些负面影响。一个这样的问题是假媒体的出现。为了解决这个问题,我们组织了可信赖的媒体挑战(TMC)来探讨人工智能(AI)如何利用如何打击假媒体。我们与挑战一起发布了一个挑战数据集,由4,380张假和2,563个真实视频组成。所有这些视频都伴随着Audios,采用不同的视频和/或音频操作方法来生产不同类型的假媒体。数据集中的视频具有各种持续时间,背景,照明,最小分辨率为360p,并且可能包含模拟传输误差和不良压缩的扰动。我们还开展了用户学习,以展示所作数据集的质量。结果表明,我们的数据集具有有希望的质量,可以在许多情况下欺骗人类参与者。
translated by 谷歌翻译
在当代流行的音乐作品中,鼓声设计通常是通过繁琐的浏览和处理声音库中预录的样品的处理来执行的。人们还可以使用专门的合成硬件,通常通过低级,音乐上毫无意义的参数来控制。如今,深度学习领域提供了通过学习的高级功能来控制合成过程的方法,并允许产生各种声音。在本文中,我们提出了Drumgan VST,这是一个使用生成对抗网络合成鼓声的插件。Drumgan VST可在44.1 kHz样品速率音频上运行,提供独立且连续的仪表类控件,并具有编码的神经网络,该网络映射到GAN的潜在空间中,从而可以重新合成并操纵前持有的鼓声。我们提供了许多声音示例和建议的VST插件的演示。
translated by 谷歌翻译
计算机辅助方法为诊断和预测脑疾病显示了附加的价值,因此可以支持临床护理和治疗计划中的决策。本章将洞悉方法的类型,其工作,输入数据(例如认知测试,成像和遗传数据)及其提供的输出类型。我们将专注于诊断的特定用例,即估计患者的当前“状况”,例如痴呆症的早期检测和诊断,对脑肿瘤的鉴别诊断以及中风的决策。关于预测,即对患者的未来“状况”的估计,我们将缩小用例,例如预测多发性硬化症中的疾病病程,并预测脑癌治疗后患者的结局。此外,根据这些用例,我们将评估当前的最新方法,并强调当前对这些方法进行基准测试的努力以及其中的开放科学的重要性。最后,我们评估了计算机辅助方法的当前临床影响,并讨论了增加临床影响所需的下一步。
translated by 谷歌翻译
强化学习是机器人抓握的一种有前途的方法,因为它可以在困难的情况下学习有效的掌握和掌握政策。但是,由于问题的高维度,用精致的机器人手来实现类似人类的操纵能力是具有挑战性的。尽管可以采用奖励成型或专家示范等补救措施来克服这个问题,但它们通常导致过分简化和有偏见的政策。我们介绍了Dext-Gen,这是一种在稀疏奖励环境中灵巧抓握的强化学习框架,适用于各种抓手,并学习无偏见和复杂的政策。通过平滑方向表示实现了抓地力和物体的完全方向控制。我们的方法具有合理的培训时间,并提供了包括所需先验知识的选项。模拟实验证明了框架对不同方案的有效性和适应性。
translated by 谷歌翻译
社交网络通常是使用签名图对社交网络进行建模的,其中顶点与用户相对应,并且边缘具有一个指示用户之间的交互作用的符号。出现的签名图通常包含一个清晰的社区结构,因为该图可以分配到少数极化社区中,每个群落都定义了稀疏切割,并且不可分割地分为较小的极化亚共同体。我们为具有如此清晰的社区结构的签名图提供了本地聚类甲骨文图的小部分。正式地,当图形具有最高度且社区数量最多为$ o(\ log n)$时,则使用$ \ tilde {o}(\ sqrt {n} \ sqrt {n} \ propatatorName {poly}(1/\ varepsilon) )$预处理时间,我们的Oracle可以回答$ \ tilde {o}(\ sqrt {n} \ operatorname {poly}(1/\ varepsilon))$ time的每个成员查询,并且它正确地分类了$(1--1-(1-) \ varepsilon)$ - 顶点W.R.T.的分数一组隐藏的种植地面真实社区。我们的Oracle在仅需要少数顶点需要的聚类信息的应用中是可取的。以前,此类局部聚类牙齿仅因无符号图而闻名。我们对签名图的概括需要许多新的想法,并对随机步行的行为进行了新的光谱分析。我们评估了我们的算法,用于在合成和现实世界数据集上构建这种甲骨文和回答成员资格查询,从而在实践中验证其性能。
translated by 谷歌翻译
神经网是电磁频谱中无线电信号分类的强大方法。由于缺乏多样化和大量的实际RF数据,这些神经网通常经过合成生成的数据训练。但是,通常不清楚如何在现实世界应用中对合成数据进行训练的神经网。本文调查了不同RF信号障碍(例如相,频率和样本率偏移,接收器过滤器,噪声和频道模型)的影响,该影响与现实世界性能有关合成训练数据。为此,本文通过不同的信号障碍的各种合成训练数据集训练神经网。训练后,对神经网的实际RF数据进行了评估,该数据由软件定义的无线电接收器收集。这种方法揭示了应包括在精心设计的合成数据集中的建模信号障碍。研究的显示示例可以将RF信号分类为短波频段的20种不同无线电信号类型之一。通过仅使用精心设计的合成训练数据,它在实际操作中可实现多达95%的精度。
translated by 谷歌翻译
瀑布是全世界老年人死亡的主要原因之一。有效检测跌倒可以减少并发症和伤害的风险。可以使用可穿戴设备或环境传感器进行秋季检测;这些方法可能会在用户合规性问题或错误警报方面困难。摄像机提供了一种被动的选择;但是,定期的RGB摄像机受到改变的照明条件和隐私问题的影响。从机器学习的角度来看,由于跌倒的稀有性和可变性,开发有效的跌落检测系统是具有挑战性的。许多现有的秋季检测数据集缺乏重要的现实考虑因素,例如不同的照明,日常生活的连续活动(ADL)和相机放置。缺乏这些考虑使得很难开发可以在现实世界中有效运行的预测模型。为了解决这些局限性,我们引入了一个新型的多模式数据集(MUVIM),其中包含四种视觉方式:红外,深度,RGB和热摄像机。这些模式提供了诸如混淆的面部特征和在弱光条件下的性能改善的好处。我们将秋季检测作为异常检测问题提出,其中仅在ADL上对定制的时空卷积自动编码器进行了训练,因此跌落会增加重建误差。我们的结果表明,红外摄像机提供了最高水平的性能(AUC ROC = 0.94),其次是热摄像机(AUC ROC = 0.87),深度(AUC ROC = 0.86)和RGB(AUC ROC = 0.83)。这项研究提供了一个独特的机会,可以分析摄像头模式在检测家庭环境中跌落的效用,同时平衡性能,被动性和隐私。
translated by 谷歌翻译
大多数风力涡轮机受到24/7的远程监测,以允许早期发现操作问题并产生损坏。我们提出了一种新的故障检测方法,用于不需要任何功能工程的振动监控传动系统。我们的方法依赖于简单的模型体系结构来实践中实现直接实现。我们建议将卷积自动编码器以自动方式从半频谱中识别和提取最相关的功能,从而节省时间和精力。因此,从过去的测量值中学习了受监测组件的正常振动响应的光谱模型。我们证明该模型可以成功区分受损部件,并从其振动响应中检测出受损的发电机轴承和损坏的变速箱零件。使用商用风力涡轮机和测试钻机的测量结果,我们表明,可以在没有光谱特征的常规前期定义的情况下进行风力涡轮机传动系统中的基于振动的故障检测。提出方法的另一个优点是,监测整个半频谱,而不是通常关注各个频率和谐波。
translated by 谷歌翻译
捕获基础数据生成过程的学习表示是数据效率和强大使用神经网络的关键问题。鲁棒性的一个关键属性应捕获,并且最近受到了很多关注,这是由不变性的概念描述的。在这项工作中,我们为学习不变表示形式提供了因果观点和新算法。从经验上讲,我们证明该算法在各种任务中都很好地工作,尤其是我们观察到域概括的最新性能,我们能够显着提高现有模型的分数。
translated by 谷歌翻译