多模态情绪分析是研究由语言,视觉和声学模式表达的说话者情感的核心研究领域。多模态学习中的中心挑战涉及推断可以处理和关联来自这些模态的信息的联合表示。然而,现有工作通过要求所有模态作为输入来学习联合表示,因此,学习的表示可能对测试时的噪声缺失模态敏感。随着机器翻译中序列序列(Seq2Seq)模型的最近成功,有机会探索在测试时可能不需要所有输入模态的联合表示的新方法。在本文中,我们提出了一种通过在模态之间进行转换来学习联合表示的方法。我们的方法基于以下关键洞察:从源到目标模态的转换提供了仅使用源模态作为输入来学习联合表示的方法。我们使用循环一致性损失来增强模态转换,以确保我们的联合表示保留最大的信息。一旦我们的翻译模型使用配对的多模态数据进行训练,我们只需要在测试时从源模态获得最终情绪预测的数据。这确保了我们的模型在其他模态中保持强大的功能或缺少信息。我们使用耦合的翻译预测目标训练我们的模型,并在多模态情感分析数据集上实现最新的结果:CMU-MOSI,ICT-MMMO和YouTube。另外的实验表明,我们的模型学习越来越多的判别性联合表示,具有更多的输入模态,同时保持对丢失或扰动模态的鲁棒性。
translated by 谷歌翻译
多模式机器学习是跨越语言,视觉和声学模式的核心研究领域。多模式学习的核心挑战涉及学习表示,可以处理和关联来自多种模态的信息。在本文中,我们提出了两种使用序列到序列(Seq2Seq)方法进行联合多模态表示的无监督学习的方法:a \ textit {Seq2Seq模态翻译模型}和\ textit {Hierarchical Seq2Seq模态翻译模型}。我们还探讨了这些seq2seq模型的多模式输入和输出的多种不同变化。我们使用CMU-MOSI数据集进行多模态情感分析的实验表明,我们的方法学习的信息多模态表示优于基线并在多模态情感分析中实现改进的性能,特别是在我们的模型能够将F1得分提高12分的双峰情况下。我们还讨论了多模式Seq2Seq方法的futuredirections。
translated by 谷歌翻译
在本文中,我们提出了一种针对低功率汽车级SoC优化的多任务卷积神经网络(CNN)架构。我们介绍了基于统一架构的网络,其中编码器在两个任务之间共享,即检测和分段。提议的网络运行速度为25FPS,分辨率为1280x800。我们简要讨论了用于优化网络架构的方法,例如直接使用原生YUV图像,优化图层和特征图以及应用量化。我们还在设计中关注内存带宽,因为卷积是数据密集型的,大多数SOC都是带宽瓶颈。然后,我们展示了我们提出的专用CNN加速器网络的效率,该加速器为从硬件执行和相应的运行时间获得的检测和分段任务提供关键性能指标(KPI)。
translated by 谷歌翻译
随着机器学习(ML)库和框架的激增,以及它们使用的编程语言,以及数据加载,转换,准备和挖掘的操作,ML模型开发正变得越来越艰巨。此外,由于过多的基于云的ML模型开发平台,硬件的异构性,更多地关注利用边缘计算资源进行低延迟预测服务,并且通常缺乏对执行ML工作流所需资源的充分理解,因此ML模型部署需要专业知识以最低的成本有效管理ML工作流程的生命周期。为了应对这些挑战,我们提出了端到端数据分析,一种名为Stratum的无服务器平台.Stratum可以部署,安排和动态管理数据提取工具,直播应用,批量分析工具,ML-as-a-service(用于推理工作)和云雾边缘光谱中的可视化工具。本文描述了Stratum架构,突出了它解决的问题。
translated by 谷歌翻译
随着深度学习在广泛应用中的成功,基于神经网络的机器学习技术已经成为加速磁共振成像(MRI)的一种兴趣。通过计算机视觉和图像处理的深度学习技术所引发的一些想法已成功应用于低剂量计算机断层扫描和加速MRI的压缩感知精神的非线性图像重建。尽管它是当前使用的加速MR采集的事实标准,但仍然不太频繁地研究多线圈信息的额外集成以恢复MRI重建过程中的缺失空间线。该手稿概述了最近专门用于改善平行成像的机器学习方法。并行MRI的一般背景介绍是围绕图像空间的经典视图和基于k空间的方法构建的。涵盖了线性和非线性方法,随后讨论了最近使用机器学习进一步改进并行成像的努力,特别是使用人工神经网络。介绍了引入改进的正则化器的基于图像域的技术以及基于k空间的方法,其中重点是使用神经网络的更好的插值策略。讨论了问题和未解决的问题,以及为社区制作开放数据集和基准的重要努力。
translated by 谷歌翻译
如今,轨道车辆本地化基于基础设施侧的Balises(信标)以及车载里程,以确定铁路段是否被占用。这种粗略锁定导致铁路网络的次优使用。新的铁路标准提出使用以铁路车辆为中心的移动块来增加网络的容量。然而,这种方法需要对所有车辆进行准确而稳健的位置和速度估算。在这项工作中,我们研究了当前视觉和视觉惯性运动估计框架对铁路应用的适用性,挑战和局限性。在工业,郊区和环境中记录的多个数据集中,对RTK-GPS地面实况进行了评估。我们的研究结果表明,立体视觉惯性测量法具有很大的潜力,可以提供精确的运动估计,因为它具有补充传感器模态,并且在与其他框架相比具有挑战性的情况下表现出优越的性能。
translated by 谷歌翻译
外骨骼可以放大操作员的力量,可以对未知物体进行重要操作。但是,这种行为很难实现;它需要外骨骼来感知和放大操作者的相互作用力,同时保持稳定。但是,当连接到运营商时,放大和稳健稳定的目标从根本上构成了冲突。作为一种解决方案,我们推出了一种带有弹性系统的设计,该弹簧与力敏感的袖口相连。这使我们能够设计一种名义上被动的外骨骼顺应性行为,即使在高放大率的情况下也是如此。实践,时间延迟和离散时间过滤器阻止我们的策略在时间上实现被动性,但设计的合规性仍然使得外骨骼对于类似弹簧的人类行为更加健壮。我们的外骨骼由一系列弹性致动器(SEA)驱动,它将另一个弹簧引入系统。我们表明,塑造外骨骼的袖带顺应性可以与形成SEA的弹簧顺应性大致相同。因此,我们引入了反馈控制器和gaintuning方法,该方法利用了现有的SEA合规性整形技术。我们将我们的战略称为“双重合规塑造”方法。由于具有较大的放大率,该控制器倾向于放大非线性传输摩擦效应,因此我们还提出了“传输扰动观测器”来缓解这一缺点。我们的方法在单一自由度肘外骨骼上得到验证。
translated by 谷歌翻译
本文提出了采集汤普森采样(ATS),这是一种基于随机过程采样多采集函数的思想的批量贝叶斯优化算法(BO)。我们通过采集函数对一组模型参数的依赖来定义该过程。 ATS在概念上简单,直接实现,与其他批处理BO方法不同,它可以用于并行化任何顺序采集功能。为了提高多模态任务的性能,我们表明ATS可以与现有技术结合以实现不同探索 - 利用交易,并考虑未决的功能评估。我们在各种基准函数和流行的梯度增强树算法的超参数优化上进行了实验。这些证明了我们的算法与两个最先进的批量BO方法的竞争力,以及它对经典并行Thompson采样BO的优势。
translated by 谷歌翻译
神经形态硬件的超参数和学习算法通常是手工选择的。相比之下,他们旨在模仿的大脑中神经元网络的超参数和学习算法已经通过广泛的进化和发展过程进行了优化,这些过程具有特定的计算和学习任务范围。有时这个过程是通过遗传算法模拟的,但这些过程需要自己设计细节,并倾向于提供有限范围的改进。我们采用其他强大的无梯度优化工具,例如交叉熵方法和进化策略,以便将生物优化过程的功能传递给神经形态硬件。作为一个例子,我们表明这种方法产生的神经形态代理可以从奖励中非常有效地学习。特别地,元可塑性,即它们使用的学习规则的优化,实质上增强了硬件的基于奖励的学习能力。此外,我们首次展示了学习到学习从这些硬件中获益,特别是从先前的学习经验中提取抽象知识的能力,加速学习新的但相关的任务。学习学习特别适合加速神经形态硬件,因为它可以执行所需的大量网络计算。
translated by 谷歌翻译
超像素算法是计算机视觉算法(例如分割,对象跟踪和定位)的常见预处理步骤。 Manysuperpixel方法仅依赖于颜色特征进行分割,在低对比度区域中限制性能以及对红外或医学图像的适用性,其中对象边界具有广泛的外观可变性。我们研究了在SLIC超像素算法中包含深度图像特征以用于超级级图像表示。此外,我们设计了一个可训练的超像素算法,产生一个可应用于不同任务的中间特定于域的图像表示。基于聚类的超像素算法被转换为逐像素分类任务,并且从语义分割数据集导出超像素训练数据。我们的结果表明,这种方法能够始终如一地提高超像素质量。
translated by 谷歌翻译