自动抑郁症检测的最新进展主要来自模态融合和深度学习方法。然而,多模式方法在数据收集阶段存在显着的困难,而深度学习方法的不透明性降低了其可信度。目前的这项工作提出了一个基于文本的多任务BLSTM模型,该模型具有预训练的单词嵌入。我们的方法输出抑制存在结果以及预测的严重性评分,最终达到0.87的最新F1评分,优于之前的多模态研究。与目前可用的基于文本的方法相比,我们还实现了最低的RMSE。此外,通过利用每个时间步骤的注意机制,我们分析了在预测郁状态方面贡献最大的句子/单词。令人惊讶的是,“无意义”的单词/副语言信息,例如“真”和“呃”,是我们模型在做出抑郁预测时的指标。这是第一次透露,在谈话中的填充者是深度学习模型的抑郁警报。
translated by 谷歌翻译
越来越多的研究揭示了机器对音频事件的感知,其中大部分涉及检测和分类任务。然而,人类对音频场景的感知不仅涉及检测和分类音频声音,还涉及总结不同音频事件之间的关系。已经进行了诸如图像标题之类的可比较研究,但音频领域仍然非常贫瘠。本文介绍了一个用于音频字幕的手动注释数据集。目的是为音频场景描述自动生成自然语句,并弥合机器对音频和图像的感知之间的差距。整个数据集在曼德林中标记,我们还包括翻译的英语注释。为英语和普通话提供了基线编码器 - 解码器模型。类似的BLEUscores是针对两种语言派生的:我们的模型可以基于数据集生成可理解的和与数据相关的标题。
translated by 谷歌翻译
我们通过$ \ ell_1 $ -minimization研究从一组信号中全局恢复字典的问题。我们假设信号是asi.i.d生成的。来自完整参考字典$ D ^ * \ in \ mathbb R ^ {K \ times K} $的$ K $原子的随机线性组合,其中线性组合系数来自伯努利型模型或精确稀疏模型。首先,我们获得必要且充分的规范条件,引用的字典$ D ^ * $是预期的$ \ ell_1 $目标函数的一个尖锐的局部最小值。我们的结果大大扩展了Wu和Yu(2015)的结果,并允许组合系数是非负的。其次,我们在所引用的字典的目标值最小的区域上获得显式绑定。第三,我们证明了参考字典是唯一的尖锐局部最小值,从而建立了第一个已知的$ \ ell_1 $ -minimization字典学习的全局属性。在理论结果的推动下,我们引入了基于扰动的测试来确定adictionary是否是目标函数的尖锐局部最小值。此外,我们还提出了一种新的基于Block CoordinateDescent的字典学习算法,称为DL-BCD,保证具有单调收敛性。模拟研究表明DL-BCD在恢复率方面具有竞争性,与许多状态相比。 -art字典学习算法。
translated by 谷歌翻译
车辆重新识别是一个重要的问题,随着视频监控和智能传输应用的快速扩展而变得可取。通过回顾人类视觉的识别过程,我们发现当人类识别不同的车辆时存在本地的等级依赖性。具体地,人类总是首先确定一个车辆的粗粒度类别,即汽车模型/类型。然后,在预测的汽车模型/类型的分支下,他们将通过细微的视觉线索(例如,定制的绘画和挡风玻璃)在细粒度水平上识别特定的车辆。受粗到细分层过程的启发,我们提出了一种用于车辆重新识别的端到端基于RNN的分层注意(RNN-HA)分类模型。 RNN-HA由三个相互耦合的模块组成:第一个模块生成车辆图像的图像表示,第二个层次模块模拟上述层级依赖关系,最后一个注意模块侧重于捕获特定车辆彼此之间的细微视觉信息识别。通过对两个车辆重新识别基准数据集VeRi和VehicleID进行全面的实验,我们证明了所提出的模型实现了超越现有技术的卓越性能。
translated by 谷歌翻译
仅从原始样本到相应的二进制标签学习一个投影矩阵太严格,并且因此会丢失一些数据的固有几何结构。在本文中,我们提出了一种新的基于过渡子空间学习的最小二乘回归(TSL-LSR)模型形式分类图像分类。 TSL-LSR的主要思想是学习原始样本和二进制标签之间的过渡子空间,以缓解严格投影学习引起的过度拟合问题。此外,为了反映转移矩阵的基础低秩结构并且学习更多判别性投影矩阵,在转移子空间中增加了低秩约束。几个图像数据集的实验结果证明了所提出的TSL-LSR模型与最先进的算法相比的有效性
translated by 谷歌翻译
在本文中,我们专注于面部表情翻译任务,并提出一个新的表达式条件GAN(ECGAN),它可以学习基于一个额外的表达属性从一个图像域到另一个图像域的映射。所提出的ECGAN是通用框架,并且适用于不同的表达生成任务,其中特定的面部表情可以通过条件属性标签容易地控制。此外,我们还介绍了一种新颖的面膜,以减少背景变化的影响。此外,我们提出了在野外进行面部表情生成和识别的整个框架,其包括两个模块,即生成和识别。最后,我们在几个公共面部数据集上评估我们的框架,其中主体具有不同的种族,光照,遮挡,姿势,颜色,内容和背景条件。尽管这些数据集非常多样化,但定性和定量结果都表明我们的方法能够准确,稳健地生成面部表达。
translated by 谷歌翻译
将对象解构为内容和风格的两个正交空间是具有挑战性的,因为每个对象可以不同地且不可预测地影响视觉观察。很少有人可以访问分离影响的大量数据帮助。在本文中,我们提出了一种新的框架,以完全无监督的方式容忍这种解缠结的表示。在双分支Autoencoder框架中解决此问题。对于结构内容分支,我们将潜在因子投影到一个软结构化的点对象中,并用先验知识得到的损失约束它。此约束鼓励分支提取几何信息。 Anotherbranch学习补充风格信息。这两个分支形成了一个有效的框架,可以解开对象的内容风格表示,而不需要任何人类注释。我们在四个图像数据集上评估我们的方法,在这些数据集上我们展示了合成和现实世界数据中的优越解开和视觉类比质量。我们能够生成具有256 * 256分辨率的非常逼真的图像,这些图像明显地解开了不确定和风格。
translated by 谷歌翻译
多视图子空间聚类旨在根据其基础子空间结构将一组多源数据划分为多个组。尽管基于光谱聚类的方法在多视图聚类中实现了推广,但是它们的效用受到隔离​​亲和矩阵构造和聚类指示符估计的单独学习方式的限制。在本文中,我们建议在统一模型中共同学习自我表征,继续和离散集群指标。我们的模型可以探索每个视图的子空间结构并融合它们以便同时进行聚类。两个基准数据集的实验结果表明,我们的方法优于其他现有的竞争性多视图聚类方法。
translated by 谷歌翻译
机器人装配代表了一组用于执行学习和变量合规控制的基准问题,其具有复杂的接触操纵。将强化学习应用于物理机器人的关键挑战之一是样本的复杂性,需要大量的学习经验。我们通过模型引导探索将迭代重构模型纳入学习过程,从而缓解了这个样本复杂性问题。然而,拟合物理环境的局部模型是一个主要困难。在这项工作中,aKalman滤波器用于将自适应线性动力学与来自分析描述的粗糙模型相结合,并证明比现有方法提供更准确的预测。实验结果表明,所提出的模型拟合策略可以结合到模型预测控制器中,为学习加速产生良好的探索行为,同时保留不确定环境下无模型强化学习的优势。除了样本复杂性之外,在操作期间不可避免的机器人过载也会限制学习效率。为了解决这个问题,我们提出了一种方法来限制合规控制系统中最大可能的潜在能量,从而将接触力保持在合理范围内。
translated by 谷歌翻译
无监督域适应(UDA)解决了由于训练和测试集之间的域转换而导致的性能退化问题,这在计算机视觉应用中是常见的。大多数现有的UDA方法都是基于矢量形式的数据,尽管可视化应用中的典型数据或特征格式是多维张量。此外,目前的方法,包括深度网络方法,假设提供了丰富的标记源样本用于训练。然而,由于在实践中昂贵的注释成本,标记的源样本的数量总是有限的,使得观察到次优性能。在本文中,我们建议通过学习张量空间中的结构化字典来寻求多维数据的判别表示。字典分离特定于域的信息和特定于类的信息,以保证对域的鲁棒性。此外,开发了一种伪标签估计方案,在算法迭代中结合了判别分析,避免了外部分类器的设计。我们在具有有限源样本的不同数据集上执行广泛的结果。实验结果表明,所提出的方法优于最先进的方法。
translated by 谷歌翻译