场景解析是使自治系统理解并与周围环境互动的关键步骤。有监督的深度学习方法在解决场景解析问题方面取得了很大进展,但是,需要费力的手动像素级注释。为了减轻这种努力,合成数据以及弱监督都得到了研究。尽管如此,综合生成的数据仍然遭受严重的域转移,而弱标签通常是不精确的。此外,大多数用于弱监督场景解析的现有作品仅限于显着的前景对象。因此,这项工作的目的是双重的:在可行的情况下利用合成数据,并在必要时进行弱监督。更具体地说,我们通过利用深度作为转移域来解决这个问题,因为它的合成与实际差异远低于颜色。同时,我们使用易于获得的图像级标签执行弱定位,并使用基于轮廓的新方案进行整合。我们的方法是作为教师 - 学生学习框架实施的,通过产生伪基础事实来解决转移学习问题。仅使用基于深度的自适应,该方法已经在流行的室内场景分析SUN RGB-D数据集上执行先前的传递学习方法。与传统学习中的先前技术相比,我们提出的两阶段整合不仅仅是对完全监督方法的差距。
translated by 谷歌翻译
我们采用三重态损耗作为空间嵌入正则化器来提升分类性能。标准体系结构(如ResNet和DesneNet)经过扩展,可通过最少的超参数调整来支持这两种损耗。这可以在调整预训练网络的同时提高通用性。三胞胎损失是最近提出的嵌入正则化器的强有力的替代品。然而,它适用于大批量需求和高计算成本。通过实验,我们重新评估这些假设。在推理期间,我们的网络支持分类和嵌入任务,没有任何计算开销。定量评估突出显示我们的方法在多个细粒度识别数据集上优于现有技术水平。对不平衡视频数据集的进一步评估实现了显着的改进(> 7%)。除了提高效率,三重态损失带来了检索和解释性的分类模型。
translated by 谷歌翻译
我们将视觉检索视为回归问题,将三联体损失视为回归损失。这使得能够在检索中使用丢失作为贝叶斯近似框架来进行认知不确定性估计。因此,利用蒙特卡罗(MC)采样来提高检索性能。我们的方法在两个应用中进行评估:人员重新识别和自动驾驶汽车。在多个数据集上为表演者应用程序实现了可比较的最新结果。我们利用本田驾驶数据集(HDD)进行自动驾驶应用。它提供了多种形式和相似性概念前动作动作理解。因此,我们提出了一种多模态条件检索网络。它将嵌入解嵌到单独的表示中以对不同的相似性进行编码。这种形式的联合学习消除了培训多个独立网络的需要,而没有任何性能下降。定量评估突出了我们的方法能力,在高度不确定的环境中实现了6%的改进。
translated by 谷歌翻译
大多数关于时间动作检测的工作是以离线方式制定的,其中动作的开始和结束时间是在完全观察整个视频之后确定的。然而,包括监视和驾驶员辅助系统在内的实时应用程序需要在每个视频帧到达时立即识别动作,仅基于当前和历史观察。在本文中,我们提出了一种新颖的框架,即时间递归网络(TRN),通过同时执行在线动作检测和对近期未来的预期,来描述视频帧的更大时间背景。在每个时刻,我们的方法利用累积的历史证据和预测的未来信息来更好地识别当前发生的行为,并将这两者整合到统一的端到端架构中。我们在两个流行的在线动作检测数据集,HDD和TVSeries以及另一个广泛使用的数据集THUMOS'14上评估我们的方法。结果表明TRN明显优于最先进的技术。
translated by 谷歌翻译
驾驶场景理解是智能交通系统的关键要素。为了实现能够在复杂的物理和社会环境中运行的系统,他们需要了解和学习人类如何驾驶和与交通场景交互。我们介绍本田研究院驾驶数据集(HDD),这是一个具有挑战性的数据集,可用于研究现实生活环境中的学习驾驶员行为。该数据集包括使用配备有不同传感器的装备车辆收集的旧金山湾区104小时的人类驾驶。我们提供HDD的详细分析,并与其他驾驶数据集进行比较。引入了一种新颖的注释方法,使得能够从未修剪的数据序列中研究驾驶员行为理解。作为第一步,对驾驶员行为检测的基线算法进行训练和测试,以证明所提议任务的可行性。
translated by 谷歌翻译
本文提出了一种基于采集分布的个性化计算机辅助问题生成能力评估的新颖统计方法。该方法随时间捕获学习结果,并基于采集分布而不是预校准提供灵活的测量。与以往的研究相比,所提出的方法是坚定的,特别是当学生的能力未知时。实证数据的结果表明,估计的能力与学习者的实际能力相匹配,实验组的预测试和后测试显示出显着的改善。这些结果表明,该方法可用于个性化计算机辅助测试环境的能力估计。
translated by 谷歌翻译
在过去几年中,计算机辅助语言学习领域越来越关注计算机辅助问题的产生。但是,这种方法通常会为测试者提供大量的问题,这些问题不是为任何特定的测试目的而设计的。在这项工作中,我们提出了个性化的计算机辅助问题生成,它产生了各种难度级别和类型的多项选择,包括词汇,语法和阅读理解。为了改善考生的弱点,它会根据估计的熟练程度和不正确的答案背后的不明确概念来选择问题。该结果表明,具有个性化自动测验生成的学生比仅使用计算机辅助问题生成的学生更频繁地纠正他们的错误。此外,学生在预测试和后测试之间取得了最大的进步,并正确回答了更难的问题。最后,我们调查了个性化策略,发现如果所提出的系统在他或她的熟练程度相同的水平上提供词汇问题,并且如果语法和阅读理解问题的水平低于他或她的熟练程度,则学生可以取得显着进步。 。
translated by 谷歌翻译
近年来,学习英语作为第二语言(ESL)的人数已经超过了母语人士的数量。最近的工作证明了基于阅读困难提供个性化内容的成功,例如信息检索和摘要。然而,几乎所有先前的阅读困难研究都是针对母语人士而非非本地读者而设计的。在本研究中,我们通过线性回归来估计英语语言来源的阅读水平,从而研究ESL读者的各种特征。这种估计不仅基于词汇和句法特征的复杂性,而且还基于几个新概念,包括从几个来源获得的单词和语法习得的年龄,来自WordNet的单词,以及句子之间的隐含关系。通过使用贝叶斯信息准则(BIC)来选择最优模型,我们发现单词数量,单词获取年龄和解析树高度的组合比其他竞争模型产生更好的结果。因此,我们的结果表明,提出的第二语言阅读难度估计优于其他第一语言阅读难度估计。
translated by 谷歌翻译
自然语言生成(NLG)是口语对话系统中的关键组成部分。经典NLG可以分为两个阶段:(1)句子规划:决定整体句子结构,(2)表面实现:确定特定的单词形式并将句子结构展平为astring。许多简单的NLG模型基于递归神经网络(RNN)和序列到序列(seq2seq)模型,其基本上包含编码器 - 解码器结构;这些NLG模型通过使用简单的交叉熵损失训练标准共同优化句子规划和表面实现,从头开始生成句子。然而,简单的编码器 - 解码器结构通常会产生复杂而长的句子,因为解码器必须学习所有语法和词汇知识。本文介绍了一种基于语言模式不同层次的分层解码NLG模型,表明该方法优于传统模型尺寸较小的传统方法。此外,分层解码的设计在各种NLG系统中是灵活且易于扩展的。
translated by 谷歌翻译
在本文中,我们提出了从未修剪的自然驾驶记录中对战术驾驶员行为检测的初步研究。虽然基于监督学习的检测是一种常见的方法,但是当标记数据发生时它会受到影响。手动注释既耗时又昂贵。为了强调这个问题,我们试验了一个104小时的现实世界自然主义驱动数据集,其中包含一组预定义的驱动行为。数据集中存在三个挑战。首先,在解剖学驾驶设置中预定义的驾驶行为是稀疏的。其次,驾驶行为的分布是长尾的。第三,观察到巨大的类内变化。为了解决这些问题,最近的自我监督和监督学习以及多模式的融合被用于我们的架构设计。报告了初步实验和讨论。
translated by 谷歌翻译