人类可以从语言描述中获取新颖的视觉概念知识,因此我们使用少量图像分类任务来研究机器学习模型是否可以具有此功能。我们提出的模型Lide(从图像和描述中学习)具有文本解码器来生成描述和文本编码器,以获取机器或用户生成的描述的文本表示。我们证实,带有机器生成的描述的LIDE优于基线模型。此外,通过高质量的用户生成的描述进一步提高了性能。生成的描述可以看作是模型预测的解释,我们观察到这种解释与预测结果一致。我们还研究了为什么语言描述通过比较图像表示形式和特征空间中的文本表示来改善了几张图像分类性能。
translated by 谷歌翻译
多跳质量有注释的支持事实,这是考虑到答案的可解释性的阅读理解(RC)的任务,已被广泛研究。在这项研究中,我们将可解释的阅读理解(IRC)模型定义为管道模型,其具有预测未签发的查询的能力。 IRC模型通过在预测的支持事实和可解释性的实际理由之间建立一致性来证明答案预测。 IRC模型检测不可批售的问题,而不是基于不足的信息强制输出答案,以确保答案的可靠性。我们还提出了一种管道RC模型的端到端培训方法。为了评估可解释性和可靠性,我们在给定段落中考虑了在多跳问题中考虑不答复性的实验。我们表明,我们的端到端培训管道模型在我们修改的热浦问题数据集中表现出不可解释的模型。实验结果还表明,尽管预测性能与解释性之间的权衡,IRC模型尽管有折衷,但IRC模型仍然可以对先前的不可解释模型实现了可比的结果。
translated by 谷歌翻译
Our team, Hibikino-Musashi@Home (the shortened name is HMA), was founded in 2010. It is based in the Kitakyushu Science and Research Park, Japan. We have participated in the RoboCup@Home Japan open competition open platform league every year since 2010. Moreover, we participated in the RoboCup 2017 Nagoya as open platform league and domestic standard platform league teams. Currently, the Hibikino-Musashi@Home team has 20 members from seven different laboratories based in the Kyushu Institute of Technology. In this paper, we introduce the activities of our team and the technologies.
translated by 谷歌翻译
我们介绍了声学场景和事件的检测和分类的任务描述(DCASE)2022挑战任务2:“用于应用域通用技术的机器状况监控的无监督异常的声音检测(ASD)”。域转移是ASD系统应用的关键问题。由于域移位可以改变数据的声学特征,因此在源域中训练的模型对目标域的性能较差。在DCASE 2021挑战任务2中,我们组织了一个ASD任务来处理域移动。在此任务中,假定已知域移位的发生。但是,实际上,可能不会给出每个样本的域,并且域移位可能会隐含。在2022年的任务2中,我们专注于域泛化技术,这些技术检测异常,而不论域移动如何。具体而言,每个样品的域未在测试数据中给出,所有域仅允许一个阈值。我们将添加挑战结果和挑战提交截止日期后提交的分析。
translated by 谷歌翻译
我们描述了一种新的基于度量的学习方法,介绍了一个多模态框架,并在暹蒙配置中使用深音频和地震检波器编码,以设计适应和轻量级的监督模型。该框架消除了昂贵的数据标签过程的需求,并从从全峰传感系统获得的低多个多师数据学习通用表示。这些传感系统在活动识别任务中提供了许多应用和各种用例。在这里,我们打算探索来自室内环境的人类足迹运动,并分析来自基于声学和振动的传感器的小型自收集数据集的表示。核心思想是在两个感官特征之间学习合理的相似性,并将来自音频和地震孔信号的表示组合。我们提出了一种广义框架,用于从音频和地理孔信号中提取的时间和空间特征中学习嵌入的嵌入。然后,我们提取共享空间中的表示,以最大化声音和地理声音功能之间的兼容功能的学习。反过来,这可以有效地用于从学习模型执行分类任务,如通过将高相似性分配与人体脚步运动的对和不含脚步运动的对的相似性。性能分析表明,我们提出的多模式框架实现了19.99 \%的准确性增加(绝对术语),并且当训练样本从200对增加到只需500对时,避免在评估集上的过度拟合,同时令人满意地学习音频和地震听音乐声音表示。我们的结果采用基于度量的对比学习方法,用于多传感器数据,以减轻数据稀缺的影响,并利用有限的数据尺寸执行人体运动识别。
translated by 谷歌翻译