在本文中,我们专注于3D形式抽象和语义分析的两个任务。这与目前的方法形成对比,仅关注3D形状抽象或语义分析。此外,以前的方法难以产生实例级语义结果,其限制了它们的应用。我们提出了一种用于联合估计3D形式抽象和语义分析的新方法。我们的方法首先为3D形状产生许多3D语义候选区域;然后,我们采用这些候选者直接预测语义类别,并使用深卷积神经网络同时细化候选地区的参数。最后,我们设计一种融合预测结果并获得最终语义抽象的算法,该抽象被显示为对标准非最大抑制的改进。实验结果表明,我们的方法可以产生最先进的结果。此外,我们还发现我们的结果可以很容易地应用于实例级语义部分割和形状匹配。
translated by 谷歌翻译
大多数现有的视频文本发现基准测试专注于评估单一语言和具有有限数据的场景。在这项工作中,我们引入了大规模的双语,开放世界视频文本基准数据集(BovText)。 BovText有四个功能。首先,我们提供2,000多个具有超过1,75万多帧的视频,比现有最大数据集大25倍,其中包含录像中的附带文本。其次,我们的数据集涵盖了具有多种各种场景的30多个开放类别,例如Life VLog,驾驶,电影等。第三,为不同的代表提供了丰富的文本类型注释(即标题,标题或场景文本)视频中的意义。第四,BOVTEXT提供双语文本注释,以促进多种文化的生活和沟通。此外,我们提出了一个与变压器的端到端视频文本发现框架,被称为TransVtspotter,它通过简单但高效的关注的查询密钥机制解决了视频中的多东方文本。它将来自前一个帧的对象特征应用于当前帧的跟踪查询,并引入旋转角度预测以适合多大学实例。在ICDAR2015(视频)上,Transvtspotter以44.1%的Mota,9 FPS实现最先进的性能。 DataSet和TransVtspotter的代码可以在GitHub中找到:COM = Weijiawu = BovText和GitHub:Com = Weijiawu = Transvtspotter。
translated by 谷歌翻译
开发对手挑战NLP系统的方法是提高模型性能和解释性的有前途的途径。在这里,我们描述了团队在第一个动态对抗数据收集(DADC)的任务1中“长角牛”的方法,该研讨会要求团队手动欺骗一个模型,以挖掘出挖掘的问题回答任务。我们的团队首先结束,模型错误率为62%。我们主张采用系统的,语言知情的方法来制定对抗性问题,并描述了试点实验的结果以及我们的官方提交。
translated by 谷歌翻译
在过去的几年中,基于变压器的预训练的语言模型在行业和学术界都取得了惊人的成功。但是,较大的模型尺寸和高运行时间延迟是在实践中应用它们的严重障碍,尤其是在手机和物联网(IoT)设备上。为了压缩该模型,最近有大量文献围绕知识蒸馏(KD)的主题长大。然而,KD在基于变压器的模型中的工作方式仍不清楚。我们取消了KD的组件,并提出了一个统一的KD框架。通过框架,花费了23,000多个GPU小时的系统和广泛的实验,从知识类型的角度,匹配策略,宽度深度折衷,初始化,型号大小等。在培训前语言模型中,对先前最新的(SOTA)的相对显着改善。最后,我们为基于变压器模型的KD提供了最佳实践指南。
translated by 谷歌翻译
在本文中,我们提出并验证一个无监督的概率模型高斯潜在的迪里奇莱特分配(GLDA),以从重复的,多元的心理生理样本中从多个固有不同的个体中收集的反复,多元心理生理样本。心理学和医学研究严重涉及测量从一系列参与者的潜在相关但单独的不确定的变量,以获取诊断,需要进行聚类分析。传统的概率聚类模型(例如高斯混合模型(GMM))假定组件分布的全球混合物,这对于不同患者的观察可能并不现实。 GLDA模型从自然语言处理中借用了流行主题模型的潜在Dirichlet分配(LDA)的个体特异性混合结构,并将其与GMM的高斯组件分布合并,以适合连续类型数据。我们使用Stan(一种概率建模语言)实施了GLDA,并将其应用于两个数据集,一个包含生态瞬时评估(EMA),以及通过心电图和阻抗心脏图的其他心脏测量。我们发现,在这两个数据集中,GLDA学习的类体重与临床评估的抑郁,焦虑和压力评分的相关性明显高于基线GMM所产生的评分。我们的发现证明了GLDA比常规有限混合模型的优势从重复的多元数据中发现人类状态,这可能是由于对参与者间差异的潜在潜在差异的更好表征。需要未来的工作来验证该模型在更广泛的应用程序上的实用性。
translated by 谷歌翻译
为了解决复杂环境中的任务,机器人需要从经验中学习。深度强化学习是一种常见的机器人学习方法,但需要大量的反复试验才能学习,从而限制了其在物理世界中的部署。结果,机器人学习的许多进步都取决于模拟器。另一方面,模拟器内部的学习无法捕获现实世界的复杂性,很容易模拟器不准确,并且由此产生的行为并不适应世界上的变化。 Dreamer算法最近通过在学习的世界模型中进行计划,表现出巨大的希望,可以从少量互动中学习,从而超过了视频游戏中的纯强化学习。学习一个世界模型来预测潜在行动的结果,使计划可以在想象中进行计划,从而减少了真实环境中所需的反复试验量。但是,尚不清楚梦想家是否可以促进更快地学习物理机器人。在本文中,我们将Dreamer应用于4个机器人,以直接在网上学习,直接在现实世界中,而无需模拟器。 Dreamer训练一个四倍的机器人,从头开始,站起来,站起来,仅在1小时内就没有重置。然后,我们推动机器人,发现Dreamer在10分钟内适应以承受扰动或迅速翻身并站起来。在两个不同的机器人臂上,Dreamer学会了直接从相机图像和稀疏的奖励中挑选和放置多个物体,从而接近人类的性能。在轮式机器人上,Dreamer学会了纯粹从相机图像导航到目标位置,从而自动解决有关机器人方向的歧义。在所有实验中使用相同的超参数,我们发现Dreamer能够在现实世界中在线学习,建立强大的基线。我们释放我们的基础架构,用于世界模型在机器人学习中的未来应用。
translated by 谷歌翻译
生成的开放域对话系统可以从外部知识中受益,但是缺乏外部知识资源和寻找相关知识的困难限制了该技术的发展。为此,我们使用动态服务信息提出了一个知识驱动的对话任务。具体而言,我们使用大量的服务API,可以作为外部知识来源提供高覆盖范围和时空敏感性。对话系统生成查询以请求外部服务以及用户信息,获取相关知识,并基于此知识生成响应。为了实现此方法,我们收集并发布了第一个开放式域中国服务知识对话数据集Dusinc。同时,我们构建了一个基线模型柏拉图 - 线,该模型实现了对话的自动利用。自动评估和人类评估都表明,我们提出的新方法可以显着改善开放域对话的效果,并且与对话预培训模型Plato-2相比,人类评估中的会话级总数提高了59.29%。数据集和基准模型将被开源。
translated by 谷歌翻译
多模式的细粒情感分析最近由于其广泛的应用而引起了人们的关注。但是,现有的多模式细颗粒情感数据集最关注注释文本中的细粒元素,但忽略图像中的元素,这导致视觉内容中的细粒度元素没有得到应有的全部关注。在本文中,我们提出了一个新的数据集,即多模式方面类别情感分析(MACSA)数据集,其中包含超过21k的文本图像对。该数据集为文本和视觉内容提供细粒度的注释,并首先将方面类别用作枢轴,以对齐两种模态之间的细粒元素。基于我们的数据集,我们提出了多模式ACSA任务和基于多模式的对齐模型(MGAM),该模型(MGAM)采用了细粒度的跨模式融合方法。实验结果表明,我们的方法可以促进基线比较,以实现该语料库的未来研究。我们将使数据集和代码公开可用。
translated by 谷歌翻译
联合学习(FL),使不同的医疗机构或客户能够在没有数据隐私泄漏的情况下进行协作培训模型,最近在医学成像社区中引起了极大的关注。尽管已经对客户间数据异质性进行了彻底的研究,但由于存在罕见疾病,阶级失衡问题仍然不足。在本文中,我们提出了一个新型的FL框架,用于医学图像分类,尤其是在处理罕见疾病的数据异质性方面。在Fedrare中,每个客户在本地训练一个模型,以通过客户内部监督对比度学习提取高度分离的潜在特征,以进行分类。考虑到有限的稀有疾病数据,我们建立了积极的样本队列以进行增强(即数据重采样)。 Fedrare中的服务器将从客户端收集潜在功能,并自动选择最可靠的潜在功能作为发送给客户的指南。然后,每个客户都会通过局部间的对比损失共同训练,以使其潜在特征与完整课程的联合潜在特征保持一致。通过这种方式,跨客户的参数/特征差异有效地最小化,从而可以更好地收敛和性能改进。关于皮肤病变诊断的公共可用数据集的实验结果表明,Fedrare的表现出色。在四个客户没有罕见病样本的10客户联合环境下,Fedrare的平均水平准确度平均增长了9.60%和5.90%,与FedAvg和FedAvg的基线框架和FedArt方法分别相比。考虑到在临床情况下存在罕见疾病的董事会,我们认为Fedrare将使未来的FL框架设计受益于医学图像分类。本文的源代码可在https://github.com/wnn2000/fedrare上公开获得。
translated by 谷歌翻译
阿尔茨海默氏病(AD)的早期诊断对于促进预防性护理和延迟进展至关重要。基于语音的自动广告筛选系统为其他临床筛查技术提供了一种非侵入性,更可扩展的替代方案。此类专业数据的稀缺性会导致模型选择和特征学习的不确定性。为此,本文调查了功能和模型组合方法的使用,以改善Bert和Roberta预先训练的文本编码有限数据的域微调的鲁棒性,然后在将结果的嵌入功能馈入后端分类器集合之前通过多数投票制定最终的广告检测决定。在ADRESS20挑战数据集上进行的实验表明,使用模型和功能组合在系统开发中获得了一致的性能改进。使用手册和ASR语音转录本在ADRESS20测试集上分别获得了91.67%和93.75%的最先进的AD检测精度,该准确的准确性是由48位老年人组成的。
translated by 谷歌翻译