为了满足各种用户需求,近年来对图形布局的不同子任务进行了深入探讨。现有研究通常提出具有不同投入输出格式,专用模型体系结构和不同学习方法的任务特异性方法。但是,这些专业的方法使得适应了看不见的子任务,阻碍了不同子任务之间的知识共享,并且与设计通用模型的趋势背道而驰。在这项工作中,我们提出了Unilayout,该Unilayout以统一的方式处理图形布局生成的不同子任务。首先,我们统一地表示子任务的各种输入和输出作为令牌序列。然后,基于统一的序列格式,我们自然利用具有不同子任务的变压器的相同的编码器架构。此外,基于上述两种统一,我们进一步开发了一个同时支持所有子任务的单个模型。在两个公共数据集上的实验表明,尽管简单,单层虽然明显优于先前的特定于任务的方法。
translated by 谷歌翻译
计算文本表型是从临床注释中鉴定出患有某些疾病和特征的患者的实践。由于很少有用于机器学习的案例和域专家的数据注释需求,因此难以识别的罕见疾病要确定。我们提出了一种使用本体论和弱监督的方法,并具有来自双向变压器(例如BERT)的最新预训练的上下文表示。基于本体的框架包括两个步骤:(i)文本到umls,通过上下文将提及与统一医学语言系统(UMLS)中的概念链接到命名的实体识别和链接(NER+L)工具,SemeHR中提取表型。 ,以及具有自定义规则和上下文提及表示的弱监督; (ii)UMLS-to-to-ordo,将UMLS概念与孤子罕见疾病本体论(ORDO)中的罕见疾病相匹配。提出了弱监督的方法来学习一个表型确认模型,以改善链接的文本对umls,而没有域专家的注释数据。我们评估了来自美国和英国两个机构的三个出院摘要和放射学报告的临床数据集的方法。我们最好的弱监督方法获得了81.4%的精度和91.4%的召回,从模仿III出院摘要中提取罕见疾病UMLS表型。总体管道处理临床笔记可以表面罕见疾病病例,其中大部分在结构化数据(手动分配的ICD代码)中没有受到平衡。关于模仿III和NHS Tayside的放射学报告的结果与放电摘要一致。我们讨论了弱监督方法的有用性,并提出了未来研究的方向。
translated by 谷歌翻译
在本文中,我们介绍了Tianshou,这是一个高度模块化的Python库,用于深钢筋学习(DRL),它使用Pytorch作为后端。天舒(Tianshou)打算通过提供DRL算法的灵活和可靠的基础架构来对研究进行研究。它通过统一界面通过20多种经典算法来支持在线和离线培训。为了促进相关的研究并证明天舒的可靠性,我们发布了田肖(Tianshou)的Mujoco环境基准,涵盖了八种具有最先进性能的经典算法。我们通过https://github.com/thu-ml/tianshou/开放源。
translated by 谷歌翻译
在离线增强学习中,加权回归是一种常见方法,可以确保学习的政策与行为策略保持接近并防止选择样本外动作。在这项工作中,我们表明,由于政策模型的分配表达有限,以前的方法可能仍会在培训期间选择看不见的动作,这会偏离其最初动机。为了解决这个问题,我们通过将学习的政策分解为两个部分:表达生成行为模型和动作评估模型,采用生成方法。关键见解是,这种去耦避免学习具有封闭形式表达式的明确参数化的策略模型。直接学习行为策略使我们能够利用生成建模的现有进步,例如基于扩散的方法,以建模各种行为。至于行动评估,我们将方法与样本中的计划技术相结合,以进一步避免选择样本外动作并提高计算效率。 D4RL数据集的实验结果表明,与最先进的离线RL方法相比,我们提出的方法具有竞争性或卓越的性能,尤其是在诸如Antmaze之类的复杂任务中。我们还经验证明,我们的方法可以从包含多个独特但类似成功策略的异质数据集中成功学习,而以前的单峰政策失败了。
translated by 谷歌翻译
在基于脑电图的情感计算领域,跨数据库情绪识别是一项极具挑战性的任务,受许多因素的影响,这使得通用模型产生了不令人满意的结果。面对缺乏脑电图信息解码研究的情况,我们首先分析了通过样本空间可视化,样本聚合现象量化和对五个公共数据集的能量模式分析的不同脑电图信息(个人,会话,情绪,试验)对情绪识别的影响。并基于这些现象和模式,我们提供了各种脑电图差异的处理方法和可解释的工作。通过分析情绪特征分布模式,发现了个体的情感特征分布差异(IEFDD)。在分析了IEFDD遭受的传统建模方法的局限性之后,我们提出了基于重量的通道模型矩阵框架(WCMF)。为了合理地表征情绪特征分布模式,设计了四种重量提取方法,最佳是校正t检验(CT)重量提取方法。最后,WCMF的性能在两种实验中在跨数据库任务上进行了验证,这些实验模拟了不同的实践场景,结果表明WCMF具有更稳定和更好的情感识别能力。
translated by 谷歌翻译
目的:心电图(ECG)信号通常会遭受噪声干扰,例如基线徘徊。心电图信号的高质量和高保真重建对于诊断心血管疾病具有重要意义。因此,本文提出了一种新型的心电图基线徘徊和降噪技术。方法:我们以特定于心电图信号的条件方式扩展模型,即心电图基线徘徊和噪声去除(Descod-ECG)的基于深度分数的扩散模型。此外,我们部署了一个多拍的平均策略,以改善信号重建。我们在QT数据库和MIT-BIH噪声应力测试数据库上进行了实验,以验证该方法的可行性。采用基线方法进行比较,包括传统的基于数字过滤器和基于深度学习的方法。结果:数量评估结果表明,所提出的方法在四个基于距离的相似性指标(平方距离的总和,最大绝对正方形,根距离的百分比和余弦相似性)上获得了出色的性能,并具有3.771 $ \ pm $ 5.713 au,$ 5.713 au, 0.329 $ \ pm $ 0.258 au,40.527 $ \ pm $ 26.258 \%和0.926 $ \ pm $ 0.087。与最佳基线方法相比,这至少导致了至少20%的总体改进。结论:本文证明了Descod-ECG的最新性能用于ECG噪声,该噪声可以更好地近似真实的数据分布和在极端噪声腐败下较高的稳定性。意义:这项研究是最早扩展基于条件扩散的生成模型以去除ECG噪声的研究之一,并且Descod-ECG具有广泛用于生物医学应用的潜力。
translated by 谷歌翻译
深度学习的快速发展在分割方面取得了长足的进步,这是计算机视觉的基本任务之一。但是,当前的细分算法主要取决于像素级注释的可用性,这些注释通常昂贵,乏味且费力。为了减轻这一负担,过去几年见证了越来越多的关注,以建立标签高效,深度学习的细分算法。本文对标签有效的细分方法进行了全面的审查。为此,我们首先根据不同类型的弱标签提供的监督(包括没有监督,粗略监督,不完整的监督和嘈杂的监督和嘈杂的监督),首先开发出一种分类法来组织这些方法,并通过细分类型(包括语义细分)补充,实例分割和全景分割)。接下来,我们从统一的角度总结了现有的标签有效的细分方法,该方法讨论了一个重要的问题:如何弥合弱监督和密集预测之间的差距 - 当前的方法主要基于启发式先导,例如交叉像素相似性,跨标签约束,跨视图一致性,跨图像关系等。最后,我们分享了对标签有效深层细分的未来研究方向的看法。
translated by 谷歌翻译
本文探讨了使用或有可能用于交通视频分析的深度学习(DL)方法,强调了自动驾驶汽车(AVS)和人类手术车辆的安全安全性。我们提出了一条典型的处理管道,该管道可用于通过提取操作安全指标并提供一般提示和指南来改善交通安全性来理解和解释流量视频。该处理框架包括几个步骤,包括视频增强,视频稳定,语义和事件分割,对象检测和分类,轨迹提取,速度估计,事件分析,建模和异常检测。我们的主要目标是指导流量分析师通过为每个步骤选择最佳选择,并通过对建议最成功的常规和DL基于DL的算法进行比较分析,从而为缺乏模块提供新的设计,并为缺乏模块提供新的设计。每个步骤。我们还审查现有的开源工具和公共数据集,可以帮助培训DL模型。为了更具体,我们审查了示例性的交通问题,并提到每个问题需要步骤。此外,我们研究了与驾驶员认知评估,基于人群的监测系统,路边基础设施中的边缘计算,自动化驾驶系统(ADS)车辆(ADS)车辆的边缘计算的联系,并突出显示缺失的差距。最后,我们审查了交通监控系统的商业实施,其未来前景以及开放问题,以及对这种系统广泛使用的剩余挑战。
translated by 谷歌翻译
深度学习显示了建模复杂粒子系统(例如流体)的物理动力学的巨大潜力。但是,现有方法需要监督连续的粒子特性,包括位置和速度。在本文中,我们考虑了一种被称为流体动力学接地的部分可观察的方案,即从流体表面的顺序视觉观察中推断出流体粒子系统中的状态过渡和相互作用。我们提出了一个名为Neurofluid的可区分的两阶段网络。我们的方法由(i)粒子驱动的神经渲染器组成,该神经渲染器涉及流体物理特性到体积渲染函数中,以及(ii)优化的粒子过渡模型,以减少渲染和观察到的图像之间的差异。 Neurofluid通过共同训练这两个模型,为无监督学习基于粒子流体动力学的学习提供了第一种解决方案。显示出具有不同初始形状,粘度和密度不同的流体的基础物理学。
translated by 谷歌翻译
Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.
translated by 谷歌翻译