低成本单眼的3D对象检测在自主驾驶中起着基本作用,而其精度仍然远非令人满意。在本文中,我们挖掘了3D对象检测任务,并将其重构为对象本地化和外观感知的子任务,这有​​利于整个任务的互惠信息的深度挖掘。我们介绍了一个名为DFR-Net的动态特征反射网络,其中包含两种新的独立模块:(i)首先将任务特征分开的外观定位特征反射模块(ALFR),然后自相互反映互核特征; (ii)通过自学习方式自适应地重建各个子任务的培训过程的动态内部交易模块(DIT)。关于挑战基蒂数据集的广泛实验证明了DFR网的有效性和泛化。我们在基蒂测试集中的所有单眼3D对象探测器中排名第一(直到2021年3月16日)。所提出的方法在许多尖端的3D检测框架中也容易在较忽略的成本下以忽略的成本来播放。该代码将公开可用。
translated by 谷歌翻译
组成零射击学习(CZSL)旨在识别训练过程中从可见状态和物体形成的看不见的构图。由于与不同对象纠缠的视觉外观中相同的状态可能是不同的,因此CZSL仍然是一项艰巨的任务。某些方法使用两个训练有素的分类器识别状态和对象,忽略了对象与状态之间的相互作用的影响;其他方法试图学习状态对象组成的联合表示,从而导致可见和看不见的组成集之间的域间隙。在本文中,我们提出了一种新颖的暹罗对比度嵌入网络(场景)(代码:https://github.com/xduxyli/scen-master),以实现看不见的构图识别。考虑到状态与物体之间的纠缠,我们将视觉特征嵌入了暹罗对比度空间中,以分别捕获它们的原型,从而减轻了状态与物体之间的相互作用。此外,我们设计了一个状态过渡模块(STM),以增加训练组成的多样性,从而提高识别模型的鲁棒性。广泛的实验表明,我们的方法在三个具有挑战性的基准数据集(包括最近提出的C-QGA数据集)上的最先进方法大大优于最先进的方法。
translated by 谷歌翻译
域的概括通常需要来自多个源域的数据才能进行模型学习。但是,这种强大的假设可能并不总是在实践中成立,尤其是在数据共享高度关注,有时由于隐私问题而高度刺激的医学领域。本文研究了重要但具有挑战性的单个领域概括问题,其中在最坏情况下仅具有一个源域,可以直接概括到不同看不见的目标域。我们提出了一种在医学图像分割中解决此问题的新方法,该方法可以提取并集成了跨域不变的分割的语义形状的先验信息,即使是从单个域数据中也可以很好地捕捉,以促进分布偏移下的分割。此外,进一步设计了具有双偶然性正则化的测试时间适应策略,以促进每个看不见的域下这些形状先验的动态融合,以提高模型的通用性。对两个医学图像分割任务进行的广泛实验证明了我们在各种看不见的领域中的方法的一致改进,以及在最坏情况下,它比最先进的方法相比,它优于最先进的方法。
translated by 谷歌翻译
视觉变压器最近由于其在各种计算机视觉任务上的出色表现而引发了医学图像分析领域的新浪潮。但是,最近的基于混合/变压器的方法主要集中于变形金刚在捕获长期依赖性方面的好处,同时忽略了其艰巨的计算复杂性,高培训成本和冗余依赖性的问题。在本文中,我们建议对变形金刚进行自适应修剪进行医学图像分割,并提出轻巧有效的混合网络表达式。据我们所知,这是针对医学图像分析任务修剪变压器修剪的第一项工作。 Apformer的关键特征主要是自我监督的自我注意力(SSA),以改善依赖性建立的收敛性,高斯 - 优先相对位置嵌入(GRPE),以促进学习位置信息的学习,并自适应修剪以消除冗余计算和感知信息。具体而言,SSA和GRPE分别考虑了良好的依赖分布和高斯热图分布,作为自我注意事项和嵌入位置的先验知识,以减轻变压器的训练并为以下修剪操作奠定坚实的基础。然后,通过调整栅极控制参数以降低复杂性和性能改进来执行自适应变压器修剪,无论是查询和依赖性方面的修剪,都可以执行。在两个广泛使用的数据集上进行了广泛的实验,证明了Apformer对具有更少参数和较低GFLOPS的最新方法的显着分割性能。更重要的是,通过消融研究,我们证明了自适应修剪可以作为插头-N-play模块,以改善其他基于混合的混合/变压器方法。代码可从https://github.com/xianlin7/apformer获得。
translated by 谷歌翻译
卷积神经网络(CNN),是基于深度学习的医学图像分析的最普遍的体系结构,在功能上仍受其固有的电感偏见和不充分的接收场的限制。旨在解决这个问题的变压器由于其出色的捕获长期依赖的能力而引起了自然语言处理和计算机视觉的爆炸性关注。但是,最新的基于变压器的医学图像分割方法直接将香草变压器作为基于CNN的方法中的辅助模块应用于辅助模块,从而导致由于变压器中刚性贴片分配方案而导致严重的细节损失。为了解决这个问题,我们提出了C2FTRANS,这是一种新型的多尺度架构,将医学图像分割作为粗到精细的过程。 C2FTRAN主要由跨尺度的全局变压器(CGT)组成,该变压器(CGT)解决了CNN中的局部上下文相似性和边界感知的局部变压器(BLT),该局部变压器(BLT)克服了通过变压器中的刚性贴片分配带来的边界不确定性。具体而言,CGT在三个不同的小规模特征图上建立全球依赖性,以获得具有可接受的计算成本的丰富全球语义特征,而BLT通过在熵的指导下适应围绕边界的窗口来捕获中端依赖性,以降低计算复杂性并最小化最小基于大规模特征地图的详细损失。三个公共数据集的广泛实验结果证明了C2FTRAN的卓越性能与基于CNN的最新基于CNN和基于变压器的方法具有更少的参数和较低的拖失术。我们认为,C2Ftrans的设计将进一步激发未来在开发高效和轻量级变压器以进行医学图像细分方面的工作。本文的源代码可在https://github.com/xianlin7/c2ftrans上公开获得。
translated by 谷歌翻译
R2是一种新颖的在线任何角度路径计划者,它使用基于启发式错误或射线铸造方法在具有非凸线,多边形障碍物的2D地图中找到最佳路径。R2与传统的自由空间计划者具有竞争力,如果查询具有直接视线,请迅速找到路径。在很少有障碍轮廓的大稀疏地图上,在实践中可能会发生,R2的表现要优于自由空间规划师,并且可能比最先进的自由空间扩展计划者Anya快得多。在带有许多轮廓的地图上,Anya的性能比R2快。R2建立在Rayscan上,引入了懒惰搜索和源 - 路边计数器,可在连续的轮廓上乐观地找到继任者。这种新颖的方法绕过了锯齿状轮廓上的大多数继任者,以减少昂贵的视线检查,因此不需要预处理才能成为在线竞争性的任何角度策划者。
translated by 谷歌翻译
联合学习(FL),使不同的医疗机构或客户能够在没有数据隐私泄漏的情况下进行协作培训模型,最近在医学成像社区中引起了极大的关注。尽管已经对客户间数据异质性进行了彻底的研究,但由于存在罕见疾病,阶级失衡问题仍然不足。在本文中,我们提出了一个新型的FL框架,用于医学图像分类,尤其是在处理罕见疾病的数据异质性方面。在Fedrare中,每个客户在本地训练一个模型,以通过客户内部监督对比度学习提取高度分离的潜在特征,以进行分类。考虑到有限的稀有疾病数据,我们建立了积极的样本队列以进行增强(即数据重采样)。 Fedrare中的服务器将从客户端收集潜在功能,并自动选择最可靠的潜在功能作为发送给客户的指南。然后,每个客户都会通过局部间的对比损失共同训练,以使其潜在特征与完整课程的联合潜在特征保持一致。通过这种方式,跨客户的参数/特征差异有效地最小化,从而可以更好地收敛和性能改进。关于皮肤病变诊断的公共可用数据集的实验结果表明,Fedrare的表现出色。在四个客户没有罕见病样本的10客户联合环境下,Fedrare的平均水平准确度平均增长了9.60%和5.90%,与FedAvg和FedAvg的基线框架和FedArt方法分别相比。考虑到在临床情况下存在罕见疾病的董事会,我们认为Fedrare将使未来的FL框架设计受益于医学图像分类。本文的源代码可在https://github.com/wnn2000/fedrare上公开获得。
translated by 谷歌翻译
立场检测旨在确定文本的作者是否赞成,反对或中立。这项任务的主要挑战是两个方面的:由于不同目标以及缺乏目标的上下文信息而产生的几乎没有学习。现有作品主要通过设计基于注意力的模型或引入嘈杂的外部知识来解决第二期,而第一个问题仍未探索。在本文中,受到预训练的语言模型(PLM)的潜在能力(PLM)的启发,我们建议介绍基于立场检测的及时基于迅速的微调。 PLM可以为目标提供基本的上下文信息,并通过提示启用几次学习。考虑到目标在立场检测任务中的关键作用,我们设计了目标感知的提示并提出了一种新颖的语言。我们的语言器不会将每个标签映射到具体单词,而是将每个标签映射到矢量,并选择最能捕获姿势与目标之间相关性的标签。此外,为了减轻通过单人工提示来处理不同目标的可能缺陷,我们建议将信息从多个提示中学到的信息提炼。实验结果表明,我们提出的模型在全数据和少数场景中的表现出色。
translated by 谷歌翻译
图表上的表示学习(也称为图形嵌入)显示了其对一系列机器学习应用程序(例如分类,预测和建议)的重大影响。但是,现有的工作在很大程度上忽略了现代应用程序中图和边缘的属性(或属性)中包含的丰富信息,例如,属性图表示的节点和边缘。迄今为止,大多数现有的图形嵌入方法要么仅关注具有图形拓扑的普通图,要么仅考虑节点上的属性。我们提出了PGE,这是一个图形表示学习框架,该框架将节点和边缘属性都包含到图形嵌入过程中。 PGE使用节点聚类来分配偏差来区分节点的邻居,并利用多个数据驱动的矩阵来汇总基于偏置策略采样的邻居的属性信息。 PGE采用了流行的邻里聚合归纳模型。我们通过显示PGE如何实现更好的嵌入结果的详细分析,并验证PGE的性能,而不是最新的嵌入方法嵌入方法在基准应用程序上的嵌入方法,例如节点分类和对现实世界中的链接预测数据集。
translated by 谷歌翻译
图形神经网络(GNN)已被广泛用于表示图数据的表示。但是,对图形数据实际上获得多少性能GNN的理解有限。本文介绍了上下文弹出的GNN框架,并提出了两个平滑度指标,以测量从图形数据获得的信息的数量和质量。然后,一种称为CS-GNN的新型GNN模型旨在根据图的平滑度值改善图形信息的使用。证明CS-GNN比不同类型的真实图中现有方法获得更好的性能。
translated by 谷歌翻译