冷冻切片(FS)是手术操作期间组织微观评估的制备方法。该程序的高速允许病理学医师快速评估关键的微观特征,例如肿瘤边距和恶性地位,以引导手术决策,并尽量减少对操作过程的干扰。然而,FS容易引入许多误导性的人工结构(组织学人工制品),例如核冰晶,压缩和切割人工制品,妨碍了病理学家的及时和准确的诊断判断。额外的培训和长期经验通常需要对冻结部分进行高度有效和时间关键的诊断。另一方面,福尔马林固定和石蜡嵌入(FFPE)的黄金标准组织制备技术提供了显着优越的图像质量,而是一种非常耗时的过程(12-48小时),使其不适合术语用。在本文中,我们提出了一种人工智能(AI)方法,通过在几分钟内将冻结的整个幻灯片(FS-WSIS)计算冻结的整个幻灯片(FS-WSIS)来改善FS图像质量。 AI-FFPE将FS人工制品终止了注意力机制的指导,该引导机制在利用FS输入图像和合成的FFPE样式图像之间利用建立的自正则化机制,以及综合相关特征的合成的FFPE样式图像。结果,AI-FFPE方法成功地生成了FFPE样式图像,而不会显着扩展组织处理时间,从而提高诊断准确性。我们证明了使用各种不同的定性和定量度量,包括来自20个董事会认证的病理学家的视觉图灵测试的各种不同的定性和定量度量。
translated by 谷歌翻译
利用深度学习的水提取需要精确的像素级标签。然而,在像素级别标记高分辨率遥感图像非常困难。因此,我们研究如何利用点标签来提取水体并提出一种名为邻居特征聚合网络(NFANET)的新方法。与PixelLevel标签相比,Point标签更容易获得,但它们会失去许多信息。在本文中,我们利用了局部水体的相邻像素之间的相似性,并提出了邻居采样器来重塑遥感图像。然后,将采样的图像发送到网络以进行特征聚合。此外,我们使用改进的递归训练算法进一步提高提取精度,使水边界更加自然。此外,我们的方法利用相邻特征而不是全局或本地特征来学习更多代表性。实验结果表明,所提出的NFANET方法不仅优于其他研究的弱监管方法,而且还获得与最先进的结果相似。
translated by 谷歌翻译
3D从单眼RGB图像中的人类姿势和形状恢复是一个具有挑战性的任务。基于现有的基于学习的方法高度依赖于弱监管信号,例如, 2D和3D联合位置,由于缺乏野外配对的3D监督。然而,考虑到这些弱监管标签中存在的2D-3D模糊,网络在用此类标签培训时容易在本地最佳状态下卡。在本文中,我们通过优化多个初始化来减少势措施。具体而言,我们提出了一个名为多初始化优化网络(MION)的三级框架。在第一阶段,我们策略性地选择与输入样本的2D关键点兼容的不同粗略的3D重建候选。每个粗略重建可以被视为初始化导致一个优化分支。在第二阶段,我们设计网格精制变压器(MRT)以分别通过自我关注机制来优化每个粗略重建结果。最后,提出了一种一致性估计网络(CEN)来通过评估RGB图像中的视觉证据与给定的3D重建匹配,以通过评估来查找来自候选的最佳结果。实验表明,我们的多初始化优化网络优于多个公共基准上的现有3D网格的方法。
translated by 谷歌翻译
已经表明,在一个域上训练的双编码器经常概括到其他域以获取检索任务。一种广泛的信念是,一个双编码器的瓶颈层,其中最终得分仅仅是查询向量和通道向量之间的点产品,它过于局限,使得双编码器是用于域外概括的有效检索模型。在本文中,我们通过缩放双编码器模型的大小{\ em同时保持固定的瓶颈嵌入尺寸固定的瓶颈的大小来挑战这一信念。令人惊讶的是,令人惊讶的是,缩放模型尺寸会对各种缩放提高检索任务,特别是对于域外泛化。实验结果表明,我们的双编码器,\ textbf {g} enovalizable \ textbf {t} eTrievers(gtr),优先级%colbert〜\ cite {khattab2020colbertt}和现有的稀疏和密集的索取Beir DataSet〜\ Cite {Thakur2021Beir}显着显着。最令人惊讶的是,我们的消融研究发现,GTR是非常数据的高效,因为它只需要10 \%MARCO监督数据,以实现最佳域的性能。所有GTR模型都在https://tfhub.dev/google/collections/gtr/1发布。
translated by 谷歌翻译
如何学习一个促进所有面部分析任务的通用面部表示?本文对此目标进行了一步。在本文中,我们研究了面对面分析任务的预先训练模型的转移性能,并以视语言方式为一般面部代表学习学习的框架,称为Farl。一方面,该框架涉及从图像文本对学习高级语义含义的对比损失。另一方面,我们提出通过添加掩蔽图像建模来同时探索低级信息以进一步增强面部表示。我们对Laion-face进行预训练,一个包含大量面部图像文本对的数据集,并评估在多个下游任务上的表示功能。我们表明Farl与以前的预先训练的模型相比,Farl实现了更好的转移性能。我们还验证了低数据制度的优势。更重要的是,我们的模型在面部分析任务上超越了最先进的方法,包括面部解析和面部对齐。
translated by 谷歌翻译
随着深度神经网络(DNN)的发展,已经提出了用于单图像超分辨率(SISR)的基于DNN的大量方法。然而,现有方法主要在均匀采样的LR-HR补丁对上培训DNN,这使得它们无法在图像中完全利用信息贴片。在本文中,我们提出了一种简单而有效的数据增强方法。我们首先设计启发式指标来评估每个补丁对的信息性重要性。为了降低所有补丁对的计算成本,我们进一步建议通过积分图像来优化我们的度量计算,从而实现大约两个数量级加速。训练补丁对根据他们的方法对我们的方法进行了抽样。广泛的实验表明,我们的采样增强可以一致地提高收敛性,并提高各种SISR架构的性能,包括跨不同缩放因子(X2,X3,X4)的EDSR,RCAN,RDN,SRCNN和ESPCN。代码可在https://github.com/littlepure2333/samplingaug上获得
translated by 谷歌翻译
我们希望在数据结构和算法的主题项目中解决的问题是破译某些图像,这些图像具有更具特异性的牛动物;其中有必要识别动物是否健康,也就是说,如果它在选择牛的过程中要考虑到良好的条件,或者如果它生病,以知道它是否被丢弃。通过这种压缩算法,这允许拍摄图像并将它们带到这些代码中的检查,并不总是结果将是百分之百精确,但允许此代码是什么允许的高效,它是它适用于机器学习,这意味着它需要的信息越多,结果就越精确,结果将越高,而不会带来一般的兴趣。所提出的算法是NN和双线性插值,其中在执行速度上获得了显着的结果。它的结论是,可以做得更好的工作,但随着交付的事情,据信这是工作的好结果。
translated by 谷歌翻译
开发了一种基于变换器的图像压缩(TIC)方法,其重用了具有配对主和超编码器解码器的规范变形AutoEncoder(VAE)架构。主要和超编码器包括一系列神经转换单元(NTU),以分析和聚合重要信息以进行更紧凑的输入图像表示,而解码器镜像编码器侧操作以生成从压缩的像素域图像重建。比特流。每个NTU由Swin变压器块(STB)和卷积层(CONV)组成,以最佳地嵌入远程和短程信息;同时,设计了一种休闲的注意模块(CAM),用于潜在特征的自适应上下文建模,以利用超自行性前提。具有最先进的方法的TIC竞争对手,包括基于深度卷积神经网络(CNNS)的学习图像编码(LIC)方法以及最近批准的多功能视频编码(VVC)标准的基于规则的基于规则的简介,并且需要很多较少的模型参数,例如,降低前导性能LIC减少45%。
translated by 谷歌翻译
高清(HD)地图可以为自动驾驶提供静态交通环境的精确几何和语义信息。道路边界是高清地图中包含的最重要的信息之一,因为它区分道路地区和越野地区,可以引导车辆在道路区域内驾驶。但它是劳动密集型的,以向城市规模提供高清地图的道路边界。为了启用自动高清映射注释,当前工作使用语义分割或迭代图,用于道路边界检测。然而,前者无法确保拓扑正确性,因为它在像素级别工作,而后者遭受效率低下和漂流问题。为了提供上述问题的解决方案,在这封信中,我们提出了一个新的系统被称为CSBoundary,以便在城市规模上自动检测高清地图注释的道路边界。我们的网络将作为输入空中图像补丁的输入,并直接从此图像中递送连续的道路边界图(即顶点和边缘)。要生成城市规模的道路边界图,我们将从所有图像修补程序缝制所获得的图形。我们的CSBoundary在公共基准数据集中进行了评估并进行了比较。结果表明了我们的优越感。伴随的演示视频可在我们的项目页面\ url {https:/sites.google.com/view/csbound/}处获得。
translated by 谷歌翻译
我们调查使用图像中包含的多模式信息作为增强文本生成的变压器模型的勤义的有效方法。我们在概念到文本生成中使用BART和T5进行实验,特别是生成致辞推理或蒙的任务。我们称之为Visctg:视觉地基础的概念到文本生成。VisctG涉及代表适当日常方案的标题图像,并使用这些标题来丰富和转向生成过程。综合评估和分析表明,VisctG显着提高了模型性能,同时成功地解决了基线几代的几个问题,包括差的致辞,流畅性和特异性。
translated by 谷歌翻译