近年来,深入学习的蓬勃发展的开花目睹了文本认可的快速发展。但是,现有的文本识别方法主要用于英语文本,而忽略中文文本的关键作用。作为另一种广泛的语言,中文文本识别各种方式​​都有广泛的应用市场。根据我们的观察,我们将稀缺关注缺乏对缺乏合理的数据集建设标准,统一评估方法和现有基线的结果。为了填补这一差距,我们手动收集来自公开的竞争,项目和论文的中文文本数据集,然后将它们分为四类,包括场景,网络,文档和手写数据集。此外,我们在这些数据集中评估了一系列代表性的文本识别方法,具有统一的评估方法来提供实验结果。通过分析实验结果,我们令人惊讶地观察到识别英语文本的最先进的基线不能很好地表现出对中国情景的良好。由于中国文本的特征,我们认为仍然存在众多挑战,这与英文文本完全不同。代码和数据集在https://github.com/fudanvi/benchmarking-chinese-text-recognition中公开使用。
translated by 谷歌翻译
低成本单眼的3D对象检测在自主驾驶中起着基本作用,而其精度仍然远非令人满意。在本文中,我们挖掘了3D对象检测任务,并将其重构为对象本地化和外观感知的子任务,这有​​利于整个任务的互惠信息的深度挖掘。我们介绍了一个名为DFR-Net的动态特征反射网络,其中包含两种新的独立模块:(i)首先将任务特征分开的外观定位特征反射模块(ALFR),然后自相互反映互核特征; (ii)通过自学习方式自适应地重建各个子任务的培训过程的动态内部交易模块(DIT)。关于挑战基蒂数据集的广泛实验证明了DFR网的有效性和泛化。我们在基蒂测试集中的所有单眼3D对象探测器中排名第一(直到2021年3月16日)。所提出的方法在许多尖端的3D检测框架中也容易在较忽略的成本下以忽略的成本来播放。该代码将公开可用。
translated by 谷歌翻译
在过去十年中,深度学习的开花目睹了现场文本识别的快速发展。然而,识别低分辨率场景文本图像仍然是一个挑战。尽管已经提出了一些超分辨率的方法来解决这个问题,但它们通常将文本图像视为一般图像,同时忽略了中风的视觉质量(文本原子单位)的事实扮演文本识别的重要作用。根据Gestalt心理学,人类能够将部分细节构成为先前知识所指导的最相似的物体。同样,当人类观察低分辨率文本图像时,它们将本质上使用部分笔划级细节来恢复整体字符的外观。灵感来自Gestalt心理学,我们提出了一个中风感知的场景文本图像超分辨率方法,其中包含带有冲程的模块(SFM),专注于文本图像中的字符的行程级内部结构。具体而言,我们尝试设计用于在笔划级别分解英语字符和数字的规则,然后预先列车文本识别器以提供笔划级注意映射作为位置线索,目的是控制所生成的超分辨率图像之间的一致性和高分辨率的地面真相。广泛的实验结果验证了所提出的方法确实可以在Textoom和手动构建中文字符数据集DegraDed-IC13上生成更可区分的图像。此外,由于所提出的SFM仅用于在训练时提供笔划级别指导,因此在测试阶段不会带来任何时间开销。代码可在https://github.com/fudanvi/fudanocr/tree/main/text -GETALT中获得。
translated by 谷歌翻译
视觉场景的多样性非常丰富,不仅是因为物体和背景的无限组合,而且因为相同场景的观察可能随着观点的变化而变化很大。当观察来自多个观点的含有多个对象的视觉场景时,人类能够以每个观点以组成方式感知场景,同时实现不同视点的所谓的“对象恒定”,即使确切的观点是未计数器。这种能力对于人类来说是必不可少的,同时搬家,并有效地从视野中学习。它是有趣的设计模型具有相似的能力。在本文中,我们考虑从多个未指定的观点学习组成场景表示的新问题,而不使用任何监督,提出一个深深的生成模型,该模型将潜在的表示与视点无关的部分和一个视点依赖部分分开以解决这个问题。为了推断潜在的表示,通过神经网络迭代地集成在不同的视点中包含的信息。在几个专门设计的合成数据集上的实验表明,该方法能够从多个未指定的视点有效学习。
translated by 谷歌翻译
由于LIDAR传感器捕获的精确深度信息缺乏准确的深度信息,单眼3D对象检测是一个关键而挑战的自主驾驶任务。在本文中,我们提出了一种立体引导的单目3D对象检测网络,称为SGM3D,其利用立体图像提取的鲁棒3D特征来增强从单眼图像中学到的特征。我们创新地研究了多粒度域适配模块(MG-DA)以利用网络的能力,以便仅基于单手套提示产生立体模拟功能。利用粗均衡特征级以及精细锚级域适配,以引导单眼分支。我们介绍了一个基于IOO匹配的对齐模块(iou-ma),用于立体声和单眼域之间的对象级域适应,以减轻先前阶段中的不匹配。我们对最具挑战性的基蒂和Lyft数据集进行了广泛的实验,并实现了新的最先进的性能。此外,我们的方法可以集成到许多其他单眼的方法中以提高性能而不引入任何额外的计算成本。
translated by 谷歌翻译
ELO评级系统被广泛采用来评估(国际象棋)游戏和体育运动者的技能。最近,它还集成到了评估计算机化AI代理的性能时的机器学习算法中。然而,精确估计ELO评级(对于顶级球员)通常需要许多轮竞争,这可能是昂贵的。在本文中,为了提高ELO评估的样本效率(对于顶级球员),我们提出了一种有效的在线匹配调度算法。具体而言,我们通过Dueling Birits框架识别并匹配顶级播放器并将强盗算法定制到ELO的梯度更新。我们表明它减少了每一步记忆和时间复杂度来恒定,与需要$ O(t)$时间的传统似然最大化方法相比。我们的算法对$ \ tilde {o}(\ sqrt {t})$,Sublinear在竞争回合的数量中有遗憾的保证,并且已经扩展到多维ELO评级,用于处理风情游戏。我们经验证明我们的方法在各种游戏任务上实现了卓越的收敛速度和时间效率。
translated by 谷歌翻译
膝关节骨关节炎(OA)是最常见的骨关节炎和伤残原因。软骨缺陷被认为是膝关节OA的主要表现,其通过磁共振成像(MRI)可见。因此,对膝关节软骨缺陷的早期检测和评估对于保护膝关节OA患者来说是重要的。通过这种方式,通过将卷积神经网络(CNNS)应用于膝关节MRI,已经在膝关节软骨缺陷评估中进行了许多尝试。然而,软骨的生理特性可能阻碍这种努力:软骨是薄的弯曲层,这意味着只有膝关节MRI中的一小部分体素可以有助于软骨缺陷评估;异构扫描方案进一步挑战CNN在临床实践中的可行性;基于CNN的膝关节软骨评估结果缺乏解释性。为了解决这些挑战,我们将软骨结构和外观模拟到膝关节MRI进入图表表示,该图表能够处理高度多样化的临床数据。然后,由软骨图表示指导,我们设计了一种具有自我关注机制的非欧几里德深度学习网络,提取本地和全局中的软骨功能,并通过可视化结果导出最终评估。我们的综合实验表明,该方法在膝关节软骨缺陷评估中产生了卓越的性能,以及其方便的可解释性3D可视化。
translated by 谷歌翻译
模糊或神经模糊系统的主要限制是他们无法处理高维数据集的故障。这主要是由于使用T-Norm,特别是产品或最小(或其更软的版本)。因此,几乎没有任何处理与尺寸超过一百个以上的数据集。在这里,我们提出了一种神经模糊框架,可以处理尺寸甚至超过7000的数据集!在这种情况下,我们提出了一种自适应软培蛋白(ADA-Softmin),其有效地克服了在处理高维问题的同时为现有的模糊系统产生的“数字下溢”和“假最小最小值”的缺点。我们称之为Adaptive Takagi-Sugeno-kang(Adatsk)模糊系统。然后,我们用综合方式装备ADATSK系统以执行特征选择和规则提取。在这种情况下,仅在随后的零件中引入并嵌入了一种新颖的栅极功能,其可以在学习的两个连续阶段中确定有用的特征和规则。与传统的模糊规则基础不同,我们设计增强的模糊规则基础(EN-FRB),该基础(EN-FRB)保持了足够的规则,但不会以模糊神经网络的尺寸呈指数呈指数规则的数量。集成特征选择和规则提取ADATSK(FSRE-ADATSK)系统由三个连续阶段组成:(i)特征选择,(ii)规则提取,和(iii)微调。 FSRE-Adatsk的有效性在19个数据集上展示了五个,其中五个是2000多个维度,包括两个大于7000的尺寸。这可能是第一次模糊系统实现涉及超过7000个输入功能的分类。
translated by 谷歌翻译
近年来,提出了基于培训数据中毒的许多后门攻击。然而,在实践中,这些后门攻击容易受到图像压缩的影响。当压缩后门实例时,将销毁特定后门触发器的特征,这可能导致后门攻击性能恶化。在本文中,我们提出了一种基于特征一致性培训的压缩后门攻击。据我们所知,这是第一个对图像压缩强大的后门攻击。首先,将返回码图像及其压缩版本输入深神经网络(DNN)进行培训。然后,通过DNN的内部层提取每个图像的特征。接下来,最小化后门图像和其压缩版本之间的特征差异。结果,DNN将压缩图像的特征视为特征空间中的后门图像的特征。培训后,对抗DNN的后门攻击是对图像压缩的强大。此外,我们考虑了三种不同的图像按压(即,JPEG,JPEG2000,WEBP),使得后门攻击对多个图像压缩算法具有鲁棒性。实验结果表明了拟议的后门攻击的有效性和稳健性。当后门实例被压缩时,常见后攻击攻击的攻击成功率低于10%,而我们压缩后门的攻击成功率大于97%。即使在低压缩质量压缩后,压缩攻击也仍然是坚固的。此外,广泛的实验表明,我们的压缩后卫攻击具有抗拒未在训练过程中使用的图像压缩的泛化能力。
translated by 谷歌翻译
眼科医生已经使用眼底图像筛选和诊断眼病。然而,不同的设备和眼科医生对眼底图像的质量产生了大的变化。低质量(LQ)降级的眼底图像在临床筛查中容易导致不确定性,并且通常会增加误诊的风险。因此,真实的眼底图像恢复值得研究。不幸的是,到目前为止,这项任务尚未探索真正的临床基准。在本文中,我们研究了真正的临床眼底图像恢复问题。首先,我们建立一个临床数据集,真实的眼底(RF),包括120个低质量和高质量(HQ)图像对。然后,我们提出了一种新型的变压器的生成对抗网络(RFRMANER)来恢复临床眼底图像的实际降级。我们网络中的关键组件是基于窗口的自我关注块(WSAB),其捕获非本地自我相似性和远程依赖性。为了产生更明显的令人愉悦的结果,介绍了一种基于变压器的鉴别器。在我们的临床基准测试中的广泛实验表明,所提出的rformer显着优于最先进的(SOTA)方法。此外,诸如船舶分割和光盘/杯子检测之类的下游任务的实验表明我们所提出的rformer益处临床眼底图像分析和应用。将发布数据集,代码和模型。
translated by 谷歌翻译