The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
Out-Of-Distribution (OOD) detection has received broad attention over the years, aiming to ensure the reliability and safety of deep neural networks (DNNs) in real-world scenarios by rejecting incorrect predictions. However, we notice a discrepancy between the conventional evaluation vs. the essential purpose of OOD detection. On the one hand, the conventional evaluation exclusively considers risks caused by label-space distribution shifts while ignoring the risks from input-space distribution shifts. On the other hand, the conventional evaluation reward detection methods for not rejecting the misclassified image in the validation dataset. However, the misclassified image can also cause risks and should be rejected. We appeal to rethink OOD detection from a human-centric perspective, that a proper detection method should reject the case that the deep model's prediction mismatches the human expectations and adopt the case that the deep model's prediction meets the human expectations. We propose a human-centric evaluation and conduct extensive experiments on 45 classifiers and 8 test datasets. We find that the simple baseline OOD detection method can achieve comparable and even better performance than the recently proposed methods, which means that the development in OOD detection in the past years may be overestimated. Additionally, our experiments demonstrate that model selection is non-trivial for OOD detection and should be considered as an integral of the proposed method, which differs from the claim in existing works that proposed methods are universal across different models.
translated by 谷歌翻译
活动相机是一种新型的生物启发的视觉传感器。当亮度变化超过预设阈值时,传感器会异步生成事件。有效事件的数量直接影响基于事件的任务的性能,例如重建,检测和识别。但是,当在低亮度或缓慢的场景中,事件通常稀疏且伴随着噪声,这对基于事件的任务构成了挑战。为了解决这些挑战,我们提出了一个事件的时间上取样算法,以产生更有效和可靠的事件。我们算法的主要思想是在事件运动轨迹上生成上采样事件。首先,我们通过对比度最大化算法来估计事件运动轨迹,然后通过时间点过程对事件进行更采样。实验结果表明,上采样事件可以提供更有效的信息并改善下游任务的性能,例如提高重建图像的质量并提高对象检测的准确性。
translated by 谷歌翻译
本文着重于通过分散网络的在线内核学习。网络中的每个代理都会在本地接收连续流数据,并协同工作以学习一个非线性预测函数,该功能在复制的内核希尔伯特空间中相对于所有代理的总瞬时成本而言是最佳的。为了规避传统在线内核学习中维度问题的诅咒,我们利用随机功能(RF)映射将非参数内核学习问题转换为RF空间中的固定长度参数。然后,我们建议通过线性化ADMM(ODKLA)有效地解决在线分散的内核内核学习问题,提出一个名为在线分散内核学习的新颖学习框架。为了进一步提高沟通效率,我们在通信阶段添加了量化和审查策略,并开发了量化和通信的ODKLA(QC-ODKLA)算法。从理论上讲,我们证明了Odkla和Qc-odkla都可以在$ t $ time插槽上实现最佳的Sublinear后悔$ \ Mathcal {O}(\ sqrt {t})$。通过数值实验,我们评估了所提出方法的学习效率,沟通和计算效率。
translated by 谷歌翻译
从无监督的图像到图像翻译的角度来看,图像漫画化最近由生成对抗网络(gan)主导,其中固有的挑战是精确捕获和充分传递的特征动画片样式(例如,透明边缘,光滑的色彩,抽象,抽象,抽象,抽象,抽象精细的结构等)。现有的高级模型试图通过学习以对抗性来促进边缘,引入样式转移损失或学习从多个表示空间保持一致的样式来增强卡通化效果。本文表明,只有基本的对抗性损失,可以轻松实现更独特和生动的漫画化效果。观察卡通风格在卡通纹理效果的本地图像区域中更为明显,我们与正常图像级平行建立了一个区域级别的对抗学习分支,该分支在卡通质量级别上限制了对抗性学习,以更好感知和转移卡通纹理功能。为此,提出了一种新型的卡通纹理 - 效果 - 采访器(CTSS)模块,以从训练数据中动态采样卡通纹理质量贴片。通过广泛的实验,我们证明了对抗性学习中的纹理显着性适应性注意力,作为图像漫画化中相关方法的缺失成分,在促进和增强图像卡通风格方面至关重要,尤其是对于高分辨率输入图片。
translated by 谷歌翻译
在计算机视觉中,微调是利用预训练的视觉模型来执行下游任务的事实上的方法。但是,由于采用参数效率低下的全局更新并严重依赖于高质量的下游数据,因此在实践中部署它是非常具有挑战性的。最近,基于及时的学习添加了与任务相关的提示,以使下游任务适应预训练的模型,从而极大地提高了许多自然语言下游任务的性能。在这项工作中,我们扩展了这种显着的转移能力,从迅速的愿景模型中受益,以替代微调。为此,我们提出了参数有效的及时调整(亲调整),以使冷冻视觉模型适应各种下游视觉任务。实行调整的关键是基于及时的调整,即学习特定于任务的视觉提示,以使用预先训练的模型冷冻的下游输入图像。通过仅培训一些其他参数,它可以在基于CNN和基于变压器的各种架构上工作。广泛的实验证据表明,在广泛的视觉任务和场景中,主张表现优于微调,包括图像分类(通用对象,类失衡,图像腐败,对抗性稳定性和分布范围内的概括)和密集的预测任务例如对象检测和语义分割。
translated by 谷歌翻译
现有的文本识别方法通常需要大规模培训数据。由于缺乏带注释的真实图像,他们中的大多数依靠合成训练数据。但是,合成数据和真实数据之间存在域差距,这限制了文本识别模型的性能。最近的自我监督文本识别方法试图通过引入对比度学习来利用未标记的真实图像,这主要学习文本图像的歧视。受到人类学会通过阅读和写作识别文本的观察的启发,我们建议通过在我们的自我监督方法中整合对比度学习和掩盖图像建模来学习歧视和产生。采用对比学习分支来学习对文本图像的歧视,这模仿了人类的阅读行为。同时,首先引入了蒙版的图像建模,以了解文本识别,以了解文本图像的上下文生成,这类似于写作行为。实验结果表明,在不规则场景文本识别数据集上,我们的方法比以前的自我监督文本识别方法优于先前的自我监督文本识别方法。此外,我们提出的文本识别器超过了先前的最新文本识别方法,在11个基准测试中,平均5.3%,模型大小相似。我们还证明,我们的预培训模型可以轻松地应用于具有明显性能增益的其他文本相关任务。
translated by 谷歌翻译
我们提出了一个用于图像分类的端到端可训练的功能增强模块,该模块提取和利用多视图本地功能来增强模型性能。不同于使用全球平均池(GAP)仅从全局视图中提取矢量化特征,我们建议我们采样和集成多样的多视图本地特征,以提高模型鲁棒性。为了示例班级代表性的本地功能,我们合并了一个简单的辅助分类器头(仅包含1 $ \ times $ 1卷积层),通过我们建议的Adacam(适应性的Adacam)(适应性的Adacam)(适应性的ADACAM)有效地适应了特征图的类别歧视局部区域()。广泛的实验表明,我们的多视图功能增强模块获得了一致且明显的性能提高。
translated by 谷歌翻译
域自适应文本分类对于大规模预处理的语言模型来说是一个具有挑战性的问题,因为它们通常需要昂贵的额外标记数据来适应新域。现有作品通常无法利用跨域单词之间的隐式关系。在本文中,我们提出了一种新的方法,称为结构化知识(DASK)的域适应性,以通过利用单词级别的语义关系来增强域的适应性。 Dask首先构建知识图,以捕获目标域中的枢轴项(独立域单词)和非居式项之间的关系。然后在训练期间,DASK注入与源域文本的枢轴相关知识图信息。对于下游任务,这些注入知识的文本被馈入能够处理知识注入文本数据的BERT变体。多亏了知识注入,我们的模型根据与枢轴的关系学习了非客者的域不变特征。 DASK通过在使用伪标签训练期间通过候选枢轴的极性得分动态推断出具有域不变行为的枢轴。我们在各种跨域情绪分类任务上验证了DASK,并观察到20种不同领域对的基准的绝对性能提高了2.9%。代码将在https://github.com/hikaru-nara/dask上提供。
translated by 谷歌翻译
分子动力学(MD)模拟是各种科学领域的主力,但受到高计算成本的限制。基于学习的力场在加速AB-Initio MD模拟方面取得了重大进展,但对于许多需要长期MD仿真的现实世界应用程序仍然不够快。在本文中,我们采用了一种不同的机器学习方法,使用图形群集将物理系统粗糙化,并使用图形神经网络使用非常大的时间整合步骤对系统演变进行建模。一个新型的基于分数的GNN改进模块解决了长期模拟不稳定性的长期挑战。尽管仅接受了简短的MD轨迹数据训练,但我们学到的模拟器仍可以推广到看不见的新型系统,并比训练轨迹更长的时间。需要10-100 ns级的长时间动力学的属性可以在多个刻度级的速度上准确恢复,而不是经典的力场。我们证明了方法对两个现实的复杂系统的有效性:(1)隐式溶剂中的单链粗粒聚合物; (2)多组分锂离子聚合物电解质系统。
translated by 谷歌翻译