The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
The deep learning community has witnessed an exponentially growing interest in self-supervised learning (SSL). However, it still remains unexplored how to build a framework for learning useful representations of raw music waveforms in a self-supervised manner. In this work, we design Music2Vec, a framework exploring different SSL algorithmic components and tricks for music audio recordings. Our model achieves comparable results to the state-of-the-art (SOTA) music SSL model Jukebox, despite being significantly smaller with less than 2% of parameters of the latter. The model will be released on Huggingface(Please refer to: https://huggingface.co/m-a-p/music2vec-v1)
translated by 谷歌翻译
从单眼RGB图像中重建3D手网络,由于其在AR/VR领域的巨大潜在应用,引起了人们的注意力越来越多。大多数最先进的方法试图以匿名方式解决此任务。具体而言,即使在连续录制会话中用户没有变化的实际应用程序中实际上可用,因此忽略了该主题的身份。在本文中,我们提出了一个身份感知的手网格估计模型,该模型可以结合由受试者的内在形状参数表示的身份信息。我们通过将提出的身份感知模型与匿名对待主题的基线进行比较来证明身份信息的重要性。此外,为了处理未见测试对象的用例,我们提出了一条新型的个性化管道来校准固有的形状参数,仅使用该受试者的少数未标记的RGB图像。在两个大型公共数据集上进行的实验验证了我们提出的方法的最先进性能。
translated by 谷歌翻译
由于遮挡引起的严重观察,基于手动对象相互作用的单个基于手动对象相互作用的重建具有挑战性。本文提出了一种基于物理的方法,以更好地解决重建中的歧义。它首先提出了一个基于力的动力学模型,该模型不仅恢复了未观察到的触点,而且还解决了合理的接触力。接下来,提出了一种基于置信的幻灯片预防方案,该方案将运动学上的信心和接触力都结合在一起,共同模拟静态和滑动接触运动。定性和定量实验表明,该提出的技术在物理上可行,更准确的手动相互作用,并使用单个RGBD传感器实时估计可见的接触力。
translated by 谷歌翻译
合成图像合成的巨大进展使得面部图像在高分辨率和光真实主义中产生。在生物识别应用中,使用合成数据的主要动机是解决公共可用生物识别数据的短缺,同时在处理此类敏感信息时降低隐私风险。这些优点在这项工作中被利用,通过模拟近期面部年龄修饰算法以生成交配样本,从而研究衰老对开源生物识别识别系统的性能的影响。此外,实际数据集用于评估短期衰老的影响,将生物识别性能与合成结构域进行比较。主要发现表明,短期老化在1 - 5年的范围内仅对一般识别绩效产生较小的影响。但是,对长期年龄差异超过20年的配对面的正确验证仍然是一个重大挑战,需要进一步调查。
translated by 谷歌翻译
本文介绍了Thuee团队的语音识别系统,用于IARPA Open自动语音识别挑战(OpenASR21),并进行了进一步的实验探索。我们在受限和受约束的训练条件下取得了出色的成果。对于受限的训练条件,我们基于标准混合体系结构构建基本ASR系统。为了减轻摄影库(OOV)的问题,我们使用针对OOV和潜在的新单词的素式至phoneme(G2P)技术扩展了发音词典。采用了标准的声学模型结构,例如CNN-TDNN-F和CNN-TDNN-F-A。此外,还应用了多种数据增强技术。对于约束训练条件,我们使用自我监督的学习框架WAV2VEC2.0。我们在公开可用的预训练XLSR-53的基础上使用连接式时间分类(CTC)标准进行各种微调技术。我们发现,在将WAV2VEC2.0预训练的模型应用于基于编码器的CTC/CTC/COATION ASR体系结构时,前端特征提取器在将WAV2VEC2.0预训练的模型应用时起着重要作用。通过将目标语言用作为前端功能提取器使用的CTC模型填充可以实现额外的改进。
translated by 谷歌翻译
尖峰神经网络(SNNS)是一种实用方法,可以通过模拟神经元对时间信息的杠杆作用来进行更高的数据有效学习。在本文中,我们提出了时间通道联合注意(TCJA)架构单元,这是一种有效的SNN技术,依赖于注意机制,通过有效地沿空间和时间维度沿着尖峰序列的相关性来实现。我们的基本技术贡献在于:1)通过采用挤压操作,将尖峰流压缩为平均矩阵,然后使用具有高效1-D卷积的两种局部注意机制来建立时间和渠道关系,以在频道和渠道关系中进行特征提取灵活的时尚。 2)利用交叉卷积融合(CCF)层在时间范围和通道范围之间建模相互依赖性,从而破坏了两个维度的独立性,并实现了特征之间的相互作用。通过共同探索和重新启用数据流,我们的方法在所有测试的主流静态和神经形态数据集上,在包括时尚量的所有测试的主流静态数据集上,最高可先进的(SOTA)高达15.7% ,CIFAR10-DVS,N-Caltech 101和DVS128手势。
translated by 谷歌翻译
神经体系结构搜索(NAS)最近在深度学习社区中变得越来越流行,主要是因为它可以提供一个机会,使感兴趣的用户没有丰富的专业知识,从而从深度神经网络(DNNS)的成功中受益。但是,NAS仍然很费力且耗时,因为在NAS的搜索过程中需要进行大量的性能估计,并且训练DNNS在计算上是密集的。为了解决NAS的主要局限性,提高NAS的效率对于NAS的设计至关重要。本文以简要介绍了NAS的一般框架。然后,系统地讨论了根据代理指标评估网络候选者的方法。接下来是对替代辅助NAS的描述,该NAS分为三个不同类别,即NAS的贝叶斯优化,NAS的替代辅助进化算法和NAS的MOP。最后,讨论了剩余的挑战和开放研究问题,并在这个新兴领域提出了有希望的研究主题。
translated by 谷歌翻译
自主驾驶的当代深度学习对象检测方法通常会假定前缀类别的共同交通参与者,例如行人和汽车。大多数现有的探测器无法检测到罕见的物体和拐角案例(例如,越过街道的狗),这可能会导致某些情况下发生严重的事故,从而使真实世界应用可靠的自动驾驶不确定。阻碍了真正可靠的自动驾驶系统发展的主要原因是缺乏评估对象探测器在角案例上的性能的公共数据集。因此,我们介绍了一个名为CODA的具有挑战性的数据集,该数据集揭示了基于视力的检测器的关键问题。该数据集由1500个精心选择的现实世界驾驶场景组成,每个场景平均包含四个对象级角案例(平均),涵盖30多个对象类别。在CODA上,在大型自动驾驶数据集中训练的标准对象探测器的性能显着下降到3月的12.8%。此外,我们试验了最新的开放世界对象检测器,发现它也无法可靠地识别尾声中的新对象,这表明对自主驾驶的强大感知系统可能远离触及。我们希望我们的CODA数据集有助于对现实世界自动驾驶的可靠检测进行进一步的研究。我们的数据集将在https://coda-dataset.github.io上发布。
translated by 谷歌翻译
通过大规模数据实现具有面部识别的高度安全的应用程序(如边境交叉路)需要广泛的生物识别性能测试。然而,使用真实面部图像引起了对隐私的担忧,因为法律不允许图像用于其他目的而不是最初的目的。使用代表和面部数据的子集还可以导致不需要的人口统计偏见并导致数据集不平衡。克服这些问题的一种可能解决方案是用综合生成的样本替换真实的面部图像。在生成合成图像的同时,从计算机视觉中的最新进步中受益,虽然有利于电脑视觉的最新进步,但在类似实际变化的同一合成标识的多个样本中仍然是不合适的,即交配样本。这项工作提出了一种通过利用样式牢固的潜在空间来生成配合的面部图像的非确定性方法。通过操纵潜伏的矢量来产生交配的样本,更精确地,我们利用主成分分析(PCA)来定义潜在空间中的语义有意义的方向,并使用预先训练的面部识别系统控制原始样本和配合样本之间的相似性。我们创建了由77,034个样本组成的合成面图像(Symface)的新数据集,包括25,919个合成ID。通过我们的分析,使用良好的面部图像质量指标,我们展示了模仿真实生物识别数据的特征的合成样本的生物识别质量的差异。其分析和结果表明使用使用所提出的方法创建的合成样本作为更换真实生物识别数据的可行替代品。
translated by 谷歌翻译