The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
多年来,Yolo系列一直是有效对象检测的事实上的行业级别标准。尤洛社区(Yolo Community)绝大多数繁荣,以丰富其在众多硬件平台和丰富场景中的使用。在这份技术报告中,我们努力将其限制推向新的水平,以坚定不移的行业应用心态前进。考虑到对真实环境中速度和准确性的多种要求,我们广泛研究了行业或学术界的最新对象检测进步。具体而言,我们从最近的网络设计,培训策略,测试技术,量化和优化方法中大量吸收了思想。最重要的是,我们整合了思想和实践,以在各种规模上建立一套可供部署的网络,以适应多元化的用例。在Yolo作者的慷慨许可下,我们将其命名为Yolov6。我们还向用户和贡献者表示热烈欢迎,以进一步增强。为了了解性能,我们的Yolov6-N在NVIDIA TESLA T4 GPU上以1234 fps的吞吐量在可可数据集上击中35.9%的AP。 Yolov6-S在495 fps处的43.5%AP罢工,在相同规模〜(Yolov5-S,Yolox-S和Ppyoloe-S)上超过其他主流探测器。我们的量化版本的Yolov6-S甚至在869 fps中带来了新的43.3%AP。此外,与其他推理速度相似的检测器相比,Yolov6-m/L的精度性能(即49.5%/52.3%)更好。我们仔细进行了实验以验证每个组件的有效性。我们的代码可在https://github.com/meituan/yolov6上提供。
translated by 谷歌翻译
只有单个目标扬声器的语音供参考的单发语音转换(VC)已成为一个热门研究主题。现有作品通常会散布音色,而有关音高,节奏和内容的信息仍然混合在一起。为了进一步删除这些语音组件,有效地执行一声VC,我们采用随机重新采样用于音高和内容编码器,并使用互信息的各种对比对数比率上限和基于梯度反向层的对抗性相互信息学习来确保不同部分在训练过程中仅包含所需的分离表示的潜在空间。 VCTK数据集的实验显示该模型就自然性和智能性方面实现了一声VC的最新性能。此外,我们可以通过语音表示分离分别传递音色,音调和节奏的单发VC的特征。我们的代码,预训练的模型和演示可在https://im1eon.github.io/is2022-Srdvc/上获得。
translated by 谷歌翻译
时间动作本地化在视频分析中起着重要作用,该视频分析旨在将动作定位和分类在未修剪视频中。先前的方法通常可以预测单个时间尺度的特征空间上的动作。但是,低级量表的时间特征缺乏足够的语义来进行动作分类,而高级尺度则无法提供动作边界的丰富细节。为了解决这个问题,我们建议预测多个颞尺度特征空间的动作。具体而言,我们使用不同尺度的精致特征金字塔将语义从高级尺度传递到低级尺度。此外,为了建立整个视频的长时间尺度,我们使用时空变压器编码器来捕获视频帧的远程依赖性。然后,具有远距离依赖性的精制特征被送入分类器以进行粗糙的动作预测。最后,为了进一步提高预测准确性,我们建议使用框架级别的自我注意模块来完善每个动作实例的分类和边界。广泛的实验表明,所提出的方法可以超越Thumos14数据集上的最先进方法,并在ActivityNet1.3数据集上实现可比性的性能。与A2NET(tip20,avg \ {0.3:0.7 \}),sub-action(csvt2022,avg \ {0.1:0.5 \})和afsd(cvpr21,avg \ {0.3:0.7 \}) ,提出的方法分别可以提高12.6 \%,17.4 \%和2.2 \%
translated by 谷歌翻译
自动蛇种识别很重要,因为它具有巨大的潜力,可以帮助蛇虫引起的降低死亡和残疾。我们在Snakeclef 2022中介绍了解决方案,以在重度长尾部分布中进行细粒度的蛇种识别。首先,网络体系结构旨在从多种模式中提取和融合功能,即来自语言模式的视觉方式和地理局部信息的照片。然后,研究了基于logit调整的方法,以减轻严重的阶级失衡引起的影响。接下来,提出了有监督的学习方法的组合,以充分利用数据集,包括标记的培训数据和未标记的测试数据。最后,采用后处理策略,例如多尺度和多曲线测试时间启动,位置过滤和模型集合,以提高性能。有了几种不同模型的合奏,在最终排行榜上获得了82.65%的私人分数,排名第三。
translated by 谷歌翻译
从周围的视角摄像机中学习鸟类视图(BEV)表示对于自动驾驶非常重要。在这项工作中,我们提出了一种几何学引导的内核变压器(GKT),这是一种新颖的2到BEV表示的学习机制。 GKT利用几何先验来指导变压器专注于判别区域,并展开内核特征以生成BEV表示。对于快速推断,我们进一步引入了查找表(LUT)索引方法,以消除在运行时消除相机的校准参数。 GKT在2080TI GPU上的3090 GPU / $ 45.6 $ fps上的价格为$ 72.3 $ fps,并且对摄像机偏差和预定义的BEV高度非常强大。 GKT在Nuscenes Val设置上实现了最新的实时细分结果,即38.0 miou(1亿$ \ times以1亿美元的感知范围,分辨率为0.50万)。鉴于效率,有效性和鲁棒性,GKT在自动驾驶场景中具有巨大的实践价值,尤其是对于实时运行系统。代码和模型将在\ url {https://github.com/hustvl/gkt}上提供。
translated by 谷歌翻译
有效的深层神经网络(DNN)模型配备了紧凑的操作员(例如,深度卷积)在降低DNN的理论复杂性(例如,权重/操作总数)的同时,在保持体面的模型准确性的同时,显示出很大的潜力。但是,由于其通常采用的紧凑型操作员的低硬件利用率,现有的有效DNN仍然受到履行其提高现实硬件效率的承诺的限制。在这项工作中,我们为开发真实硬件有效的DNN开辟了新的压缩范式,从而提高了硬件效率,同时保持模型的准确性。有趣的是,我们观察到,尽管某些DNN层的激活功能有助于DNNS的训练优化和可实现的准确性,但在训练后可以正确删除它们,而不会损害模型的准确性。受到这一观察的启发,我们提出了一个称为DepthShrinker的框架,该框架通过缩小现有有效DNN的基本构建块来开发硬件友好的紧凑型网络,这些构件具有不规则的计算模式,并具有大量改进的硬件利用率,从而将硬件的计算模式缩小到密集的情况下。令人兴奋的是,我们的DepthShrinker框架提供了硬件友好的紧凑网络,既优于最先进的有效DNN和压缩技术方法元元素。我们的代码可在以下网址找到:https://github.com/facebookresearch/depthshrinker。
translated by 谷歌翻译
分发比较在许多机器学习任务中起着核心作用,例如数据分类和生成建模。在这项研究中,我们提出了一种称为希尔伯特曲线投影(HCP)距离的新型度量,以测量具有高鲁棒性和低复杂性的两个概率分布之间的距离。特别是,我们首先使用希尔伯特曲线投射两个高维概率密度,以获得它们之间的耦合,然后根据耦合在原始空间中这两个密度之间的传输距离进行计算。我们表明,HCP距离是一个适当的度量标准,对于绝对连续的概率度量,定义明确。此外,我们证明,经验HCP距离在规律性条件下以不超过$ O(n^{ - 1/2d})$的速度收敛到其人口。为了抑制差异性的诅咒,我们还使用(可学习的)子空间投影开发了HCP距离的两个变体。合成数据和现实世界数据的实验表明,我们的HCP距离是瓦斯汀距离的有效替代,其复杂性低并克服了切成薄片的瓦斯坦距离的缺点。
translated by 谷歌翻译
作为度量度量空间的有效度量,Gromov-Wasserstein(GW)距离显示了匹配结构化数据(例如点云和图形)问题的潜力。但是,由于其较高的计算复杂性,其实践中的应用受到限制。为了克服这一挑战,我们提出了一种新颖的重要性稀疏方法,称为SPAR-GW,以有效地近似GW距离。特别是,我们的方法没有考虑密集的耦合矩阵,而是利用一种简单但有效的采样策略来构建稀疏的耦合矩阵,并使用几个计算进行更新。我们证明了所提出的SPAR-GW方法适用于GW距离,并以任意地面成本适用于GW距离,并且将复杂性从$ \ Mathcal {o}(n^4)$降低到$ \ Mathcal {o}(n^{2) +\ delta})$对于任意的小$ \ delta> 0 $。另外,该方法可以扩展到近似GW距离的变体,包括熵GW距离,融合的GW距离和不平衡的GW距离。实验表明,在合成和现实世界任务中,我们的SPAR-GW对最先进的方法的优越性。
translated by 谷歌翻译
Reorienting objects using extrinsic supporting items on the working platform is a meaningful, nonetheless challenging manipulation task, considering the elaborate geometry of the objects and the robot's feasible motions. In this work, we propose a pipeline using the RGBD camera's perception results to predict objects' stable placements afforded by supporting items, including a generation stage, a refinement stage, and a classification stage. Then, we construct manipulation graphs that enclose shared grasp configurations to transform objects' stable placements. The robot can reorient objects through sequential pick-and-place operations based on the manipulation graphs. We show in experiments that our approach is effective and efficient. The simulation experiments demonstrate that our pipeline can generalize to novel objects in random start poses on the working platform, generating diverse placements with high accuracy. Moreover, the manipulation graphs are conducive to providing collision-free motions for the robot to reorient objects. We also employ a robot in real-world experiments to perform sequential pick-and-place operations, indicating that our method can transfer objects' placement poses in real scenes.
translated by 谷歌翻译