The generalisation performance of a convolutional neural networks (CNN) is majorly predisposed by the quantity, quality, and diversity of the training images. All the training data needs to be annotated in-hand before, in many real-world applications data is easy to acquire but expensive and time-consuming to label. The goal of the Active learning for the task is to draw most informative samples from the unlabeled pool which can used for training after annotation. With total different objective, self-supervised learning which have been gaining meteoric popularity by closing the gap in performance with supervised methods on large computer vision benchmarks. self-supervised learning (SSL) these days have shown to produce low-level representations that are invariant to distortions of the input sample and can encode invariance to artificially created distortions, e.g. rotation, solarization, cropping etc. self-supervised learning (SSL) approaches rely on simpler and more scalable frameworks for learning. In this paper, we unify these two families of approaches from the angle of active learning using self-supervised learning mainfold and propose Deep Active Learning using BarlowTwins(DALBT), an active learning method for all the datasets using combination of classifier trained along with self-supervised loss framework of Barlow Twins to a setting where the model can encode the invariance of artificially created distortions, e.g. rotation, solarization, cropping etc.
translated by 谷歌翻译
我们提出了一种基于图形的全自动,基于图的技术,用于提取视网膜血管拓扑(即不同的容器之间如何相互连接)给定一个彩色底面图像。确定这种连通性非常具有挑战性,因为船只在2D图像中相互交叉,掩盖了它们的真实路径。我们通过使用它来实现视网膜动脉静脉分类的可比最新结果来定量验证我们的提取方法的实用性。我们提出的方法的作用如下:我们使用先前开发的最新分割方法首先将视网膜血管分割。然后,我们估算从提取的血管中估算一个初始图,并将最可能的血流分配给每个边缘。然后,我们使用少数高级操作(HLOS)来修复图中的错误。这些HLO包括分离相邻的节点,转移边缘的端点,并逆转分支的估计血流方向。我们使用新颖的成本函数来找到给定图的最佳HLO操作集。最后,我们表明我们的提取的血管结构是正确的,可以通过沿分支的传播动脉/静脉标记来正确。正如我们的实验所表明的那样,我们基于拓扑的动脉素标签在三个数据集上实现了最新的结果:驱动器,整个范围和Inspire。我们还进行了几项消融研究,以分别验证我们提出的方法的分割和AV标记步骤的重要性。这些消融研究进一步证实,我们的图形提取管道正确地模拟了潜在的血管解剖结构。
translated by 谷歌翻译
组织依靠机器学习工程师(MLE)来操作ML,即部署和维护生产中的ML管道。操作ML或MLOP的过程包括(i)数据收集和标记的连续循环,(ii)实验以改善ML性能,(iii)在多阶段部署过程中评估,以及(iv)监视(iv)性能下降。当一起考虑这些责任似乎令人震惊 - 任何人如何进行MLOP,没有解决的挑战,对工具制造商有什么影响?我们对在包括聊天机器人,自动驾驶汽车和金融在内的许多应用程序中工作的18个MLE进行了半结构化的民族志访谈。我们的访谈暴露了三个变量,这些变量控制了生产ML部署的成功:速度,验证和版本。我们总结了成功实验,部署和维持生产绩效的共同实践。最后,我们讨论了受访者的痛点和反图案,对工具设计产生了影响。
translated by 谷歌翻译
随着边缘设备变得越来越强大,数据分析逐渐从集中式转移到分散的制度,在该制度中,利用边缘计算资源以在本地处理更多数据。这种分析制度被认为是联合数据分析(FDA)。尽管FDA最近有成功的案例,但大多数文献都专注于深度神经网络。在这项工作中,我们退后一步,为最基本的统计模型之一开发了FDA处理:线性回归。我们的处理是建立在层次建模的基础上,该模型允许多个组借用强度。为此,我们提出了两个联合的层次模型结构,它们在跨设备之间提供共享表示以促进信息共享。值得注意的是,我们提出的框架能够提供不确定性量化,可变选择,假设测试以及对新看不见数据的快速适应。我们在一系列现实生活中验证了我们的方法,包括对飞机发动机的条件监控。结果表明,我们对线性模型的FDA处理可以作为联合算法未来开发的竞争基准模型。
translated by 谷歌翻译
拓扑数据分析(TDA)是一种旨在发现隐藏在数据集中的拓扑信息的紧急领域。 TDA工具通常用于创建滤波器和拓扑描述符以改善机器学习(ML)方法。本文提出了一种算法,该算法将TDA直接应用于多级分类问题,而无需任何进一步的ML阶段,为不平衡数据集显示出优势。该算法在数据集上构建了一个过滤的单纯复合体。持续同源性(pH)被应用于指导选择未标记点的亚络合物,从标记的相邻点中获得大多数选票。我们选择具有不同尺寸的8个数据集,每类具有不同程度的类重叠和不平衡样本。平均而言,所提出的TDABC方法优于KNN和加权KNN。它在平衡数据集中的本地SVM和随机森林基线分类器竞争地表现得很竞争,并且它优于分类纠缠和少数群体的所有基线方法。
translated by 谷歌翻译