A new model called Clustering with Neural Network and Index (CNNI) is introduced. CNNI uses a Neural Network to cluster data points. Training of the Neural Network mimics supervised learning, with an internal clustering evaluation index acting as the loss function. An experiment is conducted to test the feasibility of the new model, and compared with results of other clustering models like K-means and Gaussian Mixture Model (GMM).
translated by 谷歌翻译
引入了用于集群内部评估的新索引。该索引定义为两个子指标的混合物。第一个子指数$ i_a $称为模棱两可的索引;第二个子指数$ i_s $称为相似性索引。两个子指数的计算基于对数据分区的每个群集的密度估计。进行了一项实验以测试新指数的性能,并与三个流行的内部聚类评估指数(Calinski-Harabasz索引,Silhouette系数和Davies-Bouldin索引)相比,在145个数据集中进行了比较。结果表明,新指数将三个流行指数提高了59 \%,34 \%和74 \%。
translated by 谷歌翻译
在医疗保健系统中,需要患者使用可穿戴设备进行远程数据收集和对健康数据的实时监控以及健康状况的状态。可穿戴设备的这种采用导致收集和传输的数据量显着增加。由于设备由较小的电池电源运行,因此由于设备的高处理要求以进行数据收集和传输,因此可以快速减少它们。鉴于医疗数据的重要性,必须所有传输数据遵守严格的完整性和可用性要求。减少医疗保健数据的量和传输频率将通过使用推理算法改善设备电池寿命。有一个以准确性和效率改善传输指标的问题,彼此之间的权衡,例如提高准确性会降低效率。本文表明,机器学习可用于分析复杂的健康数据指标,例如数据传输的准确性和效率,以使用Levenberg-Marquardt算法来克服权衡问题,从而增强这两个指标,从而通过少较少的样本来传输,同时保持维护准确性。使用标准心率数据集测试该算法以比较指标。结果表明,LMA最好以3.33倍的效率进行样本数据尺寸和79.17%的精度,在7种不同的采样案例中具有相似的准确性,用于测试,但表明效率提高。与具有高效率的现有方法相比,这些提出的方法使用机器学习可以显着改善两个指标,而无需牺牲其他指标。
translated by 谷歌翻译
深度神经网络(DNN)已被广泛使用,并在计算机视觉和自动导航领域起着重要作用。但是,这些DNN在计算上是复杂的,并且在没有其他优化和自定义的情况下,它们在资源受限平台上的部署很困难。在本手稿中,我们描述了DNN体系结构的概述,并提出了降低计算复杂性的方法,以加速培训和推理速度,以使其适合具有低计算资源的边缘计算平台。
translated by 谷歌翻译
神经生成模型可用于学习从数据的复杂概率分布,从它们中进行采样,并产生概率密度估计。我们提出了一种用于开发由大脑预测处理理论启发的神经生成模型的计算框架。根据预测加工理论,大脑中的神经元形成一个层次结构,其中一个级别的神经元形成关于来自另一个层次的感觉输入的期望。这些神经元根据其期望与观察到的信号之间的差异更新其本地模型。以类似的方式,我们的生成模型中的人造神经元预测了邻近的神经元的作用,并根据预测匹配现实的程度来调整它们的参数。在这项工作中,我们表明,在我们的框架内学到的神经生成模型在练习中跨越多个基准数据集和度量来表现良好,并且保持竞争或显着优于具有类似功能的其他生成模型(例如变形自动编码器)。
translated by 谷歌翻译
评估能源转型和能源市场自由化对资源充足性的影响是一种越来越重要和苛刻的任务。能量系统的上升复杂性需要足够的能量系统建模方法,从而提高计算要求。此外,随着复杂性,同样调用概率评估和场景分析同样增加不确定性。为了充分和高效地解决这些各种要求,需要来自数据科学领域的新方法来加速当前方法。通过我们的系统文献综述,我们希望缩小三个学科之间的差距(1)电力供应安全性评估,(2)人工智能和(3)实验设计。为此,我们对所选应用领域进行大规模的定量审查,并制作彼此不同学科的合成。在其他发现之外,我们使用基于AI的方法和应用程序的AI方法和应用来确定电力供应模型的复杂安全性的元素,并作为未充分涵盖的应用领域的储存调度和(非)可用性。我们结束了推出了一种新的方法管道,以便在评估电力供应安全评估时充分有效地解决当前和即将到来的挑战。
translated by 谷歌翻译
The central question in representation learning is what constitutes a good or meaningful representation. In this work we argue that if we consider data with inherent cluster structures, where clusters can be characterized through different means and covariances, those data structures should be represented in the embedding as well. While Autoencoders (AE) are widely used in practice for unsupervised representation learning, they do not fulfil the above condition on the embedding as they obtain a single representation of the data. To overcome this we propose a meta-algorithm that can be used to extend an arbitrary AE architecture to a tensorized version (TAE) that allows for learning cluster-specific embeddings while simultaneously learning the cluster assignment. For the linear setting we prove that TAE can recover the principle components of the different clusters in contrast to principle component of the entire data recovered by a standard AE. We validated this on planted models and for general, non-linear and convolutional AEs we empirically illustrate that tensorizing the AE is beneficial in clustering and de-noising tasks.
translated by 谷歌翻译
人工神经网络(ANN)能够学习,纠正错误和将大量原始数据转化为治疗和护理的有用医疗决策,这增加了增强患者安全和护理质量的普及。因此,本文审查了ANN的关键作用为患者医疗保健决策提供有价值的见解和有效的疾病诊断。我们彻底审查了现有文献中的不同类型的ANN,以便为复杂应用程序进行高级ANNS适配。此外,我们还调查Ann的各种疾病诊断和治疗的进步,例如病毒,皮肤,癌症和Covid-19。此外,我们提出了一种名为ConxNet的新型深度卷积神经网络(CNN)模型,用于提高Covid-19疾病的检测准确性。 ConxNet经过培训并使用不同的数据集进行测试,它达到了超过97%的检测精度和精度,这明显优于现有型号。最后,我们突出了未来的研究方向和挑战,例如算法的复杂性,可用数据,隐私和安全性,以及与ANN的生物传染集成。这些研究方向需要大幅关注改善医疗诊断和治疗应用的ANN的范围。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
机器学习算法已被广泛用于入侵检测系统,包括多层感知器(MLP)。在这项研究中,我们提出了一个两阶段模型,该模型结合了桦木聚类算法和MLP分类器,以提高网络异常多分类的性能。在我们提出的方法中,我们首先将桦木或kmeans作为无监督的聚类算法应用于CICIDS-2017数据集,以预先分组数据。然后,将生成的伪标签作为基于MLP分类器的训练的附加功能添加。实验结果表明,使用桦木和K-均值聚类进行数据预组化可以改善入侵检测系统的性能。我们的方法可以使用桦木聚类实现多分类的99.73%的精度,这比使用独立的MLP模型的类似研究要好。
translated by 谷歌翻译
径向基函数神经网络(RBF)是用于模式分类和回归的主要候选者,并且已在经典的机器学习应用中广泛使用。但是,由于缺乏现代体系结构的适应性,RBF尚未使用常规卷积神经网络(CNN)纳入当代深度学习研究和计算机视觉。在本文中,我们通过修改训练过程并引入新的激活功能来训练现代视觉体系结构端到端以端对端进行图像分类,从而将RBF网络作为分类器将作为分类器。 RBF的特定架构使学习相似性距离度量可以比较和查找相似和不同的图像。此外,我们证明,在任何CNN体系结构上使用RBF分类器都提供了有关模型决策过程的新的人性化洞察力。最后,我们成功地将RBF应用于一系列CNN体系结构,并在基准计算机视觉数据集上评估结果。
translated by 谷歌翻译
本文提出了一种偏好神经网络(PNN),以解决新的激活函数的缺陷偏好命令问题。PNN还解决了多标签排名问题,其中标签可能具有漠不关心的偏好顺序,或者子组等于等级。PNN遵循具有完全连接的神经元的多层前馈架构。每个神经元都包含基于偏好订单数量的新型平滑楼梯激活功能。PNN输入表示数据特征,输出神经元代表标签索引。使用新的偏好挖掘数据集进行评估所提出的PNN,该数据集包含在之前没有尝试的重复标签值。PNN优于先前提出的关于严格标签排名的五种方法,以高计算效率的准确结果。
translated by 谷歌翻译
多视图学习通过LEVERAG-ING-ING-ING相同对象之间的关系来完成分类的任务目标。大多数现有方法通常关注多个视图之间的一致性和互补性。但并非所有这些信息都非常有用于分类任务。相反,它是扮演重要作用的具体辨别信息。钟张等。通过联合非负矩阵分组探讨不同视图中的共同视图中存在的判别和非歧视信息。在本文中,我们通过使用跨熵损耗函数来改善该算法来改善目标函数更好。最后,我们在相同数据集上的原始实施更好的分类效果,并在许多最先进的算法上显示其优越性。
translated by 谷歌翻译
这项研究重点是探索局部可解释性方法来解释时间序列聚类模型。许多最先进的聚类模型无法直接解释。为了提供这些聚类算法的解释,我们训练分类模型以估计群集标签。然后,我们使用可解释性方法来解释分类模型的决策。这些解释用于获得对聚类模型的见解。我们执行一项详细的数值研究,以测试多个数据集,聚类模型和分类模型上所提出的方法。结果的分析表明,所提出的方法可用于解释时间序列聚类模型,特别是当基础分类模型准确时。最后,我们对结果进行了详细的分析,讨论了如何在现实生活中使用我们的方法。
translated by 谷歌翻译
入侵检测是提供计算机网络安全性的重要机制之一。由于攻击的增加以及对医学,商业和工程等其他领域的依赖不断增加,因此通过网络提供服务并维持网络安全已成为一个重大问题。入侵检测系统(IDS)的目的是开发能够将常规通信与异常沟通区分开的模型,并采取必要的动作。在该领域的不同方法中,人工神经网络(ANN)已被广泛使用。但是,基于ANN的ID遇到了两个主要问题:低检测精度和弱检测稳定性。为了克服这些问题,本文提出了一种基于深神经网络ANS支持向量机分类器的新方法,该方法受到“分裂和征服”哲学的启发。提出的模型以更好的准确性来预测攻击,以进行入侵检测而不是相似的方法。对于我们的实证研究,我们利用了KDD99数据集。我们的实验结果表明,新方法提高了95.4%的分类精度。
translated by 谷歌翻译
We present a novel clustering algorithm, visClust, that is based on lower dimensional data representations and visual interpretation. Thereto, we design a transformation that allows the data to be represented by a binary integer array enabling the further use of image processing methods to select a partition. Qualitative and quantitative analyses show that the algorithm obtains high accuracy (measured with an adjusted one-sided Rand-Index) and requires low runtime and RAM. We compare the results to 6 state-of-the-art algorithms, confirming the quality of visClust by outperforming in most experiments. Moreover, the algorithm asks for just one obligatory input parameter while allowing optimization via optional parameters. The code is made available on GitHub.
translated by 谷歌翻译
最近,稀疏的培训方法已开始作为事实上的人工神经网络的培训和推理效率的方法。然而,这种效率只是理论上。在实践中,每个人都使用二进制掩码来模拟稀疏性,因为典型的深度学习软件和硬件已针对密集的矩阵操作进行了优化。在本文中,我们采用正交方法,我们表明我们可以训练真正稀疏的神经网络以收获其全部潜力。为了实现这一目标,我们介绍了三个新颖的贡献,这些贡献是专门为稀疏神经网络设计的:(1)平行训练算法及其相应的稀疏实现,(2)具有不可训练的参数的激活功能,以支持梯度流动,以支持梯度流量, (3)隐藏的神经元对消除冗余的重要性指标。总而言之,我们能够打破记录并训练有史以来最大的神经网络在代表力方面训练 - 达到蝙蝠大脑的大小。结果表明,我们的方法具有最先进的表现,同时为环保人工智能时代开辟了道路。
translated by 谷歌翻译
本报告探讨了机器学习技术在短时间内基因表达数据中的应用。虽然标准机器学习算法在更长的时间系列中工作良好,但它们通常无法从更少的时间点中找到有意义的见解。在本报告中,我们探索基于模型的群集技术。我们将流行无监督的学习技术相结合,如K-means,高斯混合模型,贝叶斯网络,隐藏的马尔可夫模型,具有众所周知的期望最大化算法。K-means和高斯混合模型是相当标准的,而隐藏的马尔可夫模型和贝叶斯网络聚类是更加新颖的想法,适合时间序列基因表达数据。
translated by 谷歌翻译
聚类算法的全面基准是困难的两个关键因素:(i)〜这种无监督的学习方法的独特数学定义和(ii)〜某些聚类算法采用的生成模型或群集标准之间的依赖性的依赖性内部集群验证。因此,对严格基准测试的最佳做法没有达成共识,以及是否有可能在给定申请的背景之外。在这里,我们认为合成数据集必须继续在群集算法的评估中发挥重要作用,但这需要构建适当地涵盖影响聚类算法性能的各种属性集的基准。通过我们的框架,我们展示了重要的角色进化算法,以支持灵活的这种基准,允许简单的修改和扩展。我们说明了我们框架的两种可能用途:(i)〜基准数据的演变与一组手派生属性和(ii)〜生成梳理给定对算法之间的性能差异的数据集。我们的作品对设计集群基准的设计具有足够挑战广泛算法的集群基准,并进一步了解特定方法的优势和弱点。
translated by 谷歌翻译
已经开发了各种方法来结合多组结果的推理,以在集合和共识聚类文献中进行无监督的聚类。从几个候选聚类模型中的一个“最佳”模型报告结果的方法通常忽略了由模型选择产生的不确定性,并且导致对所选择的特定模型和参数敏感的推论,以及制作的假设,尤其是在小样本中所做的假设。尺寸或小簇尺寸。贝叶斯模型平均(BMA)是一种在多种模型中结合结果的流行方法,这些模型在这种情况下提供了一些有吸引力的好处,包括对组合集群结构的概率解释和基于模型的不确定性的量化。在这项工作中,我们介绍了ClusterBMA,该方法可以通过多种无监督聚类算法进行加权模型平均。我们将聚类内部验证标准的组合用作后验模型概率的新近似值,以加权每个模型的结果。从代表跨模型的聚类溶液的加权平均值的组合后相似性矩阵,我们应用对称的单纯形矩阵分解来计算最终的概率群集分配。此方法在随附的R软件包中实现。我们通过案例研究探索这种方法的性能,该案例研究旨在根据脑电图(EEG)数据识别个体的概率簇。我们还使用仿真数据集探索所提出的技术识别稳健的集成簇具有不同级别的集成簇,并在子组之间的分离水平变化,并且模型之间的簇数量变化。
translated by 谷歌翻译