使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
This paper develops a clustering method that takes advantage of the sturdiness of model-based clustering, while attempting to mitigate some of its pitfalls. First, we note that standard model-based clustering likely leads to the same number of clusters per margin, which seems a rather artificial assumption for a variety of datasets. We tackle this issue by specifying a finite mixture model per margin that allows each margin to have a different number of clusters, and then cluster the multivariate data using a strategy game-inspired algorithm to which we call Reign-and-Conquer. Second, since the proposed clustering approach only specifies a model for the margins -- but leaves the joint unspecified -- it has the advantage of being partially parallelizable; hence, the proposed approach is computationally appealing as well as more tractable for moderate to high dimensions than a `full' (joint) model-based clustering approach. A battery of numerical experiments on artificial data indicate an overall good performance of the proposed methods in a variety of scenarios, and real datasets are used to showcase their application in practice.
translated by 谷歌翻译
两个随机过程的局部特征的比较可以阐明该过程差异最大的时间或空间。本文提出了一种了解具有一定体积的区域的方法,其中两个过程的边际属性不那么相似。所提出的方法是针对感兴趣的数据本身就是随机过程的设置而完全普遍设计的,因此,在功能数据的背景下,所提出的方法可用于指出与一定体积的最大差异区域的指出。系列和点过程。两个感兴趣的随机过程基础的参数函数是通过基础表示建模的,贝叶斯推断是通过集成的嵌套拉普拉斯近似进行的。数值研究验证了所提出的方法,我们通过犯罪学,金融和医学的案例研究展示了它们的应用。
translated by 谷歌翻译
许多微体系式优化为深度神经网络解锁了巨大的处理能力,从而促进了AI革命。随着这种优化的精疲力尽,现代AI的增长现在是通过培训系统的性能,尤其是其数据流动的。我们没有专注于单个加速器,而是研究了全系统规模的大规模培训的数据移动特征。基于我们的工作量分析,我们设计了HammingMesh,这是一种新颖的网络拓扑,以低成本提供高的带宽,并具有很高的工作计划灵活性。具体而言,HammingMesh可以支持具有两个并行性的两个维度的深度学习培训工作的完整带宽和隔离。此外,它还为通用流量的高全球带宽提供支持。因此,HammingMesh将为未来的大规模深度学习系统供电,并具有极端的带宽要求。
translated by 谷歌翻译
在双胞胎输血综合征(TTTS)中,单座管胎盘中的异常血管吻合可能会在两个胎儿之间产生不均匀的流量。在当前的实践中,通过使用激光消融闭合异常吻合来对TTT进行手术治疗。该手术在最小的侵入性中依赖于胎儿镜检查。有限的视野使吻合术识别成为外科医生的具有挑战性的任务。为了应对这一挑战,我们提出了一个基于学习的框架,用于视野扩展的体内胎儿镜框架注册。该框架的新颖性依赖于基于学习的关键点提案网络以及基于胎儿镜图像细分和(ii)不一致的同符的编码策略(i)无关的关键点。我们在来自6个不同女性的6个TTT手术的6个术中序列的数据集中验证了我们的框架,这是根据最新的最新算法状态,该算法依赖于胎盘血管的分割。与艺术的状态相比,提出的框架的性能更高,为稳健的马赛克在TTTS手术期间提供背景意识铺平了道路。
translated by 谷歌翻译
神经胶质瘤是由不同高度异质组织学子区域组成的脑肿瘤。鉴定相关肿瘤子结构的图像分析技术具有改善患者诊断,治疗和预后的高潜力。但是,由于神经胶质瘤的异质性高,分割任务目前是医学图像分析领域的主要挑战。在目前的工作中,研究了由神经胶质瘤的多模式MRI扫描组成的2018年脑肿瘤分割(BRAT)挑战的数据库。提出了基于卷积神经网络(CNN)的设计和应用的分割方法,并结合了原始的后处理技术,其计算需求较低。后处理技术是分割中获得的结果的主要负责。分段区域是整个肿瘤,肿瘤核和增强的肿瘤核,分别获得等于0.8934、0.8376和0.8113的平均骰子系数。这些结果达到了由挑战的获胜者确定的神经胶质瘤分割的最新现状。
translated by 谷歌翻译
TensorFlow GNN(TF-GNN)是张量曲线的图形神经网络的可扩展库。它是从自下而上设计的,以支持当今信息生态系统中发生的丰富的异质图数据。Google的许多生产模型都使用TF-GNN,最近已作为开源项目发布。在本文中,我们描述了TF-GNN数据模型,其KERAS建模API以及相关功能,例如图形采样,分布式训练和加速器支持。
translated by 谷歌翻译
胎儿镜检查激光​​光凝是一种广泛采用的方法,用于治疗双胞胎输血综合征(TTTS)。该过程涉及光凝病理吻合术以调节双胞胎之间的血液交换。由于观点有限,胎儿镜的可操作性差,可见性差和照明的可变性,因此该程序尤其具有挑战性。这些挑战可能导致手术时间增加和消融不完全。计算机辅助干预措施(CAI)可以通过识别场景中的关键结构并通过视频马赛克来扩展胎儿镜观景领域,从而为外科医生提供决策支持和背景意识。由于缺乏设计,开发和测试CAI算法的高质量数据,该领域的研究受到了阻碍。通过作为MICCAI2021内窥镜视觉挑战组织的胎儿镜胎盘胎盘分割和注册(FETREG2021)挑战,我们发布了第一个Largescale Multencentre TTTS数据集,用于开发广义和可靠的语义分割和视频摩擦质量algorithms。对于这一挑战,我们发布了一个2060张图像的数据集,该数据集是从18个体内TTTS胎儿镜检查程序和18个简短视频剪辑的船只,工具,胎儿和背景类别的像素通道。七个团队参与了这一挑战,他们的模型性能在一个看不见的测试数据集中评估了658个从6个胎儿镜程序和6个短剪辑的图像的图像。这项挑战为创建通用解决方案提供了用于胎儿镜面场景的理解和摩西式解决方案的机会。在本文中,我们介绍了FETREG2021挑战的发现,以及报告TTTS胎儿镜检查中CAI的详细文献综述。通过这一挑战,它的分析和多中心胎儿镜数据的发布,我们为该领域的未来研究提供了基准。
translated by 谷歌翻译
从对量子网络和传感器的基本力量的超敏感探测器,机械谐振器能够在室温环境中实现下一代技术。目前,氮化硅纳米腔作为这些进步中的领先微芯片平台,允许机械谐振器从环境热噪声显着隔离的机械谐振器。然而,迄今为止,人类直觉仍然是设计过程背后的驱动力。这里,由自然启发和通过机器学习引导,开发了一种蜘蛛网纳米机械谐振器,其显示通过数据驱动优化算法发现的新颖“扭转软夹紧”机构从环境热环境中分离的振动模式。然后制造该生物启发的谐振器;通过在室温环境中通过高于10亿以上的机械师进行实验证实了新的范式。与其他最先进的谐振器相比,这种里程碑是通过紧凑的设计实现的,该设计不需要亚微米光刻特征或复声胶凝带,使得在大尺度上制造显着更容易和更便宜。在这里,我们展示了机器学习与人类直觉一起工作的能力,以增加创造性的可能性,并在计算和纳米技术中发现新的策略。
translated by 谷歌翻译
心脏听诊是用于检测和识别许多心脏病的最具成本效益的技术之一。基于Auscultation的计算机辅助决策系统可以支持他们的决定中的医生。遗憾的是,在临床试验中的应用仍然很小,因为它们中的大多数仅旨在检测音盲局部信号中的额外或异常波的存在,即,仅提供二进制地面真理变量(普通VS异常)。这主要是由于缺乏大型公共数据集,其中存在对这种异常波(例如,心脏杂音)的更详细描述。为基于听诊的医疗建议系统铺平了更有效的研究,我们的团队准备了目前最大的儿科心声数据集。从1568名患者的四个主要听诊位置收集了5282个录音,在此过程中,手动注释了215780人的心声。此外,并且首次通过专家注释器根据其定时,形状,俯仰,分级和质量来手动注释每个心脏杂音。此外,鉴定了杂音的听诊位置以及杂音更集中检测到杂音的位置位置。对于相对大量的心脏声音的这种详细描述可以为新机器学习算法铺平道路,该算法具有真实世界的应用,用于检测和分析诊断目的的杂波。
translated by 谷歌翻译