Implicit Neural Representations (INR) have recently shown to be powerful tool for high-quality video compression. However, existing works are limiting as they do not explicitly exploit the temporal redundancy in videos, leading to a long encoding time. Additionally, these methods have fixed architectures which do not scale to longer videos or higher resolutions. To address these issues, we propose NIRVANA, which treats videos as groups of frames and fits separate networks to each group performing patch-wise prediction. This design shares computation within each group, in the spatial and temporal dimensions, resulting in reduced encoding time of the video. The video representation is modeled autoregressively, with networks fit on a current group initialized using weights from the previous group's model. To further enhance efficiency, we perform quantization of the network parameters during training, requiring no post-hoc pruning or quantization. When compared with previous works on the benchmark UVG dataset, NIRVANA improves encoding quality from 37.36 to 37.70 (in terms of PSNR) and the encoding speed by 12X, while maintaining the same compression rate. In contrast to prior video INR works which struggle with larger resolution and longer videos, we show that our algorithm is highly flexible and scales naturally due to its patch-wise and autoregressive designs. Moreover, our method achieves variable bitrate compression by adapting to videos with varying inter-frame motion. NIRVANA achieves 6X decoding speed and scales well with more GPUs, making it practical for various deployment scenarios.
translated by 谷歌翻译
Node classification for graph-structured data aims to classify nodes whose labels are unknown. While studies on static graphs are prevalent, few studies have focused on dynamic graph node classification. Node classification on dynamic graphs is challenging for two reasons. First, the model needs to capture both structural and temporal information, particularly on dynamic graphs with a long history and require large receptive fields. Second, model scalability becomes a significant concern as the size of the dynamic graph increases. To address these problems, we propose the Time Augmented Dynamic Graph Neural Network (TADGNN) framework. TADGNN consists of two modules: 1) a time augmentation module that captures the temporal evolution of nodes across time structurally, creating a time-augmented spatio-temporal graph, and 2) an information propagation module that learns the dynamic representations for each node across time using the constructed time-augmented graph. We perform node classification experiments on four dynamic graph benchmarks. Experimental results demonstrate that TADGNN framework outperforms several static and dynamic state-of-the-art (SOTA) GNN models while demonstrating superior scalability. We also conduct theoretical and empirical analyses to validate the efficiency of the proposed method. Our code is available at https://sites.google.com/view/tadgnn.
translated by 谷歌翻译
面向目标的生成脚本学习旨在根据目标生成后续步骤,这是帮助机器人进行日常生活的刻板印象活动的重要任务。我们表明,如果历史状态不仅被给人的语言指示捕获,而且还可以增强随附图像提供的其他信息,可以提高此任务的性能。因此,我们提出了一项新任务,多媒体生成脚本学习,以通过跟踪文本和视觉方式中的历史状态,并介绍包含2,338个任务和31,496个步骤的第一个基准,从而生成后续步骤。我们旨在生成视觉状态的脚本,这些脚本是可跟踪的,对看不见的任务的诱导性,并且在各自的步骤中多样化。我们建议通过多媒体选择性编码器编码视觉状态更改,并使用检索仪的解码器从先前观察到的任务中转移知识,并通过优化面向多样性的对比度学习目标来在每个步骤中介绍不同的信息。我们定义指标以评估发电质量和电感质量。实验结果表明,我们的方法明显优于强质基线。
translated by 谷歌翻译
三维(3D)医学图像的产生可能具有巨大的应用潜力,因为它考虑了3D解剖结构。但是,有两个问题可以防止有效培训3D医疗生成模型:(1)3D医学图像的获取和注释非常昂贵,导致培训图像不足,(2)大量参数是参与3D卷积。为了解决这两个问题,我们提出了一种名为3D Split&Shuffle-Gan的新型GAN模型。为了解决3D数据稀缺问题,我们首先使用丰富的图像切片预先培训二维(2D)GAN模型,并夸大2D卷积权重以改善3D GAN的初始化。为GAN模型的生成器和鉴别器提出了新型的3D网络体系结构,以显着减少参数的数量,同时保持图像生成的质量。研究了许多体重通胀策略和参数有效的3D架构。对心脏(Stanford Aimi冠状动脉钙)和大脑(阿尔茨海默氏病神经成像计划)的实验表明,所提出的方法会导致改善的3D图像产生质量,参数较少。
translated by 谷歌翻译
对于自动语音识别(ASR)系统而言,检测和恢复量不足(OOV)单词总是具有挑战性的。许多现有的方法着重于通过修改声学和语言模型并巧妙地集成到模型的上下文单词来对OOV单词进行建模。为了培训这样的复杂模型,我们需要大量数据,其中包括上下文单词,额外的训练时间和增加模型大小。但是,在获取ASR转录以恢复基于上下文的OOV单词之后,对后处理方法的探索并未得到太多探索。在这项工作中,我们提出了一种后处理技术,以提高基于上下文的OOV恢复的性能。我们创建了一个具有声音增强的语言模型,并在电话级上用OOV单词列表制作了子图。我们提出了两种方法来确定合适的成本函数,以根据上下文检索OOV单词。成本函数是根据语音和声学知识来定义的,用于匹配和恢复解码中的正确上下文单词。在文字级别和句子级别上都评估了提议的成本函数的有效性。评估结果表明,这种方法可以平均在多个类别中恢复50%基于上下文的OOV单词。
translated by 谷歌翻译
我们提出了一种自我监督的方法,用于预测需要良好牵引力才能导航的轮式移动机器人的可穿越路径。我们的算法称为Wayfast(无路线自动驾驶系统用于遍历性),使用RGB和深度数据以及导航经验,自主在室外非结构化环境中自主生成可遍历的路径。我们的主要灵感是,可以使用动力动力学模型估算滚动机器人的牵引力。使用在线退化的视野估计器提供的牵引力估计值,我们能够以自我监督的方式训练遍历性预测神经网络,而无需以前的方法使用的启发式方法。我们通过在各种环境中进行广泛的现场测试来证明Wayfast的有效性,从沙滩到森林檐篷和积雪覆盖的草田不等。我们的结果清楚地表明,Wayfast可以学会避免几何障碍物以及不可传输的地形,例如雪,这很难避免使用仅提供几何数据(例如LiDAR)的传感器。此外,我们表明,基于在线牵引力估计的培训管道比其他基于启发式的方法更有效率。
translated by 谷歌翻译
中期的认知是与年龄相关的精神衰退和统计模型的重要预测因素,以预测认知性能可以有助于预测下降。然而,现有的模型努力捕捉影响认知的物理,社会造影,心理和心理健康因素之间的复杂关系。使用来自观察,队列研究,中午在美国(Midus)的数据,我们建模了大量变量来预测执行功能和剧集内存措施。我们使用了不同的稀疏性或缺失数据量的横截面和纵向结果。深度神经网络(DNN)模型在所有认知性能预测任务中始终如一地排名最高,如在样本外数据上的根均匀误差(RMSE)评估。 DNN和其他模型类型之间的RMSE差异均有统计学意义(T(8)= -3.70; p <0.05)。模型类型和稀疏性之间的相互作用效果很大(F(9)= 59.20; p <0.01),表明DNN的成功可以部分地归因于其稳健性和能力模拟与健康相关因素之间的层次关系。我们的调查结果强调了神经网络对模型临床数据集的潜力,并更好地理解导致认知下降的因素。
translated by 谷歌翻译
可说明的人工智能(XAI)被确定为使用机器学习(ML)模型进行预测时确定功能的重要性的可行方法。在这项研究中,我们创建了将个人健康信息(例如,他们的药物历史和合并症)作为输入的模型,并预测个体将具有急性冠状动脉综合征(ACS)不利结果的可能性。使用Xai,我们量化了特定药物对这些ACS预测的贡献,从而产生了基于XAI的药物检测技术,使用ACS作为检测的不利结果的示例。鉴定了1993年至2009年在1993年至2009年期间提供的65岁以上的人(解剖治疗化学(ATC)级别M)或心血管系统(ATC类C)药物,以及其药物历史,组合和其他关键特征来自联系的西澳大利亚数据集。培训多种ML模型以预测这些个体如果这些个体具有ACS相关的不利结果(即,用于ACS的放电诊断的死亡或住院),并且使用各种ML和XAI技术来计算哪种特征 - 特别是哪种药物 - 导致这些预测。发现ROFecoxib和Celecoxib的药物分配特征对ACS相关的不利结果预测(平均)的贡献大于零效果,并且发现ACS相关的不利结果可以预测72%的准确度。此外,发现Xai库石灰和Shap成功识别重要和不重要的功能,具有略微优于石灰的形状。 ML培训的ML模型与XAI算法串联的连接行政健康数据集可以成功地量化特征重要性,并且随着进一步的开发,可能被用作药物检测技术。
translated by 谷歌翻译
我们调查部分观察到的Markov决策过程(POMDPS),通过描述状态,观察和控制不确定性的熵术语规范化的成本函数。标准POMDP技术显示为对这些熵正则化的POMDP提供有界误差解决方案,当正规化涉及状态,观察和控制轨迹的联合熵时,具有精确的解决方案。我们的联合熵结果特别令人惊讶,因为它构成了一种新颖的,无解决的活性状态估计的制剂。
translated by 谷歌翻译
科学主题的分类方案概述了其知识体系。它还可以用于促进访问研究文章和与受试者相关的其他材料。例如,ACM计算分类系统(CCS)用于ACM数字库搜索界面以及索引计算机科学论文。我们观察到,计算语言学(CL)和自然语言处理(NLP),不存在综合分类系统等CCS或数学主题分类(MSC)。我们提出了一个分类方案 - 基于在这一主题的77个大学课程的在线讲座的分析,Cl / NLP的Clicker。目前拟议的分类学包括334个主题,并侧重于CL / NLP的教育方面;它主要是基于,但不是完全,在NLP课程的讲义中。我们讨论这种分类系统如何帮助各种现实世界应用,包括辅导平台,资源检索,资源推荐,先决条件链学习和调查生成。
translated by 谷歌翻译