With the increase in health consciousness, noninvasive body monitoring has aroused interest among researchers. As one of the most important pieces of physiological information, researchers have remotely estimated the heart rate (HR) from facial videos in recent years. Although progress has been made over the past few years, there are still some limitations, like the processing time increasing with accuracy and the lack of comprehensive and challenging datasets for use and comparison. Recently, it was shown that HR information can be extracted from facial videos by spatial decomposition and temporal filtering. Inspired by this, a new framework is introduced in this paper to remotely estimate the HR under realistic conditions by combining spatial and temporal filtering and a convolutional neural network. Our proposed approach shows better performance compared with the benchmark on the MMSE-HR dataset in terms of both the average HR estimation and short-time HR estimation. High consistency in short-time HR estimation is observed between our method and the ground truth.
translated by 谷歌翻译
Searching for a path between two nodes in a graph is one of the most well-studied and fundamental problems in computer science. In numerous domains such as robotics, AI, or biology, practitioners develop search heuristics to accelerate their pathfinding algorithms. However, it is a laborious and complex process to hand-design heuristics based on the problem and the structure of a given use case. Here we present PHIL (Path Heuristic with Imitation Learning), a novel neural architecture and a training algorithm for discovering graph search and navigation heuristics from data by leveraging recent advances in imitation learning and graph representation learning. At training time, we aggregate datasets of search trajectories and ground-truth shortest path distances, which we use to train a specialized graph neural network-based heuristic function using backpropagation through steps of the pathfinding process. Our heuristic function learns graph embeddings useful for inferring node distances, runs in constant time independent of graph sizes, and can be easily incorporated in an algorithm such as A* at test time. Experiments show that PHIL reduces the number of explored nodes compared to state-of-the-art methods on benchmark datasets by 58.5\% on average, can be directly applied in diverse graphs ranging from biological networks to road networks, and allows for fast planning in time-critical robotics domains.
translated by 谷歌翻译
数学推理是人类智力的核心能力,在抽象思维和逻辑推理中对机器提出了独特的挑战。最近的大型预训练的语言模型(例如GPT-3)在以文本形式(例如数学单词问题(MWP))编写的数学推理任务上取得了显着的进步。但是,未知模型是否可以处理更复杂的问题,这些问题涉及数学推理,例如表格数据。为了填补空白,我们提出了表格数学单词问题(TABMWP),这是一个包含38,431个开放域级等级问题的新数据集,这些问题需要在文本和表格数据上进行数学推理。 TABMWP中的每个问题都与表格上下文对齐,该上下文作为图像,半结构化文本和结构化表。有两种类型的问题:自由文本和多选择,每个问题都用金解决方案注释以揭示多步推理过程。我们在TABMWP上评估了不同的预训练模型,包括在几次设置中的GPT-3模型。正如先前的研究所表明的那样,由于很少有GPT-3依赖于内在的示例的选择,因此其性能是不稳定的,并且可能会降解为几乎机会。处理TABMWP等复杂问题时,不稳定的问题更为严重。为了减轻这种情况,我们进一步提出了一种新颖的方法,即PresspG,该方法利用策略梯度学习从少量培训数据中选择中文示例,然后为测试示例构造相应的提示。实验结果表明,与随机选择相比,我们的方法在准确性度量上优于最佳基线,并显着降低了预测方差,这验证了其在选择性上下文示例中的有效性。
translated by 谷歌翻译
激活函数是元素的数学函数,在深神经网络(DNN)中起着至关重要的作用。已经提出了许多新颖和复杂的激活功能来提高DNN的准确性,但在训练过程中还可以通过反向传播消耗大量记忆。在这项研究中,我们提出了嵌套的正向自动分化(正向AD),专门针对用于记忆效率的DNN训练的元素激活函数。我们在两个广泛使用的深度学习框架(Tensorflow和Pytorch)中部署了嵌套的AD,分别支持静态和动态计算图。我们的评估表明,在相同的记忆降低率下,嵌套的前AD嵌套将记忆足迹降低到1.97倍,比基线模型降低了20%。
translated by 谷歌翻译
复杂的流量分析,例如加密的流量分析和未知的恶意软件检测,强调需要进行高级方法来分析网络流量。使用固定模式,签名匹配和检测网络流量中已知模式的规则的传统方法已被AI(人工智能)驱动算法取代。但是,缺乏高性能AI网络特定的框架使得不可能在网络工作负载中部署基于AI的实时处理。在本文中,我们描述了流量分析开发工具包(TADK)的设计,这是一个针对基于AI的网络工作负载处理的行业标准框架。 TADK可以在数据中心到边缘的网络设备中基于实时的AI网络工作负载处理,而无需专门硬件(例如GPU,神经处理单元等)。我们已经在商品WAF和5G UPF中部署了TADK,评估结果表明,Tadk可以在流量功能提取时达到每个核心最多35.3Gbps的吞吐量,每核6.5Gbps在流量分类中,并且可以减少SQLI/XSS检测到下降至4.5us每个请求的精度比固定模式解决方案更高。
translated by 谷歌翻译
旨在用自然语言和谐地与人类交流的智能对话体系对于促进人工智能时代的人机互动的发展非常出色。有了逐渐复杂的人类计算机交互要求(例如,多模式输入,时间敏感性),传统的基于文本的对话系统很难满足对更加生动和方便的交互的需求。因此,视觉背景增强对话系统(VAD)有可能通过感知和理解多模式信息(即图像或视频中的视觉上下文,文本对话历史记录)与人类进行交流,已成为主要的研究范式。 VAD受益于视觉和文本上下文之间的一致性和互补性,具有产生引人入胜和背景感知响应的潜力。为了描述VAD的开发,我们首先表征VAD的概念和独特功能,然后介绍其通用系统体系结构以说明系统工作流程。随后,对一些研究挑战和代表性作品进行了详细研究,然后进行了权威基准摘要。我们通过提出一些开放问题和有前途的VAD研究趋势来结束本文,例如,在跨模式对话环境下,人机对话的认知机制以及知识增强的跨模式语义互动。
translated by 谷歌翻译
超声检查是乳腺癌诊断的重要常规检查,这是由于其无创,无辐射和低成本的特性。但是,由于其固有的局限性,乳腺癌的诊断准确性仍然受到限制。如果我们可以通过乳房超声图像(BUS)精确诊断乳腺癌,那将是一个巨大的成功。已经提出了许多基于学习的计算机辅助诊断方法来实现乳腺癌诊断/病变分类。但是,其中大多数需要预定的ROI,然后对ROI内的病变进行分类。常规的分类骨架,例如VGG16和RESNET50,可以在没有ROI要求的情况下获得有希望的分类结果。但是这些模型缺乏解释性,因此限制了它们在临床实践中的使用。在这项研究中,我们提出了一种具有可解释特征表示的超声图像中乳腺癌诊断的新型无ROI模型。我们利用解剖学的先验知识,即恶性肿瘤和良性肿瘤在不同的组织层之间具有不同的空间关系,并提出了悬停转换器来提出这种先验知识。提出的悬停式跨界块水平和垂直地提取层间和层内空间信息。我们进行并释放一个开放的数据集GDPH&SYSUCC,以用于公共汽车中的乳腺癌诊断。通过与四个基于CNN的模型和两个Vision Transformer模型进行比较,通过五倍的交叉验证来评估所提出的模型。它通过最佳模型可解释性实现最新的分类性能。同时,我们提出的模型在仅给出一张公交图像时,在乳腺癌诊断方面优于两名高级超声检查员。
translated by 谷歌翻译
背景:患者的分类是控制2019年冠状病毒疾病的大流行病(Covid-19),特别是在临床资源极为有限时在大流行的峰值期间。目的:开发一种用合成胸CT自动筛分和量化肺和肺炎病变的方法,并评估Covid-19患者的疾病严重程度。材料和方法:在本研究中,我们通过可用的数据集(来自“肺结核分析2016年”的285个数据集“来生成数据增强以产生合成胸CT图像。合成图像和掩模用于训练2D U-Net神经网络并在203个Covid-19数据集上测试,以产生肺和病变分段。疾病严重程度评分(DL:损伤负荷; DS:损伤得分)是基于分段计算的。使用Pearson方法评估DL / DS和临床实验室测试之间的相关性。 p值<0.05被认为是统计显着性。结果:将自动肺和病变分段与手动注释进行比较。对于肺部分割,骰子相似系数,Jaccard指数和平均表面距离的中值分别为98.56%,97.15%和0.49 mm。病变分割的相同度量分别为76.95%,62.54%和2.36毫米。在DL / DS和百分比淋巴细胞检测中发现显着(P << 0.05)相关性,R值分别为-0.561和-0.501。结论:基于胸部射线照相和数据增强的AI系统对Covid-19患者的肺癌和病变进行了分段。成像结果与临床实验室测试之间的相关性表明该系统的价值作为评估Covid-19疾病严重程度的潜在工具。
translated by 谷歌翻译
Covid-19已成为全球大流行,仍然对公众产生严重的健康风险。 CT扫描中肺炎病变的准确和有效的细分对于治疗决策至关重要。我们提出了一种使用循环一致生成的对冲网络(循环GaN)的新型无监督方法,其自动化和加速病变描绘过程。工作流程包括肺体积分割,“合成”健康肺一代,感染和健康的图像减法,以及二元病变面膜创造。首先使用预先训练的U-Net划定肺体积,并作为后续网络的输入。开发了循环GaN,以产生来自受感染的肺图像的合成的“健康”肺CT图像。之后,通过从“受感染的”肺CT图像中减去合成的“健康”肺CT图像来提取肺炎病变。然后将中值过滤器和K-Means聚类应用于轮廓的病变。在两个公共数据集(冠状遗传酶和Radiopedia)上验证了自动分割方法。骰子系数分别达到0.748和0.730,用于冠状遗传酶和RadioPedia数据集。同时,对冠纳卡酶数据集的病变分割性的精度和灵敏度为0.813和0.735,以及用于Radiopedia数据集的0.773和0.726。性能与现有的监督分割网络和以前无监督的特性相当。提出的无监督分割方法在自动Covid-19病变描绘中实现了高精度和效率。分割结果可以作为进一步手动修改的基线和病变诊断的质量保证工具。此外,由于其无人自化的性质,结果不受医师经验的影响,否则对监督方法至关重要。
translated by 谷歌翻译
Accurate determination of a small molecule candidate (ligand) binding pose in its target protein pocket is important for computer-aided drug discovery. Typical rigid-body docking methods ignore the pocket flexibility of protein, while the more accurate pose generation using molecular dynamics is hindered by slow protein dynamics. We develop a tiered tensor transform (3T) algorithm to rapidly generate diverse protein-ligand complex conformations for both pose and affinity estimation in drug screening, requiring neither machine learning training nor lengthy dynamics computation, while maintaining both coarse-grain-like coordinated protein dynamics and atomistic-level details of the complex pocket. The 3T conformation structures we generate are closer to experimental co-crystal structures than those generated by docking software, and more importantly achieve significantly higher accuracy in active ligand classification than traditional ensemble docking using hundreds of experimental protein conformations. 3T structure transformation is decoupled from the system physics, making future usage in other computational scientific domains possible.
translated by 谷歌翻译