Dry Eye Disease (DED) is one of the most common ocular diseases: over five percent of US adults suffer from DED. Tear film instability is a known factor for DED, and is thought to be regulated in large part by the thin lipid layer that covers and stabilizes the tear film. In order to aid eye related disease diagnosis, this work proposes a novel paradigm in using computer vision techniques to numerically analyze the tear film lipid layer (TFLL) spread. Eleven videos of the tear film lipid layer spread are collected with a micro-interferometer and a subset are annotated. A tracking algorithm relying on various pillar computer vision techniques is developed. Our method can be found at https://easytear-dev.github.io/.
translated by 谷歌翻译
研究的目的:在生物社区,可见人类的特征是普遍和可行的验证和识别移动设备上。然而,驾驶员能够通过创造假人和人工生物识别来欺骗系统来欺骗这些特征。可见的生物识别系统遭遇了呈现攻击的高安全性风险。方法:在此期间,基于挑战的方法,特别是视线跟踪和瞳孔动态似乎比别人接触生物系统更加安全的方法。我们审查了探索凝视跟踪和瞳孔动态活力检测的现有工作。主要结果:本研究分析了视线跟踪和瞳孔动态演示攻击的各个方面,如国家的最先进的活跃度检测算法,各种文物,公共数据库的可访问性和标准化的在这方面的总结。此外,我们讨论了未来的工作和开放挑战,以基于基于挑战的系统创造安全的活力检测。
translated by 谷歌翻译
折射率是最常见的眼睛障碍,是可更正视觉障碍的关键原因,造成了美国近80%的视觉障碍。可以使用多种方法诊断折射误差,包括主观折射,视网膜镜检查和自动磨蚀器。尽管主观折射是黄金标准,但它需要患者的合作,因此不适合婴儿,幼儿和发育迟缓的成年人。视网膜镜检查是一种客观折射方法,不需要患者的任何输入。但是,视网膜镜检查需要镜头套件和训练有素的检查员,这限制了其用于大规模筛查的使用。在这项工作中,我们通过将智能手机连接到视网膜镜和录制视网膜镜视频与患者戴着定制的纸框架来自动化自动化。我们开发了一个视频处理管道,该管道将视网膜视频视为输入,并根据我们提出的视网膜镜检查数学模型的扩展来估算净屈光度错误。我们的系统减轻了对镜头套件的需求,可以由未经培训的检查员进行。在一项185只眼睛的临床试验中,我们的灵敏度为91.0%,特异性为74.0%。此外,与主观折射测量相比,我们方法的平均绝对误差为0.75 $ \ pm $ 0.67D。我们的结果表明,我们的方法有可能用作现实世界中医疗设置中的基于视网膜镜检查的折射率筛选工具。
translated by 谷歌翻译
我们介绍了世界上最大的统一公共数据集的眼睛图像,该图像是用头部安装的设备拍摄的。 TEYED带有七个不同的头部注射痕迹。其中,将两个眼动仪集成到虚拟现实(VR)或增强现实(AR)设备中。 TEYED中的图像是从各种任务中获得的,包括乘车,模拟器骑行,户外运动活动和日常室内活动。数据集包括2D \&3D地标,语义分割,3D眼球注释以及所有图像的注视向量和眼动类型。为学生,虹膜和眼皮提供了地标和语义分割。视频长度从几分钟到几个小时不等。 TEYED拥有超过2000万次精心注释的图像,为在现代VR和AR应用中的计算机视觉,眼睛跟踪和凝视估算领域的研究中提供了一个独特的,连贯的资源和宝贵的基础。只需通过ftp作为用户teyeduser连接而在nephrit.cs.uni-tuebingen.de(ftp://teyeduser@nephrit.cs.uni-tuebingen.de)上进行数据和代码。
translated by 谷歌翻译
我们提出了一种互动地控制静止图像中的流体元素的动画的方法,以产生阴影。具体而言,我们专注于水,烟雾,火的流体元素的动画,具有重复纹理和连续流体运动的性质。从先前作品中采取灵感,我们代表了恒定的2D光学流程图的形式中这种流体元件的运动。为此,我们允许用户提供任何数量的箭头方向及其相关速度以及用户想要动画的区域的掩码。然后,用户提供的输入箭头方向,它们对应的速度值和掩模被转换成表示恒定光学流程图(FD)的致密流图。我们观察到使用简单指数操作获得的FD可以密切地近似图像中元素的合理运动。我们进一步使用生成 - 对冲网络(GaN)来改进计算的密集光学流程图FD以获得更现实的流程图。我们通过在不同分辨率下向前翘曲输入图像特征来设计新的UNET基于基于UNET的架构来自动生成未来的帧,通过转发输入图像特征。我们在公开的数据集中进行广泛的实验,并表明我们的方法在定性和定量度量方面优于基线。此外,我们向培训集中不存在的方向上显示了对象的定性动画,并提供了一种综合视频的方法,否则在现实世界中不会存在。
translated by 谷歌翻译
通常将视频中的跟踪像素作为光流估计问题进行研究,其中每个像素都用位移向量描述,该位移向量将其定位在下一帧中。即使可以免费获得更广泛的时间上下文,但要考虑到这一点的事先努力仅在2框方法上产生了少量收益。在本文中,我们重新访问Sand and Teller的“粒子视频”方法,并将像素跟踪作为远程运动估计问题,其中每个像素都用轨迹描述,该轨迹将其定位在以后的多个帧中。我们使用该组件重新构建了这种经典方法,这些组件可以驱动流量和对象跟踪中最新的最新方法,例如密集的成本图,迭代优化和学习的外观更新。我们使用从现有的光流数据中挖掘出的远程Amodal点轨迹来训练我们的模型,并通过多帧的遮挡合成增强,这些轨迹会增强。我们在轨迹估计基准和关键点标签传播任务中测试我们的方法,并与最新的光流和功能跟踪方法进行比较。
translated by 谷歌翻译
湍流的分析是融合等离子体物理学中的重要面积。目前的理论模型基于某些等离子体密度结构的演变量化湍流程度,称为Blob。在这项工作中,我们通过在合成数据上训练掩模R-CNN模型和合成和实际数据测试的掩模R-CNN模型,跟踪这些BLOB在高频视频数据中的形状和位置。因此,我们的模型有效地跟踪了合成和真实实验GPI数据的BLOB结构,显示其前景作为估计与Tokamak等离子体的边缘湍流相关的BloB统计的强大工具。
translated by 谷歌翻译
我们提出了Video-Transunet,这是一种深层体系结构,例如通过将时间融合到Transunet深度学习框架中构建的医学CT视频中的细分。特别是,我们的方法通过Resnet CNN主链,通过时间上下文模块(TCM)混合的多帧功能(TCM),通过视觉变压器进行非本地关注以及通过基于UNET的卷积为多个目标的重建功能混合的强框架表示强的框架表示 - 具有多个头部的卷积架构。我们表明,在视频荧光吞咽研究(VFSS)CT序列中,对推注和咽/喉的分割进行测试时,这种新的网络设计可以显着优于其他最先进的系统。在我们的VFSS2022数据集上,它达到了$ 0.8796 \%$的骰子系数,平均表面距离为$ 1.0379 $。请注意,准确跟踪咽注:在临床实践中特别重要,因为它构成了吞咽损伤诊断的主要方法。我们的发现表明,所提出的模型确实可以通过利用时间信息并通过显着的边距提高分割性能来增强Transunet架构。我们发布关键源代码,网络权重和地面真相注释,以简化性能再现。
translated by 谷歌翻译
监测和检测鱼类行为提供有关鱼类福利的基本信息,并有助于实现全球水产养殖中的智能制作。这项工作提出了一种有效的方法,分析了三个袜子密度(1,5和10个个人/水族馆)在水族馆维护的少年小丑鱼(Amphiprion Bicinctus)的空间分布状态和运动模式。估计的位移是评估分散和速度的关键因素,以表达在再循环水产养殖系统中表达小丑鱼的空间分布和运动行为的关键因素。实际上,我们的目标是使用光学流动方法计算速度,幅度和转动角度,以帮助水平养殖者有效地监测和识别鱼类行为。我们在包含在水族馆维护的少年小丑鱼视频流的数据库上测试系统设计。所提出的位移估计揭示了测量小丑鱼运动和色散特征的良好性能。此外,我们展示了提出的技术来定量在早上和下午拍摄的录音之间的小丑鱼活动水平变化的有效性。
translated by 谷歌翻译
婴儿对一般运动(GM)的评估是早期诊断神经发育障碍的有用工具。但是,其在临床实践中的评估依赖于专家的视觉检查,并且热切期待自动解决方案。最近,基于视频的GMS分类引起了人们的注意,但是这种方法将受到无关信息的强烈影响,例如视频中的背景混乱。此外,为了可靠性,有必要在GMS期间正确提取婴儿的时空特征。在这项研究中,我们提出了一种自动GMS分类方法,该方法由预处理网络组成,该网络从GMS视频中删除不必要的背景信息并调整婴儿的身体位置以及基于两流结构的后续运动分类网络。提出的方法可以有效地提取GMS分类的基本时空特征,同时防止过度拟合与不同记录环境无关的信息。我们使用从100名婴儿获得的视频验证了提出的方法。实验结果表明,所提出的方法的表现优于几个基线模型和现有方法。
translated by 谷歌翻译
基于高质量标签的鱼类跟踪和细分的DNN很昂贵。替代无监督的方法取决于视频数据中自然发生的空间和时间变化来生成嘈杂的伪界图标签。这些伪标签用于训练多任务深神经网络。在本文中,我们提出了一个三阶段的框架,用于强大的鱼类跟踪和分割,其中第一阶段是光流模型,该模型使用帧之间的空间和时间一致性生成伪标签。在第二阶段,一个自我监督的模型会逐步完善伪标签。在第三阶段,精制标签用于训练分割网络。在培训或推理期间没有使用人类注释。进行了广泛的实验来验证我们在三个公共水下视频数据集中的方法,并证明它对视频注释和细分非常有效。我们还评估框架对不同成像条件的鲁棒性,并讨论当前实施的局限性。
translated by 谷歌翻译
对医疗保健监控的远程工具的需求从未如此明显。摄像机测量生命体征利用成像装置通过分析人体的图像来计算生理变化。建立光学,机器学习,计算机视觉和医学的进步这些技术以来的数码相机的发明以来已经显着进展。本文介绍了对生理生命体征的相机测量综合调查,描述了它们可以测量的重要标志和实现所做的计算技术。我涵盖了临床和非临床应用以及这些应用需要克服的挑战,以便从概念上推进。最后,我描述了对研究社区可用的当前资源(数据集和代码),并提供了一个全面的网页(https://cameravitals.github.io/),其中包含这些资源的链接以及其中引用的所有文件的分类列表文章。
translated by 谷歌翻译
面部特征跟踪是成像跳芭式(BCG)的关键组成部分,其中需要精确定量面部关键点的位移,以获得良好的心率估计。皮肤特征跟踪能够在帕金森病中基于视频的电机降解量化。传统的计算机视觉算法包括刻度不变特征变换(SIFT),加速强大的功能(冲浪)和LUCAS-KANADE方法(LK)。这些长期代表了最先进的效率和准确性,但是当存在常见的变形时,如图所示,如图所示,如此。在过去的五年中,深度卷积神经网络对大多数计算机视觉任务的传统方法表现优于传统的传统方法。我们提出了一种用于特征跟踪的管道,其应用卷积堆积的AutoEncoder,以将图像中最相似的裁剪标识到包含感兴趣的特征的参考裁剪。 AutoEncoder学会将图像作物代表到特定于对象类别的深度特征编码。我们在面部图像上培训AutoEncoder,并验证其在手动标记的脸部和手视频中通常验证其跟踪皮肤功能的能力。独特的皮肤特征(痣)的跟踪误差是如此之小,因为我们不能排除他们基于$ \ chi ^ 2 $ -test的手动标签。对于0.6-4.2像素的平均误差,我们的方法在所有情况下都表现出了其他方法。更重要的是,我们的方法是唯一一个不分歧的方法。我们得出的结论是,我们的方法为特征跟踪,特征匹配和图像配准比传统算法创建更好的特征描述符。
translated by 谷歌翻译
We investigate architectures of discriminatively trained deep Convolutional Networks (ConvNets) for action recognition in video. The challenge is to capture the complementary information on appearance from still frames and motion between frames. We also aim to generalise the best performing hand-crafted features within a data-driven learning framework. Our contribution is three-fold. First, we propose a two-stream ConvNet architecture which incorporates spatial and temporal networks. Second, we demonstrate that a ConvNet trained on multi-frame dense optical flow is able to achieve very good performance in spite of limited training data. Finally, we show that multitask learning, applied to two different action classification datasets, can be used to increase the amount of training data and improve the performance on both. Our architecture is trained and evaluated on the standard video actions benchmarks of UCF-101 and HMDB-51, where it is competitive with the state of the art. It also exceeds by a large margin previous attempts to use deep nets for video classification.
translated by 谷歌翻译
我们可以通过观看数月或数年来了解一个场景?在长时间播放中录制的视频将在多个时间范围内描绘有趣的现象,但识别和观看它们带来了挑战。该视频太长了,无法完整观看,并且某些事件的实时体验太慢,例如冰川静修。及时视频是总结长视频和可视化慢时尺度的常见方法。但是,时间段仅限于单个选择的时间频率,并且由于框架之间的混叠和时间不连续性,通常会出现闪烁。在本文中,我们提出了视频时间金字塔,该技术可以解决这些局限性并扩大可视化时间流逝的可能性。受到计算机视觉的空间图像金字塔的启发,我们开发了一种在时间域中构建视频金字塔的算法。视频时间金字塔的每个级别都可以看到不同的时间表。例如,每月时间表的视频通常非常适合可视化季节性变化,而一分钟时间尺度的视频最适合可视化日出或云层在天空中的运动。为了帮助探索不同的金字塔水平,我们还提出了一个视频频谱图,以可视化整个金字塔的活动量,从而提供了场景动力学的整体概述,并能够在时间和时间表上探索和发现现象。为了展示我们的方法,我们已经从十个户外场景中构建了视频时间金字塔,每个户外场景都包含数月或数年的数据。我们将视频颞金字塔层与天真的时间解体进行了比较,并发现我们的金字塔可以无视长期变化的别名观看。我们还证明,视频谱图通过实现概述和以细节为中心的观点来促进跨金字塔水平的现象的探索和发现。
translated by 谷歌翻译
Generic motion understanding from video involves not only tracking objects, but also perceiving how their surfaces deform and move. This information is useful to make inferences about 3D shape, physical properties and object interactions. While the problem of tracking arbitrary physical points on surfaces over longer video clips has received some attention, no dataset or benchmark for evaluation existed, until now. In this paper, we first formalize the problem, naming it tracking any point (TAP). We introduce a companion benchmark, TAP-Vid, which is composed of both real-world videos with accurate human annotations of point tracks, and synthetic videos with perfect ground-truth point tracks. Central to the construction of our benchmark is a novel semi-automatic crowdsourced pipeline which uses optical flow estimates to compensate for easier, short-term motion like camera shake, allowing annotators to focus on harder sections of video. We validate our pipeline on synthetic data and propose a simple end-to-end point tracking model TAP-Net, showing that it outperforms all prior methods on our benchmark when trained on synthetic data.
translated by 谷歌翻译
Recently dense trajectories were shown to be an efficient video representation for action recognition and achieved state-of-the-art results on a variety of datasets. This paper improves their performance by taking into account camera motion to correct them. To estimate camera motion, we match feature points between frames using SURF descriptors and dense optical flow, which are shown to be complementary. These matches are, then, used to robustly estimate a homography with RANSAC. Human motion is in general different from camera motion and generates inconsistent matches. To improve the estimation, a human detector is employed to remove these matches. Given the estimated camera motion, we remove trajectories consistent with it. We also use this estimation to cancel out camera motion from the optical flow. This significantly improves motion-based descriptors, such as HOF and MBH. Experimental results on four challenging action datasets (i.e., Hol-lywood2, HMDB51, Olympic Sports and UCF50) significantly outperform the current state of the art.
translated by 谷歌翻译
我们在一个或多个镜头中介绍FacialFilmroll,一种用于空间和时间一致地编辑面的解决方案。我们建立在未包装马赛克[Rav-Acha等。2008年]通过专门谈谈。我们利用最近的技术适应单眼视频的3D面部模型(i)提高了Edition的Mosaic的质量,并允许从一个拍摄的射击自动转移到同一演员的其他镜头。我们解释了FacialFilmroll如何集成在生产后设施中。最后,我们在高分辨率视频上使用FacialFilmroll提供视频编辑结果。
translated by 谷歌翻译
半监控视频对象分段(VOS)旨在在视频序列中分段一些移动对象,其中通过注释第一帧来指定这些对象。已经考虑了许多现有的半监督VOS方法以提高分割精度的光学流程。然而,由于光学流量估计的高复杂性,光流基的半监控VOS方法不能实时运行。在该研究中提出了由特征提取网络(F),外观网络(A),运动网络(A)和集成网络(I)组成的FAMINET,以解决上述问题。外观网络基于对象的静态外观输出初始分割结果。运动网络通过很少的参数估计光学流量,这些参数通过在线记忆算法快速优化,该算法被称为松弛最陡血迹。集成网络使用光流来改进初始分割结果。广泛的实验表明,FAMINET在DAVIS和YOUTUBE-VOS基准上表现出其他最先进的半监督VOS方法,并且它在准确性和效率之间实现了良好的权衡。我们的代码可在https://github.com/liuziyang123/faminet获得。
translated by 谷歌翻译
筛查结肠镜检查是多种3D计算机视觉技术的重要临床应用,包括深度估计,表面重建和缺失区域检测。但是,由于难以获取地面真相数据,因此在实际结肠镜检查视频中对这些技术的开发,评估和比较仍然在很大程度上是定性的。在这项工作中,我们提出了一个带有高清临床结肠镜和高保真结肠模型的结肠镜检查3D视频数据集(C3VD),用于在结肠镜检查中进行基准计算机视觉方法。我们介绍了一种新颖的多模式2D-3D注册技术,以注册光学视频序列,并以地面真实的视图对已知3D模型的视图。通过将光学图像转换为具有生成对抗网络的深度图,并通过进化优化器对齐边缘特征来注册不同的模态。在模拟实验中,这种注册方法达到了0.321毫米的平均翻译误差,平均旋转误差为0.159度,无误地面真相可用。该方法还利用视频信息,将注册精度提高了55.6%以进行翻译,与单帧注册相比,旋转60.4%。 22个简短的视频序列被注册,以生成10,015个总帧,具有配对的地面真实深度,表面正常,光流,遮挡,六个自由度姿势,覆盖范围图和3D模型。该数据集还包括胃肠病学家与配对地面真相姿势和3D表面模型获得的筛选视频。数据集和注册源代码可在urr.jhu.edu/c3vd上获得。
translated by 谷歌翻译