在此演示论文中,我们设计和原型Rhythmedge是一种低成本,基于深度学习的无接触系统,用于常规的HR监控应用。通过促进无接触性质,实时/离线操作,廉价和可用的传感组件以及计算设备,节奏对现有方法的好处。我们的Rhythmedge系统是可移植的,可以轻松部署,以在中等控制的室内或室外环境中可靠的人力资源估计。 Rhythmedge通过检测面部视频(远程光摄影学; RPPG)的血量变化来测量人力资源,并使用现成的市售资源可限制的边缘平台和摄像机进行即时评估。我们通过将Rhythmedge的可伸缩性,灵活性和兼容性部署到不同的体系结构的三个资源约束平台上(Nvidia Jetson Nano,Google Coral Development Board,Raspberry Pi)和三个异质摄像机,可与不同的体系结构进行部署,并证明了Rhythmedge的可伸缩性和兼容性。摄像头,动作摄像头和DSLR)。 Rhythmedge进一步存储纵向心血管信息,并为用户提供即时通知。我们通过分析其运行时,内存和功率使用情况来彻底测试三个边缘计算平台的原型稳定性,延迟和可行性。
translated by 谷歌翻译
现代生活是由连接到互联网的电子设备驱动的。新兴研究领域的新兴研究领域(IoT)已变得流行,就像连接设备数量稳定增加一样 - 现在超过500亿。由于这些设备中的许多用于执行\ gls*{cv}任务,因此必须了解其针对性能的功耗。我们在执行对象分类时报告了NVIDIA JETSON NANO板的功耗概况和分析。作者对使用Yolov5模型进行了有关每帧功耗和每秒(FPS)帧输出的广泛分析。结果表明,Yolov5N在吞吐量(即12.34 fps)和低功耗(即0.154 MWH/Frafe)方面优于其他Yolov5变体。
translated by 谷歌翻译
随着在线医疗的激增,需要对患者生命力进行远程监测。这可以通过从面部视频中计算生命体征的远程照相学(RPPG)技术来促进。它涉及处理视频帧以获取皮肤像素,从中提取心脏数据并应用信号处理过滤器以提取血量脉冲(BVP)信号。将不同的算法应用于BVP信号以估计各种生命体征。我们实施了一个Web应用程序框架,以测量一个人的心率(HR),心率变异性(HRV),氧饱和度(SPO2),呼吸率(RR),血压(BP)和面部视频的压力。RPPG技术对照明和运动变化高度敏感。Web应用程序指导用户减少由于这些变化而减少噪音,从而产生清洁器的BVP信号。框架的准确性和鲁棒性在志愿者的帮助下得到了验证。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
基于相机的非接触式光电子溶血性描绘是指一组流行的非接触生理测量技术。目前的最先进的神经模型通常以伴随金标准生理测量的视频以监督方式培训。但是,它们通常概括域名差别示例(即,与培训集中的视频不同)。个性化模型可以帮助提高型号的概括性,但许多个性化技术仍然需要一些金标准数据。为了帮助缓解这一依赖性,在本文中,我们展示了一种名为Mobilememon的新型移动感应系统,该系统是第一个移动个性化远程生理传感系统,它利用智能手机上的前后相机,为培训产生高质量的自我监督标签个性化非接触式相机的PPG模型。为了评估MobilemeLephys的稳健性,我们使用39名参与者进行了一个用户学习,他们在不同的移动设备下完成了一组任务,照明条件/强度,运动任务和皮肤类型。我们的研究结果表明,Mobilephys显着优于最先进的设备监督培训和几次拍摄适应方法。通过广泛的用户研究,我们进一步检查了Mobilephys如何在复杂的真实环境中执行。我们设想,从我们所提出的双摄像机移动传感系统产生的校准或基于相机的非接触式PPG模型将为智能镜,健身和移动健康应用等许多未来应用打开门。
translated by 谷歌翻译
远程光插图学(RPPG)是一种快速,有效,廉价和方便的方法,用于收集生物识别数据,因为它可以使用面部视频来估算生命体征。事实证明,远程非接触式医疗服务供应在COVID-19大流行期间是可怕的必要性。我们提出了一个端到端框架,以根据用户的视频中的RPPG方法来衡量人们的生命体征,包括心率(HR),心率变异性(HRV),氧饱和度(SPO2)和血压(BP)(BP)(BP)用智能手机相机捕获的脸。我们以实时的基于深度学习的神经网络模型来提取面部标志。通过使用预测的面部标志来提取多个称为利益区域(ROI)的面部斑块(ROI)。应用了几个过滤器,以减少称为血量脉冲(BVP)信号的提取的心脏信号中ROI的噪声。我们使用两个公共RPPG数据集培训和验证了机器学习模型,即Tokyotech RPPG和脉搏率检测(PURE)数据集,我们的模型在其上实现了以下平均绝对错误(MAE):a),HR,1.73和3.95 BEATS- beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-s-s-s-s-s-y-peats-beats-beats-beats-ship-s-s-s-in-chin-p-in-in-in-in-in-c--in-in-c-le-in-in- -t一下制。每分钟(bpm),b)分别为HRV,分别为18.55和25.03 ms,c)对于SPO2,纯数据集上的MAE为1.64。我们在现实生活环境中验证了端到端的RPPG框架,修订,从而创建了视频HR数据集。我们的人力资源估计模型在此数据集上达到了2.49 bpm的MAE。由于没有面对视频的BP测量不存在公开可用的RPPG数据集,因此我们使用了带有指标传感器信号的数据集来训练我们的模型,还创建了我们自己的视频数据集Video-BP。在我们的视频BP数据集中,我们的BP估计模型的收缩压(SBP)达到6.7 mmHg,舒张压(DBP)的MAE为9.6 mmHg。
translated by 谷歌翻译
The ubiquity of camera-embedded devices and the advances in deep learning have stimulated various intelligent mobile video applications. These applications often demand on-device processing of video streams to deliver real-time, high-quality services for privacy and robustness concerns. However, the performance of these applications is constrained by the raw video streams, which tend to be taken with small-aperture cameras of ubiquitous mobile platforms in dim light. Despite extensive low-light video enhancement solutions, they are unfit for deployment to mobile devices due to their complex models and and ignorance of system dynamics like energy budgets. In this paper, we propose AdaEnlight, an energy-aware low-light video stream enhancement system on mobile devices. It achieves real-time video enhancement with competitive visual quality while allowing runtime behavior adaptation to the platform-imposed dynamic energy budgets. We report extensive experiments on diverse datasets, scenarios, and platforms and demonstrate the superiority of AdaEnlight compared with state-of-the-art low-light image and video enhancement solutions.
translated by 谷歌翻译
我们提出了Neuricam,这是一种基于钥匙帧的视频超分辨率和着色系统,可从双模式IoT摄像机获得低功耗视频捕获。我们的想法是设计一个双模式摄像机系统,其中第一个模式是低功率(1.1〜MW),但仅输出灰度,低分辨率和嘈杂的视频,第二种模式会消耗更高的功率(100〜MW),但输出会输出。颜色和更高分辨率的图像。为了减少总能源消耗,我们在高功率模式下高功率模式仅输出图像每秒一次。然后将来自该相机系统的数据无线流传输到附近的插入网关,在那里我们运行实时神经网络解码器,以重建更高的分辨率颜色视频。为了实现这一目标,我们基于每个空间位置的特征映射和输入框架的内容之间的相关性,引入了一种注意力特征滤波器机制,该机制将不同的权重分配给不同的特征。我们使用现成的摄像机设计无线硬件原型,并解决包括数据包丢失和透视不匹配在内的实用问题。我们的评估表明,我们的双摄像机硬件可减少相机的能耗,同时在先前的视频超级分辨率方法中获得平均的灰度PSNR增益为3.7〜db,而在现有的颜色传播方法上,我们的灰度尺度PSNR增益为3.7 〜db。开源代码:https://github.com/vb000/neuricam。
translated by 谷歌翻译
已经提出了高效和自适应计算机视觉系统以使计算机视觉任务,例如图像分类和对象检测,针对嵌入或移动设备进行了优化。这些解决方案最近的起源,专注于通过设计具有近似旋钮的自适应系统来优化模型(深神经网络,DNN)或系统。尽管最近的几项努力,但我们表明现有解决方案遭受了两个主要缺点。首先,系统不考虑模型的能量消耗,同时在制定要运行的模型的决定时。其次,由于其他共同居民工作负载,评估不考虑设备上的争用的实际情况。在这项工作中,我们提出了一种高效和自适应的视频对象检测系统,这是联合优化的精度,能量效率和延迟。底层Virtuoso是一个多分支执行内核,它能够在精度 - 能量 - 延迟轴上的不同运行点处运行,以及轻量级运行时调度程序,以选择最佳的执行分支以满足用户要求。要与Virtuoso相当比较,我们基准于15件最先进的或广泛使用的协议,包括更快的R-CNN(FRCNN),YOLO V3,SSD,培训台,SELSA,MEGA,REPP,FastAdapt和我们的内部FRCNN +,YOLO +,SSD +和高效+(我们的变体具有增强的手机效率)的自适应变体。通过这种全面的基准,Virtuoso对所有上述协议显示出优势,在NVIDIA Jetson Mobile GPU上的每一项效率水平上引领精度边界。具体而言,Virtuoso的准确性为63.9%,比一些流行的物体检测模型高于10%,51.1%,yolo为49.5%。
translated by 谷歌翻译
对医疗保健监控的远程工具的需求从未如此明显。摄像机测量生命体征利用成像装置通过分析人体的图像来计算生理变化。建立光学,机器学习,计算机视觉和医学的进步这些技术以来的数码相机的发明以来已经显着进展。本文介绍了对生理生命体征的相机测量综合调查,描述了它们可以测量的重要标志和实现所做的计算技术。我涵盖了临床和非临床应用以及这些应用需要克服的挑战,以便从概念上推进。最后,我描述了对研究社区可用的当前资源(数据集和代码),并提供了一个全面的网页(https://cameravitals.github.io/),其中包含这些资源的链接以及其中引用的所有文件的分类列表文章。
translated by 谷歌翻译
目前,大多数社会机器人通过传感器与周围环境和人类相互作用,这些传感器是机器人的组成部分,这限制了传感器,人机相互作用和互换性的可用性。在许多应用中需要一种适合许多机器人的可穿戴传感器衣服。本文介绍了一个经济实惠的可穿戴传感器背心,以及带有物联网(物联网)的开源软件架构,用于社会人形机器人。背心由触摸,温度,手势,距离,视觉传感器和无线通信模块组成。 IOT功能允许机器人与人类和互联网一起与人类交互。设计的体系结构适用于任何具有通用图形处理单元(GPGPU),I2C / SPI总线,Internet连接和机器人操作系统(ROS)的任何社交机器人。此架构的模块化设计使开发人员能够轻松地添加/删除/更新复杂行为。所提出的软件架构提供IOT技术,GPGPU节点,I2C和SPI总线管理器,视听交互节点(语音到文本,文本到语音和图像理解),以及行为节点和其他节点之间的隔离。所提出的IOT解决方案包括机器人中的相关节点,RESTful Web服务和用户界面。我们使用HTTP协议作为与Internet的社会机器人双向通信的手段。开发人员可以在C,C ++和Python编程语言中轻松编辑或添加节点。我们的架构可用于为社会人形机器人设计更复杂的行为。
translated by 谷歌翻译
新生儿重症监护病房(NICU)中的早产婴儿必须不断监测其心脏健康。常规的监测方法是基于接触的,使新生儿容易受到各种医院感染。基于视频的监视方法为非接触式测量开辟了潜在的途径。这项工作提供了一条管道,用于远程对NICU设置视频的心肺信号进行远程估算。我们提出了一个端到端深度学习(DL)模型,该模型集成了一种基于基于学习的方法来生成替代地面真理(SGT)标签以进行监督,从而避免了直接依赖对真实地面真相标签的依赖。我们进行了扩展的定性和定量分析,以检查我们提出的基于DL的管道的功效,并在估计的心率中达到了总平均平均绝对误差为4.6 BEATS(BPM)(BPM)和均方根均方根误差为6.2 bpm。
translated by 谷歌翻译
提出了一种适用于移动设备上的实时应用的简单运动放大算法。它是基于运动平均差异(信得),这是一种用于视频流的时间高通滤波器。嫌疑人可以在较大的物体中扩增小型移动物体或微妙的运动。它在计算上非常简单,可以在智能手机上实时实现。在作为Android电话应用程序的特定实施中,选择了示例,例如激励工程,生物学和医学科学的应用程序。
translated by 谷歌翻译
本研究专注于评估智能和安全车辆系统的热对象检测的实时性能,通过在GPU和单板边缘GPU计算平台上部署训练有素的网络进行车载汽车传感器套件测试。在充满挑战的天气和环境场景中,获取,加工和开放,包括具有> 35,000个不同框架的新型大规模热数据集。 DataSet是从丢失的成本且有效的未加工的LWIR热敏摄像机,安装独立和电动车辆中的记录,以最大限度地减少机械振动。最先进的YOLO-V5网络变体使用四个不同的公共数据集进行培训,也可以通过采用SGD优化器来实现DNN的最佳通用的本地数据集。培训网络的有效性在广泛的测试数据上使用了各种定量度量来验证,包括精度,召回曲线,平均精度和每秒帧。使用规特相关推理加速器进一步优化YOLO的较小网络变体,明确提高每秒速率的帧。在低功率边缘设备上测试时,优化的网络引擎在低功耗边缘设备上测试时,每秒速率增加3.5倍。在NVIDIA Jetson Nano和60 fps上的NVIDIA Xavier NX Development Landls上实现了11个FPS。
translated by 谷歌翻译
先进的可穿戴设备越来越多地利用高分辨率多摄像头系统。作为用于处理所得到的图像数据的最先进的神经网络是计算要求的,对于利用第五代(5G)无线连接和移动边缘计算,已经越来越感兴趣,以将该处理卸载到云。为了评估这种可能性,本文提出了一个详细的仿真和评估,用于5G无线卸载,用于对象检测,在一个名为Vis4ion的强大新型智能可穿戴物中,用于盲目损害(BVI)。目前的Vis4ion系统是一种具有高分辨率摄像机,视觉处理和触觉和音频反馈的仪表簿。本文认为将相机数据上载到移动边缘云以执行实时对象检测并将检测结果传输回可穿戴。为了确定视频要求,纸张评估视频比特率和分辨率对物体检测精度和范围的影响。利用与BVI导航相关的标记对象的新街道场景数据集进行分析。视觉评估与详细的全堆栈无线网络仿真结合,以确定吞吐量的分布和延迟,具有来自城市环境中的新高分辨率3D模型的实际导航路径和射线跟踪。为了比较,无线仿真考虑了标准的4G长期演进(LTE)载波和高速度5G毫米波(MMWAVE)载波。因此,该工作提供了对具有高带宽和低延迟要求的应用中的MMWAVE连接的边缘计算的彻底和现实评估。
translated by 谷歌翻译
th骨海星(COTS)爆发是大屏障礁(GBR)珊瑚损失的主要原因,并且正在进行实质性的监视和控制计划,以将COTS人群管理至生态可持续的水平。在本文中,我们在边缘设备上介绍了基于水下的水下数据收集和策展系统,以进行COTS监视。特别是,我们利用了基于深度学习的对象检测技术的功能,并提出了一种资源有效的COTS检测器,该检测器在边缘设备上执行检测推断,以帮助海上专家在数据收集阶段进行COTS识别。初步结果表明,可以将改善计算效率的几种策略(例如,批处理处理,帧跳过,模型输入大小)组合在一起,以在Edge硬件上运行拟议的检测模型,资源消耗较低,信息损失较低。
translated by 谷歌翻译
Camera-based physiological measurement is a growing field with neural models providing state-the-art-performance. Prior research have explored various "end-to-end" models; however these methods still require several preprocessing steps. These additional operations are often non-trivial to implement making replication and deployment difficult and can even have a higher computational budget than the "core" network itself. In this paper, we propose two novel and efficient neural models for camera-based physiological measurement called EfficientPhys that remove the need for face detection, segmentation, normalization, color space transformation or any other preprocessing steps. Using an input of raw video frames, our models achieve strong performance on three public datasets. We show that this is the case whether using a transformer or convolutional backbone. We further evaluate the latency of the proposed networks and show that our most light weight network also achieves a 33% improvement in efficiency.
translated by 谷歌翻译
通过在图像传感器设计中加入可编程的兴趣区域(ROI)读数来提高嵌入式视觉系统的能量效率的巨大范围。在这项工作中,我们研究如何利用ROI可编程性,以便通过预期ROI将位于未来帧中的位置并在该区域之外切换像素来进行跟踪应用程序。我们将ROI预测的该过程和对应的传感器配置称为自适应限制。我们的自适应数据采样算法包括对象检测器和ROI预测器(卡尔曼滤波器),其结合地操作以优化视觉管道的能量效率,其结束任务是对象跟踪。为了进一步促进现实生活中的自适应算法的实施,我们选择候选算法并将其映射到FPGA上。利用Xilinx血管AI工具,我们设计并加速了基于YOLO对象探测器的自适应数据采样算法。为了进一步改进算法的部署后,我们在OTB100和LASOT数据集中评估了几个竞争的基线。我们发现将ECO跟踪器与Kalman滤波器耦合,在OTB100和Lasot Datasets上具有0.4568和0.3471的竞争性AUC分数。此外,该算法的功率效率与另一个基线优于相同的情况,并且在几个外部的情况下。基于ECO的算法在两个数据集上发生大约4W的功耗,而基于YOLO的方法需要大约6 W的功耗(根据我们的功耗模型)。在精度延迟权衡方面,基于ECO的算法在管理达到竞争跟踪精度的同时提供近实时性能(19.23 FPS)。
translated by 谷歌翻译
Edge computing is changing the face of many industries and services. Common edge computing models offload computing which is prone to security risks and privacy violation. However, advances in deep learning enabled Internet of Things (IoTs) to take decisions and run cognitive tasks locally. This research introduces a decentralized-control edge model where most computation and decisions are moved to the IoT level. The model aims at decreasing communication to the edge which in return enhances efficiency and decreases latency. The model also avoids data transfer which raises security and privacy risks. To examine the model, we developed SAFEMYRIDES, a scene-aware ridesharing monitoring system where smart phones are detecting violations at the runtime. Current real-time monitoring systems are costly and require continuous network connectivity. The system uses optimized deep learning that run locally on IoTs to detect violations in ridesharing and record violation incidences. The system would enhance safety and security in ridesharing without violating privacy.
translated by 谷歌翻译
在本文中,我们提出了一种具有高时间同步(同步)精度的记录系统,该精度由智能手机,深度摄像机,IMU等等异质传感器组成,由于智能手机的一般兴趣和大量采用,我们包括至少一个这些设备进入我们的系统。这种异构系统需要两个不同时间权限的混合同步:智能手机和MCU,在那里我们将基于硬件有线的触发同步与软件同步组合起来。我们在用RGB摄像头中汇总与新颖的系统混合有源红外深度的自定义和新颖系统的同步结果。我们的系统实现了时间同步的子毫秒精度。此外,我们的系统在这种精度下同时暴露每个RGB深度图像对。我们特别展示了一个配置,但我们系统背后的一般原则可以被其他项目复制。
translated by 谷歌翻译