通过将机器学习算法应用于“大数据”,可以在manydomains中看到图像处理能力的快速发展。然而,在医学图像分析领域,由于大规模,注释良好的数据集的可用性有限,部分进展受到限制。造成这种情况的主要原因之一是与生产大量高质量元数据相关的高成本。最近,人们越来越关注为此目的应用众包;这种技术已经被证明可以有效地创建从计算机视觉到物理学的各个学科的大规模数据集。尽管这种方法越来越受欢迎,但还没有全面的文献综述为研究人员提供指导,以考虑在他们自己的医学成像分析中使用众包方法。在本次调查中,我们回顾了将众包应用于2018年7月之前发布的医学图像分析的研究。我们确定了常见的方法,挑战和考虑因素,为采用这种方法的研究人员提供了实用指南。最后,我们将讨论这一新兴领域的未来发展机遇。
translated by 谷歌翻译
在这项工作中,我们提出了一种灰度视频自动着色的方法。该方法的核心是生成对抗网络,其以滑动窗口方式在帧序列上进行训练和测试。网络卷积和反卷积层是三维的,其中框架高度,宽度和时间作为考虑的尺寸。每帧的多色度估计被聚合并与可用亮度信息组合以重建彩色序列。彩色化试验在旧的黑白胶片数据集上成功运行。我们的方法的有用性也用数值结果验证,数值结果用新推测的度量计算,该度量测量帧序列上的着色一致性。
translated by 谷歌翻译
从语音合成3D面部运动是在诸如计算机游戏和电影之类的众多应用中表现出来的关键问题。最近提出的方法在受控的语音条件下解决了这个问题。在本文中,我们介绍了第一种3D面部运动合成方法,该方法来自在任意记录条件下捕获的语音(“在野外”)并且与扬声器无关。为了我们的目的,我们捕获了4个人类发出500个单词的序列,包含在唇读字(LRW)中,这是一个公开可用的大型野外数据集,并构建了一组适合语音的3D混合形状。我们通过一种名为Deep Canonical Attentional Warping(DCAW)的新型时间扭曲技术将speechblendshapes的3D形状参数与LRW音频样本相关联,该技术可以同时学习分层非线性表示和端到端的扭曲路径方式。我们彻底评估了我们提出的方法,并展示了深度学习模型在不受控制的条件下处理不同扬声器和连续语音信号时合成3D面部运动的能力。
translated by 谷歌翻译
本研究使用新颖的统一光谱分析工作流程,对非侵入性传感器进行了比较评估,以评估绿叶蔬菜的微生物污染和货架时间(即储存时间)。在本研究的背景下使用了两个新鲜的即食绿色沙拉,目的是评估所提出的工作流程的效率和实际应用:火箭和婴儿菠菜沙拉。所采用的分析工作流程包括强大的数据归一化,基于随机森林回归的强大特征选择,以及通过在解释的方差图上估计拐点来选择训练过程中的偏最小二乘回归系数。培养过程基于在等温条件(4,8和12C)下储存绿色沙拉样品期间得到的微生物和光谱数据,而在动态温度条件下(模拟食品供应链中的实际温度波动)对数据存储进行测试。由于近年来在食品质量评估中使用非侵入性传感器的兴趣日益增加,因此通过基于有限尺寸特征集的创建/使用而在其中描述的统一光谱分析工作流程在食品中非常有用 - 具体的低成本传感器开发。
translated by 谷歌翻译
用于语义分割的训练卷积网络需要每像素地点真值标签,这非常耗时且因此获得成本高。因此,在这项工作中,我们研究和开发分层深度网络体系结构以及相应的语义分割损失,可以从弱监督,如边界框或图像级标签,以及强大的每像素监督。我们证明了层次结构和强((每像素)和弱(边界框)标签的同时训练,即使是来自不同的数据集,也不断提高针对每像素训练的性能。此外,我们探索了添加弱图像级标签的更具挑战性的案例。我们从巨大的Open Images数据集中收集街道场景图像和弱标签以生成OpenScapes数据集,我们使用这个新颖的数据集来增加两个已建立的每像素标记数据集Cityscapes和Vistas的分割性能。我们报告关键街道场景类的性能提升高达+ 13.2%mIoU,城市景观的Titan V GPU的分辨率为20 fps,分辨率为512 x1024。我们的网络和OpenScapes数据集与搜索社区共享。
translated by 谷歌翻译
确定准确的测深信息是近海活动,水文研究,如沿海工程应用,沉积过程,水文测量以及考古测绘和生物研究的关键要素。利用运动结构(SfM)和多视图立体声(MVS)技术处理的无人机图像可以为已建立的浅海底测绘技术提供低成本替代方案,同时提供重要的视觉信息。然而,水分反射对深度测定提出了重大挑战。到目前为止,这个问题已经通过定制的基于图像的折射校正算法或通过修改共线性方程来解决。在本文中,为了克服水折射误差,我们采用能够学习系统低估估计深度的机器学习工具。在所提出的方法中,基于来自测深LiDARsurveys的已知深度观测,开发了SVR模型,其能够更准确地估计源自SfM-MVS程序的点云的实际深度。实验结果在两个测试位点以及执行的定量验证表明所开发方法的高潜力。
translated by 谷歌翻译
在本文中,我们介绍了一种最先进的实时跟踪器(CFNet)的变体,它增加了原始算法对目标损耗的鲁棒性,而没有显着的计算开销。新方法基于以下假设:特征图可用于更准确地估计跟踪置信度。当置信度较低时,我们避免通过要素图更新对象的位置;相反,跟踪器传递到单帧失效模式,在此模式期间,补丁的低级可视内容用于在下一帧中从目标丢失恢复之前,迅速更新对象的位置。通过对几个跟踪数据集评估方法提供的实验证据验证了特征图与跟踪置信度相关的理论假设,以及所提出的实现可以在多个场景中实现目标恢复,而不会影响实时性能。
translated by 谷歌翻译
最近,深度学习领域受到了科学界的高度重视,并被用来为许多计算机视觉问题提供改进的解决方案。卷积神经网络(CNN)已经成功地用于攻击诸如对象识别,对象检测,语义分割和场景理解之类的问题。深度学习的快速发展与GPU加速其过程(如网络培训和推理)的适应性密切相关。尽管在使用GPU加速计算之前很久就存在FPGA设计,尽管高级综合(HLS)工具越来越有吸引力,但由于硬件设计相关性要求,FPGA对深度学习研究和应用开发的适应性很差。这项工作为使用HLS工具在小型低成本低功耗FPGA器件上深度学习移动应用加速提供了工作流程。此工作流程简化了SqueezeJet加速器的改进版本的设计,用于加速移动友好的低参数ImageNet类CNN,例如SqueezeNet v1.1和ZynqNet。此外,该工作流程还包括开发HLS驱动的分析模型,该模型用于加速器的性能评估。该模型还可用于指导设计过程并导致未来的设计改进和优化。
translated by 谷歌翻译
在本文中,我们解决了多线索影响识别的挑战性环境,如儿童机器人交互。为了实现这一目标,我们提出了一种自动识别情感的方法,该方法利用身体表情和面部表情,而传统方法通常只关注后者。我们在一个充满挑战的机器人 - 情感表达的机器人交互数据库以及演员的情绪表达数据库中评估我们的方法,并且表明所提出的方法与面部表情基线相比具有明显更好的结果,可以联合和分开训练,并为我们提供了个人模态以及全身情绪的计算模型。
translated by 谷歌翻译
在本文中,提出了使用深度学习架构进行犯罪分类和预测的详细研究。我们使用来自警方报告的开放数据,检查了该领域的深度学习算法的有效性,并提供了设计和培训深度学习系统以预测犯罪领域的建议。作为犯罪类型perlocation的训练数据时间序列,进行了针对三种不同深度学习配置的10种最先进方法的比较研究。在我们使用公开数据集的实验中,我们证明了基于深度学习的方法始终优于现有的最佳表现方法。此外,我们评估不同参数在深度学习体系中的有效性,并为配置它们提供见解,以便在犯罪分类和最终犯罪预测方面实现更高的性能。
translated by 谷歌翻译