Through a study of multi-gas mixture datasets, we show that in multi-component spectral analysis, the number of functional or non-functional principal components required to retain the essential information is the same as the number of independent constituents in the mixture set. Due to the mutual in-dependency among different gas molecules, near one-to-one projection from the principal component to the mixture constituent can be established, leading to a significant simplification of spectral quantification. Further, with the knowledge of the molar extinction coefficients of each constituent, a complete principal component set can be extracted from the coefficients directly, and few to none training samples are required for the learning model. Compared to other approaches, the proposed methods provide fast and accurate spectral quantification solutions with a small memory size needed.
translated by 谷歌翻译
This paper presents a portrait stylization method designed for real-time mobile applications with limited style examples available. Previous learning based stylization methods suffer from the geometric and semantic gaps between portrait domain and style domain, which obstacles the style information to be correctly transferred to the portrait images, leading to poor stylization quality. Based on the geometric prior of human facial attributions, we propose to utilize geometric alignment to tackle this issue. Firstly, we apply Thin-Plate-Spline (TPS) on feature maps in the generator network and also directly to style images in pixel space, generating aligned portrait-style image pairs with identical landmarks, which closes the geometric gaps between two domains. Secondly, adversarial learning maps the textures and colors of portrait images to the style domain. Finally, geometric aware cycle consistency preserves the content and identity information unchanged, and deformation invariant constraint suppresses artifacts and distortions. Qualitative and quantitative comparison validate our method outperforms existing methods, and experiments proof our method could be trained with limited style examples (100 or less) in real-time (more than 40 FPS) on mobile devices. Ablation study demonstrates the effectiveness of each component in the framework.
translated by 谷歌翻译
与特殊线性组和嵌入谎言代数结构具有基本关系。尽管谎言代数表示优雅,但很少有研究人员在同构估计与代数表达之间建立了联系。在本文中,我们提出了扭曲的卷积网络(WCN),以有效地估计SL(3)组和SL(3)代数的分组转换。为此,SL(3)组中的六个换向子组组成以形成一个跨摄影转换。对于每个子组,提出了一个翘曲函数,以将Lie代数结构桥接到其在断层扫描中的相应参数上。通过利用扭曲的卷积,同构估计得出了几个简单的伪翻译回归。通过沿着谎言拓扑行走,我们提出的WCN能够学习对构造转换不变的功能。它可以很容易地插入其他基于CNN的方法中。对POT基准和MNIST-PROJ数据集进行了广泛的实验表明,我们提出的方法对同型估计和分类都有效。
translated by 谷歌翻译
Planar对象跟踪在AI应用中起重要作用,例如机器人,视觉伺服和视觉SLAM。虽然前面的平面跟踪器在大多数情况下工作都很好,但由于两个连续帧之间的运动快,转换大,仍然是一个具有挑战性的任务。当同位参数空间的搜索范围变大时,这种问题背后面的基本原因是这种非线性系统的条件数不稳定地改变。为此,我们提出了一种新颖的单独分解网络〜(HDN)方法,通过将同性转换分解为两组,通过分解单独转换来稳定地减小和稳定条件号。具体地,设计相似性转换估计器被深度卷积设备网络预先预测第一组。通过利用高置信度的尺度和旋转估计,通过简单的回归模型估计残余转换。此外,所提出的端到端网络以半监督方式培训。广泛的实验表明,我们所提出的方法在挑战池,UCSB和诗歌数据集的大幅度上表现出最先进的平面跟踪方法。
translated by 谷歌翻译
数字病理学在医疗领域的人工智能发展中起着至关重要的作用。数字病理平台可以使病态资源数字和网络,并实现视觉数据的永久存储和同步浏览处理,而不限制时间和空间。它已广泛用于各种病理领域。然而,仍然缺乏开放式和通用的数字病理平台,可以帮助医生在数字病理部分的管理和分析中,以及相关患者信息的管理和结构化描述。大多数平台无法集成图像查看,注释和分析以及文本信息管理。为了解决上述问题,我们提出了一个全面而可扩展的平台PIMIP。我们的PIMIP基于数字病理部分的可视化开发了图像注释功能。我们的注释功能支持多用户协作注释和多设备注释,并实现某些注释任务的自动化。在注释任务中,我们邀请了一个专业的病理学家进行了指导。我们介绍了一种用于图像分析的机器学习模块。我们收集的数据包括来自当地医院和临床示例的公共数据。我们的平台更临床,适合临床使用。除了图像数据外,还构建了文本信息的管理和显示。所以我们的平台是全面的。平台框架是以模块化的方式构建的,以支持用户独立添加机器学习模块,这使我们的平台可扩展。
translated by 谷歌翻译
在现有方法中,LIDAR的探测器显示出卓越的性能,但视觉探测器仍被广泛用于其价格优势。从惯例上讲,视觉检验的任务主要依赖于连续图像的输入。但是,探测器网络学习图像提供的异性几何信息非常复杂。在本文中,将伪LIDAR的概念引入了探测器中以解决此问题。伪LIDAR点云背面项目由图像生成的深度图中的3D点云,这改变了图像表示的方式。与立体声图像相比,立体声匹配网络生成的伪lidar点云可以得到显式的3D坐标。由于在3D空间中发生了6个自由度(DOF)姿势转换,因此伪宽点云提供的3D结构信息比图像更直接。与稀疏的激光雷达相比,伪驱动器具有较密集的点云。为了充分利用伪LIDAR提供的丰富点云信息,采用了投射感知的探测管道。以前的大多数基于激光雷达的算法从点云中采样了8192点,作为探视网络的输入。投影感知的密集探测管道采用从图像产生的所有伪lidar点云,除了误差点作为网络的输入。在图像中充分利用3D几何信息时,图像中的语义信息也用于探视任务中。 2D-3D的融合是在仅基于图像的进程中实现的。 Kitti数据集的实验证明了我们方法的有效性。据我们所知,这是使用伪LIDAR的第一种视觉探光法。
translated by 谷歌翻译
进行了许多有效的尝试进行了DeepFake音频检测。但是,他们只能区分真实和假货。对于许多实际的应用程序方案,还需要哪种工具或算法生成DeepFake音频。这提出了一个问题:我们可以检测到DeepFake音频的系统指纹吗?因此,本文进行了初步研究,以检测DeepFake音频的系统指纹。实验是从五个最新的深入学习语音合成系统的DeepFake音频数据集上进行的。结果表明,LFCC功能相对适合系统指纹检测。此外,RESNET在基于LCNN和X-Vector模型中获得了最佳检测结果。T-SNE可视化表明,不同的语音合成系统会生成不同的系统指纹。
translated by 谷歌翻译
已经进行了许多有效的尝试来进行虚假的音频检测。但是,他们只能提供检测结果,但没有对抗这种伤害的对策。对于许多相关的实际应用,也需要哪种模型或算法生成假音频。因此,我们提出了一个新问题,用于检测虚假音频的Vocoder指纹。实验是在由八个最先进的歌手合成的数据集上进行的。我们已经初步探索了功能和模型体系结构。T-SNE可视化表明,不同的Vocoder会生成不同的Vocoder指纹。
translated by 谷歌翻译
当测试图像提出看不见的分布时,深层分割模型通常会面临故障风险。改善模型鲁棒性针对这些风险的鲁棒性对于深层模型的大规模临床应用至关重要。在这项研究中,受到人类学习周期的启发,我们提出了一个新颖的在线反思学习框架(REFSEG),以改善细分鲁棒性。基于启用概念的反射概念,我们的refseg首先驱动了深层模型以采取行动以获得语义分割。然后,refseg触发模型以反映自身。因为使深层模型在测试过程中意识到他们的细分失败是具有挑战性的,所以RefSeg合成了从语义面具中综合的逼真的代理图像,以帮助深层模型构建直观有效的反射。该代理翻译并强调了分割缺陷。通过最大程度地提高原始输入和代理之间的结构相似性,可以改善分割鲁棒性的反射循环。 REFSEG在测试阶段运行,并且是分割模型的一般性。通过公共心脏MR数据集和两个内部大型超声数据集对三个医疗图像细分任务进行了广泛的验证,这表明我们的refseg显着提高了模型的鲁棒性,并报告了与强大竞争对手有关的最先进的表现。
translated by 谷歌翻译
超声(US)广泛用于实时成像,无辐射和便携性的优势。在临床实践中,分析和诊断通常依赖于美国序列,而不是单个图像来获得动态的解剖信息。对于新手来说,这是一项挑战,因为使用患者的足够视频进行练习是临床上不可行的。在本文中,我们提出了一个新颖的框架,以综合高保真美国视频。具体而言,合成视频是通过基于给定驾驶视频的动作来动画源内容图像来生成的。我们的亮点是三倍。首先,利用自我监督学习的优势,我们提出的系统以弱监督的方式进行了培训,以进行关键点检测。然后,这些关键点为处理美国视频中的复杂动态动作提供了重要信息。其次,我们使用双重解码器将内容和纹理学习解除,以有效地减少模型学习难度。最后,我们采用了对抗性训练策略,并采用了GAN损失,以进一步改善生成的视频的清晰度,从而缩小了真实和合成视频之间的差距。我们在具有高动态运动的大型内部骨盆数据集上验证我们的方法。广泛的评估指标和用户研究证明了我们提出的方法的有效性。
translated by 谷歌翻译