深度学习的高级面部识别以实现前所未有的准确性。但是,了解面部的本地部分如何影响整体识别性能仍然不清楚。除其他外,面部掉期已经进行了实验,但只是为了整个脸。在本文中,我们建议交换面部零件,以剥夺不同面部零件(例如眼睛,鼻子和嘴巴)的识别相关性。在我们的方法中,通过拟合3D先验来交换从源面转换为目标的零件,该零件在零件之间建立密集的像素对应关系,同时还要处理姿势差异。然后,无缝克隆用于在映射的源区域和目标面的形状和肤色之间获得平滑的过渡。我们设计了一个实验协议,该协议使我们能够在通过深网进行分类时得出一些初步结论,表明眼睛和眉毛区域的突出性。可在https://github.com/clferrari/facepartsswap上找到代码
translated by 谷歌翻译
使用适当的电感偏差,反事实生成网络(CGN)可以从形状,纹理和背景歧管的随机组合中生成新图像。这些图像可以用于训练不变的分类器,避免了深层体系结构学习虚假相关性而不是有意义的问题。结果,改善了室外鲁棒性。但是,CGN体系结构包括多个参数化网络,即BigGan和U2-NET。培训这些网络需要适当的背景知识和广泛的计算。由于一个人并不总是能够访问精确的培训细节,也不总是拥有反事实的必要知识,因此我们的工作解决了以下问题:我们可以使用预先训练的CGN中嵌入的知识来培训低容量的模型,假设对架构组件的黑框访问(即仅访问验证的CGN模型)?在这个方向上,我们提出了一项名为SKDCGN的新颖作品,该作品尝试使用知识蒸馏(KD)尝试知识转移。在我们提出的架构中,每个独立的机制(形状,纹理,背景)都由一个学生“ tinygan”代表,该学生从预验证的老师“ Biggan”中学习。我们通过使用KD和适当的损失函数来证明使用最先进的数据集(例如ImageNet)和MNIST的疗效。此外,作为另一项贡献,我们的论文对CGN的组成机制进行了详尽的研究,以更好地了解每种机制如何影响不变分类器的分类精度。代码可用:https://github.com/ambekarsameer96/skdcgn
translated by 谷歌翻译
自我监督的单眼深度估计是一种有吸引力的解决方案,不需要难以供应的深度标签进行训练。卷积神经网络(CNN)最近在这项任务中取得了巨大成功。但是,他们的受欢迎的领域有限地限制了现有的网络体系结构,以便在本地进行推理,从而抑制了自我监督范式的有效性。鉴于Vision Transformers(VIT)最近取得的成功,我们提出了Monovit,这是一个崭新的框架,结合了VIT模型支持的全球推理以及自我监督的单眼深度估计的灵活性。通过将普通的卷积与变压器块相结合,我们的模型可以在本地和全球范围内推理,从而在较高的细节和准确性上产生深度预测,从而使MonoVit可以在已建立的Kitti数据集中实现最先进的性能。此外,Monovit证明了其在其他数据集(例如Make3D和Drivingstereo)上的出色概括能力。
translated by 谷歌翻译
由于我们的城市人口和车辆的迅速增长,避免城市场景中的拥堵和控制交通变得至关重要。有效控制城市交通作为减轻交通拥堵的一种手段,以经济,环境和健康方式可能是有益的。在本文中,提出了一个框架,该框架可以有效地模拟和优化具有数百辆汽车的大道路网络中的交通流量。该框架利用编码的答案集编程(ASP),以形式描述网络中车辆的运动。利用能够在ASP和现成的求解器Clingo中指定优化约束的能力,然后可以优化网络内的车辆路线,以减少相关指标范围(例如旅行时间或排放)。最后,对现实世界流量数据进行了分析,利用最先进的城市移动模拟器(SUMO)来跟踪网络状态,测试解决方案的正确性并证明效率和效率提出的解决方案的功能。
translated by 谷歌翻译
在这项工作中,我们评估了如何利用具有周期性激活功能的神经网络可靠地压缩大型多维医学图像数据集,并将概念验证应用应用于4D扩散加权MRI(DMRI)。在医学成像景观中,多维MRI是开发对基础组织微观结构既敏感又具有特异性的生物标志物的关键研究领域。但是,这些数据的高维质在存储和共享功能和相关成本方面构成了挑战,需要适当的算法能够在低维空间中表示信息。深度学习中的最新理论发展表明了周期性激活函数如何成为隐式神经表示图像的强大工具,并且可以用于压缩2D图像。在这里,我们将此方法扩展到4D图像,并展示如何通过正弦激活网络的参数准确地表示任何给定的4D DMRI数据集,从而达到数据压缩率是标准放气算法的10倍。我们的结果表明,所提出的方法优于基准relu和tanh激活感知到均方根误差,峰值信噪比和结构相似性指数。随后使用张量和球形谐波表示的随后分析表明,所提出的损耗压缩可准确再现原始数据的特征,从而导致相对误差约5至10倍,比基准JPEG2000有损耗压缩低约5至10倍,与标准预处理步骤相似,例如MP-PCA表示,表明在当前接受的临床应用水平内丧失信息。
translated by 谷歌翻译
图像文本匹配是在涉及对视觉和语言的共同理解的任务中发挥领导作用。在文献中,此任务通常被用作培训能够共同处理图像和文本的架构的预训练目标。但是,它具有直接的下游应用程序:跨模式检索,其中包括查找与给定查询文本或反之亦然相关的图像。解决此任务对于跨模式搜索引擎至关重要。许多最近的方法提出了针对图像文本匹配问题的有效解决方案,主要是使用最近的大型视觉语言(VL)变压器网络。但是,这些模型通常在计算上很昂贵,尤其是在推理时间。这样可以防止他们在大规模的跨模式检索场景中采用,几乎应该立即向用户提供结果。在本文中,我们建议通过提出对齐和提炼网络(Aladin)来填补有效性和效率之间的空白。阿拉丁首先通过在细粒度的图像和文本上对齐来产生高效的分数。然后,它通过提炼从细粒对齐方式获得的相关性分数来提炼共享的嵌入空间 - 可以进行有效的KNN搜索。我们在MS-Coco上取得了显着的结果,表明我们的方法可以与最先进的VL变形金刚竞争,同时快了近90倍。复制我们结果的代码可在https://github.com/mesnico/aladin上获得。
translated by 谷歌翻译
长期或慢性病的人管理是国家卫生系统面临的最大挑战之一。实际上,这些疾病是住院的主要原因之一,尤其是对于老年人,监测它们所需的大量资源导致医疗保健系统可持续性问题。便携式设备和新连接技术的扩散越来越大,可以实施能够为医疗保健提供者提供支持并减轻医院和诊所的负担。在本文中,我们介绍了用于医疗保健的远程监控平台的实现,该平台旨在从不同的消费者移动设备和自定义设备中捕获几种类型的生理健康参数。可以通过Google Fit生态系统将消​​费者医疗设备集成到平台中,该生态系统支持数百个设备,而自定义设备可以通过标准通信协议直接与平台进行交互。该平台旨在使用机器学习算法处理获得的数据,并为患者和医生提供生理健康参数,并提供用户友好,全面且易于理解的仪表板,该仪表板通过时间来监视参数。初步可用性测试在功能和实用性方面表现出良好的用户满意度。
translated by 谷歌翻译
共形预测(CP)是一种多功能的非参数框架,用于量化预测问题中的不确定性。在这项工作中,我们通过首次提出可以应用于时间不断发展的表面,将这种方法扩展到在双变量域上定义的时间序列函数的情况。为了获得有意义有效的预测区域,CP必须与准确的预测算法结合使用,因此,我们扩展了希尔伯特空间中自回旋过程的理论理论,以允许具有双变量域的功能。考虑到该主题的新颖性,我们提出了功能自回旋模型(FAR)的估计技术。实施了仿真研究,以研究不同的点预测因子如何影响所得的预测频段。最后,我们探索了真正数据集中拟议方法的利益和限制,在过去的二十年中,每天都会观察到黑海的海平面异常。
translated by 谷歌翻译
无监督的域适应性(UDA)旨在减少训练和测试数据之间的域间隙,并在大多数情况下以离线方式进行。但是,在部署过程中可能会连续且不可预测地发生域的变化(例如,天气变化突然变化)。在这种情况下,深度神经网络见证了准确性的急剧下降,离线适应可能不足以对比。在本文中,我们解决了在线域适应(ONDA)进行语义细分。我们设计了一条可逐步或突然转移的域转移的管道,在多雨和有雾的情况下,我们对其进行了评估。我们的实验表明,我们的框架可以有效地适应部署期间的新域,而不受灾难性遗忘以前的域的影响。
translated by 谷歌翻译
相机的估计与一组图像相关联的估计通常取决于图像之间的特征匹配。相比之下,我们是第一个通过使用对象区域来指导姿势估计问题而不是显式语义对象检测来应对这一挑战的人。我们提出了姿势炼油机网络(PosErnet),一个轻量级的图形神经网络,以完善近似的成对相对摄像头姿势。posernet利用对象区域之间的关联(简洁地表示为边界框),跨越了多个视图到全球完善的稀疏连接的视图图。我们在不同尺寸的图表上评估了7个尺寸的数据集,并展示了该过程如何有益于基于优化的运动平均算法,从而相对于基于边界框获得的初始估计,将旋转的中值误差提高了62度。代码和数据可在https://github.com/iit-pavis/posernet上找到。
translated by 谷歌翻译