In this paper, we present a method for converting a given scene image into a sketch using different types and multiple levels of abstraction. We distinguish between two types of abstraction. The first considers the fidelity of the sketch, varying its representation from a more precise portrayal of the input to a looser depiction. The second is defined by the visual simplicity of the sketch, moving from a detailed depiction to a sparse sketch. Using an explicit disentanglement into two abstraction axes -- and multiple levels for each one -- provides users additional control over selecting the desired sketch based on their personal goals and preferences. To form a sketch at a given level of fidelity and simplification, we train two MLP networks. The first network learns the desired placement of strokes, while the second network learns to gradually remove strokes from the sketch without harming its recognizability and semantics. Our approach is able to generate sketches of complex scenes including those with complex backgrounds (e.g., natural and urban settings) and subjects (e.g., animals and people) while depicting gradual abstractions of the input scene in terms of fidelity and simplicity.
translated by 谷歌翻译
在本文中,我们基于单个图像呈现Deadsim,用于条件图像操纵的生成模型。我们发现广泛的增强是启用单个图像训练的关键,并将使用薄板样条(TPS)作为有效的增强。我们的网络学习在图像本身的图像的原始表示之间映射。原始表示的选择对操纵的缓和和表达性产生影响,并且可以是自动的(例如边缘),手动(例如分段)或混合,例如分割顶部的边缘。在操纵时间时,我们的生成器允许通过修改原始输入表示并通过网络映射映射来进行复杂的图像更改。我们的方法显示在图像操纵任务上实现了显着性能。
translated by 谷歌翻译
在本文中,我们基于单个图像呈现Deadsim,用于条件图像操纵的生成模型。我们发现广泛的增强是启用单个图像训练的关键,并将使用薄板样条(TPS)作为有效的增强。我们的网络学习在图像本身的图像的原始表示之间映射。原始表示的选择对操纵的缓和和表达性产生影响,并且可以是自动的(例如边缘),手动(例如分段)或混合,例如分割顶部的边缘。在操纵时间时,我们的生成器允许通过修改原始输入表示并通过网络映射映射来进行复杂的图像更改。我们的方法显示在图像操纵任务上实现了显着性能。
translated by 谷歌翻译
这项研究表明,预期和实际相互作用如何影响老年人的SAR量化量化。这项研究包括两个部分:在线调查,可通过视频观看SAR和接受研究的验收研究来探索预期的交互作用,其中老年人与机器人进行了互动。这项研究的两个部分均在Gymmy的帮助下完成,这是一种机器人系统,我们的实验室开发了用于培训老年人身体和认知活动的培训。两个研究部分都表现出相似的用户响应,表明用户可以通过预期的互动来预测SAR的接受。索引术语:衰老,人类机器人互动,老年人,质量评估,社会辅助机器人,技术接受,技术恐惧症,信任,用户体验。
translated by 谷歌翻译
体育活动对于健康和福祉很重要,但只有很少的人满足世界卫生组织的体育活动标准。机器人运动教练的开发可以帮助增加训练的可及性和动力。用户的接受和信任对于成功实施这种辅助机器人至关重要。这可能会受到机器人系统和机器人性能的透明度的影响,尤其是其失败。该研究对与任务,人,机器人和相互作用(T-HRI)相关的透明度水平进行了初步研究,并进行了相应调整的机器人行为。在一部分实验中,机器人性能失败允许分析与故障有关的T-HRI水平的影响。在机器人性能中遇到失败的参与者表现出比没有经历这种失败的人的接受程度和信任水平要低。此外,T-HRI级别和参与者群体之间的接受度量存在差异,这暗示了未来研究的几个方向。
translated by 谷歌翻译
大型文本对图像模型在AI的演变中取得了显着的飞跃,从而使图像从给定的文本提示中实现了高质量和多样化的图像合成。但是,这些模型缺乏在给定的参考集中模仿受试者的外观,并在不同情况下合成它们的新颖性。在这项工作中,我们提出了一种新的方法,用于“个性化”文本图像扩散模型(将它们专门针对用户的需求)。仅作为一个主题的几张图像给出,我们将验证的文本对图像模型(图像,尽管我们的方法不限于特定模型),以便它学会了将唯一标识符与该特定主题结合。一旦将受试者嵌入模型的输出域中,就可以使用唯一标识符来合成主题的完全新颖的光真逼真的图像在不同场景中的上下文化。通过利用具有新的自动构基特异性的先前保存损失的语义先验嵌入到模型中,我们的技术可以在参考图像中未出现的不同场景,姿势,视图和照明条件中合成主题。我们将技术应用于几个以前无用的任务,包括主题重新定义,文本指导的视图合成,外观修改和艺术渲染(所有这些都保留了主题的关键特征)。项目页面:https://dreambooth.github.io/
translated by 谷歌翻译
胎儿肺扩散加权MRI(DWI)数据的定量分析显示,提供了提供的定量成像生物标志物,这些生物标志物间接反映了胎儿肺的成熟。但是,采集期间的胎儿运动阻碍了对获得的DWI数据的定量分析,因此妨碍了可靠的临床利用。我们介绍了QDWI-Morph,这是一种无监督的深神经网络结构,用于运动补偿定量DWI(QDWI)分析。我们的方法将注册子网络与定量DWI模型拟合子网络融合。我们同时估计QDWI参数和运动模型,通过最大程度地降低整合注册损失和模型拟合质量损失的生物形态信息损失函数。我们证明了QDWI-MORPH的附加值:1)基线QDWI分析没有运动补偿和2)仅包含注册损失的基线深学习模型。 QDWI-morph通过对胎儿肺DWI数据的体内QDWI分析(r-squared = 0.32 vs. 0.13,0.28)实现了与胎龄的相关性。我们的QDWI-MORPH有可能对DWI数据进行运动补偿的定量分析,并为非侵入性胎儿肺成熟度评估提供临床上可行的生物标志物。我们的代码可在以下网址获得:https://github.com/technioncomputationalmrilab/qdwi-morph。
translated by 谷歌翻译
最近,大规模文本驱动的合成模型由于其出色的产生高度多样化的图像而引起了很多关注,这些图像遵循给定的文本提示。这种基于文本的综合方法特别有吸引力,这些方法对人类用来口头描述其意图。因此,将文本驱动的图像合成扩展到文本驱动的图像编辑是很自然的。编辑对于这些生成模型来说是具有挑战性的,因为编辑技术的先天属性是保留大多数原始图像,而在基于文本的模型中,即使对文本提示的小修改也通常会导致完全不同的结果。最先进的方法可以通过要求用户提供空间掩码来本地化编辑,从而忽略蒙版区域内的原始结构和内容,从而减轻这种方法。在本文中,我们追求一个直观的及时提示编辑框架,其中编辑仅由文本控制。为此,我们深入分析了一个文本条件模型,并观察到跨注意层是控制图像的空间布局与提示中每个单词之间关系的关键。通过此观察,我们提出了几种应用程序,它们仅通过编辑文本提示来监视图像综合。这包括通过替换单词,通过添加规范来替换单词编辑的本地化编辑,甚至精心控制单词在图像中反映的程度。我们介绍了各种图像和提示的结果,证明了对编辑提示的高质量综合和忠诚度。
translated by 谷歌翻译
参与者反复产生音节的Diadochokinetic语音任务(DDK)通常用作评估语音运动障碍的一部分。这些研究依赖于时间密集型,主观的手动分析,并且仅提供粗略的语音图片。本文介绍了两个深度神经网络模型,这些模型会自动从未注释,未转录的语音中分割辅音和元音。两种模型都在原始波形上工作,并使用卷积层进行特征提取。第一个模型基于LSTM分类器,然后是完全连接的层,而第二个模型则添加了更多的卷积层,然后是完全连接的层。这些模型预测的这些分割用于获得语音速率和声音持续时间的度量。年轻健康个体数据集的结果表明,我们的LSTM模型的表现优于当前的最新系统,并且与受过训练的人类注释相当。此外,在对帕金森氏病数据集的看不见的老年人进行评估时,LSTM模型还与受过训练的人类注释者相当。
translated by 谷歌翻译
图像分割中使用的数据并不总是在同一网格上定义。对于医学图像,尤其如此,在这种医学图像中,分辨率,视野和方向在各个渠道和受试者之间可能会有所不同。因此,图像和标签通常被重新采样到同一网格上,作为预处理步骤。但是,重采样操作引入了部分体积效应和模糊,从而改变了有效的分辨率并减少了结构之间的对比度。在本文中,我们提出了一个SPLAT层,该层自动处理输入数据中的分辨率不匹配。该层将每个图像推向执行前向通行证的平均空间。由于SPLAT运算符是重采样运算符的伴随,因此可以将平均空间预测拉回到计算损耗函数的本机标签空间。因此,消除了使用插值进行明确分辨率调整的需求。我们在两个公开可用的数据集上显示,具有模拟和真实的多模式磁共振图像,该模型与重新采样相比作为预处理步骤而改善了分割结果。
translated by 谷歌翻译