生成对抗网络(GAN)在许多应用领域中广泛采用,例如数据预处理,图像编辑和创造力支持。但是,GAN的“黑匣子”性质可防止非专家用户控制模型生成的数据,并产生大量的先前工作,该工作集中在算法驱动的方法上,以提取编辑说明以控制GAN。补充,我们提出了一个Ganzilla:用户驱动的工具,该工具使用户能够使用经典的散点/收集技术来迭代地发现指示,以实现其编辑目标。在与12名参与者的一项研究中,Ganzilla用户能够发现(i)编辑图像匹配提供的示例(封闭任务)的说明,并且(ii)遇到了一个高级目标,例如使脸更加快乐,而同时又实现了。显示个人之间的多样性(开放式任务)。
translated by 谷歌翻译
在本文中,我们提出了DendroMap,这是一种新颖的方法,用于互动地探索用于机器学习的大规模图像数据集(ML)。 ML从业人员通常通过使用降低降低技术(例如T-SNE)生成图像的网格或将图像的高维表示分为2-D来探索图像数据集。但是,两种方法都没有有效地扩展到大型数据集,因为图像是无效组织的,并且相互作用不足。为了应对这些挑战,我们通过适应Treemaps(一种众所周知的可视化技术)来开发树突。树突图通过从图像的高维表示中提取层次群集结构来有效地组织图像。它使用户能够理解数据集的整体分布,并在多个抽象级别上进行交互放大到特定的兴趣领域。我们使用广泛使用的图像数据集进行深度学习的案例研究表明,用户可以通过检查图像的多样性,确定表现不佳的子组并分析分类错误,从而发现有关数据集和训练模型的见解。我们进行了一项用户研究,该研究通过将其与T-SNE的网状版本进行比较,评估了树突图在分组和搜索任务中的有效性,并发现参与者更喜欢DendroMap。 DendroMap可在https://div-lab.github.io/dendromap/上获得。
translated by 谷歌翻译
在线众包平台使对算法输出进行评估变得容易,并提出诸如“哪个图像更好,A或B?”之类的问题的调查,在视觉和图形研究论文中的这些“用户研究”的扩散导致了增加匆忙进行的研究充其量是草率且无知的,并且可能有害和误导。我们认为,在计算机视觉和图形论文中的用户研究的设计和报告需要更多关注。为了提高从业者的知识并提高用户研究的可信度和可复制性,我们提供了用户体验研究(UXR),人类计算机互动(HCI)和相关领域的方法论的概述。我们讨论了目前在计算机视觉和图形研究中未利用的基础用户研究方法(例如,需要调查),但可以为研究项目提供宝贵的指导。我们为有兴趣探索其他UXR方法的读者提供了进一步的指导。最后,我们描述了研究界的更广泛的开放问题和建议。我们鼓励作者和审稿人都认识到,并非每项研究贡献都需要用户研究,而且根本没有研究比不小心进行的研究更好。
translated by 谷歌翻译
创意支持工具中的反馈可以帮助人群推动他们的意思。但是,目前的反馈方法需要从促进者或同行中进行人力评估。这不可扩展到大人群。我们提出可解释的定向多样性来自动预测观点的质量和多样性分数,并提供AI解释 - 归因,对比归因和反事实建议 - 反馈意见(低),以及如何获得更高的分数。由于用户迭代地提高其想象,这些解释提供了多面反馈。我们进行了形成性和控制的用户研究,以了解解释的使用和有用性,以提高观念多样性和质量。用户感谢解释反馈帮助重点努力,并提供了改进的方向。这导致解释与没有反馈或反馈仅具有预测的反馈和反馈相比提高了多样性。因此,我们的方法为解释和丰富的反馈开辟了可解释的AI的机会,以获得迭代人群思想和创造力支​​持工具。
translated by 谷歌翻译
使用计算笔记本(例如,Jupyter Notebook),数据科学家根据他们的先前经验和外部知识(如在线示例)合理化他们的探索性数据分析(EDA)。对于缺乏关于数据集或问题的具体了解的新手或数据科学家,有效地获得和理解外部信息对于执行EDA至关重要。本文介绍了eDassistant,一个jupyterlab扩展,支持EDA的原位搜索示例笔记本电脑和有用的API的推荐,由搜索结果的新颖交互式可视化供电。代码搜索和推荐是由最先进的机器学习模型启用的,培训在线收集的EDA笔记本电脑的大型语料库。进行用户学习,以调查埃迪卡斯特和数据科学家的当前实践(即,使用外部搜索引擎)。结果证明了埃迪斯坦特的有效性和有用性,与会者赞赏其对EDA的顺利和环境支持。我们还报告了有关代码推荐工具的几种设计意义。
translated by 谷歌翻译
神经语言模型有可能支持人类写作。但是,关于其整合和对写作和产出的影响仍然存在问题。为了解决这个问题,我们设计并比较了两个用于写作的用户界面与移动设备上的AI,这些用户界面操纵主动性和控制级别:1)使用连续生成的文本编写,AI添加了逐字文字和用户转向。 2)编写建议,AI建议短语和用户从列表中选择。在监督的在线研究(n = 18)中,参与者使用了这些原型和无AI的基线。我们收集了触摸互动,关于灵感和作者的评分以及访谈数据。有了AI的建议,人们的写作不那么积极,但觉得他们是作者。连续生成的文本减少了这种感知的作者身份,但编辑行为增加了。在这两种设计中,AI都会增加文本长度,并被认为会影响措辞。我们的发现为UI设计决策对用户体验和共同创造系统的产出的影响增加了新的经验证据。
translated by 谷歌翻译
Stylegan的成功使得在合成和真实图像上启用了前所未有的语义编辑能力。然而,这种编辑操作要么是使用人类指导的语义监督或描述的培训。在另一个开发中,剪辑架构已被互联网级图像和文本配对培训,并且已被示出在几个零拍摄学习设置中有用。在这项工作中,我们调查了如何有效地链接样式登录和剪辑的预训练潜空间,这反过来允许我们从Stylegan,查找和命名有意义的编辑操作自动提取语义标记的编辑方向,而无需任何额外的人类指导。从技术上讲,我们提出了两块新颖的建筑块;一个用于查找有趣的夹子方向,一个用于在CLIP潜在空间中标记任意方向。安装程序不假设任何预定的标签,因此我们不需要任何其他监督文本/属性来构建编辑框架。我们评估所提出的方法的有效性,并证明了解标记标记的样式编辑方向的提取确实可能,并揭示了有趣和非琐碎的编辑方向。
translated by 谷歌翻译
现在,使用最近的生成对抗网络(GAN)可以使用高现实主义的不受约束图像产生。但是,用给定的一组属性生成图像非常具有挑战性。最近的方法使用基于样式的GAN模型来执行图像编辑,通过利用发电机层中存在的语义层次结构。我们提出了一些基于潜在的属性操纵和编辑(火焰),这是一个简单而有效的框架,可通过潜在空间操纵执行高度控制的图像编辑。具体而言,我们估计了控制生成图像中语义属性的潜在空间(预训练样式的)中的线性方向。与以前的方法相反,这些方法依赖于大规模属性标记的数据集或属性分类器,而火焰则使用一些策划的图像对的最小监督来估算删除的编辑指示。火焰可以在保留身份的同时,在各种图像集上同时进行高精度和顺序编辑。此外,我们提出了一项新颖的属性样式操纵任务,以生成各种样式的眼镜和头发等属性。我们首先编码相同身份的一组合成图像,但在潜在空间中具有不同的属性样式,以估计属性样式歧管。从该歧管中采样新的潜在将导致生成图像中的新属性样式。我们提出了一种新颖的抽样方法,以从歧管中采样潜在的样品,使我们能够生成各种属性样式,而不是训练集中存在的样式。火焰可以以分离的方式生成多种属性样式。我们通过广泛的定性和定量比较来说明火焰与先前的图像编辑方法相对于先前的图像编辑方法的卓越性能。火焰在多个数据集(例如汽车和教堂)上也很好地概括了。
translated by 谷歌翻译
Our goal with this survey is to provide an overview of the state of the art deep learning technologies for face generation and editing. We will cover popular latest architectures and discuss key ideas that make them work, such as inversion, latent representation, loss functions, training procedures, editing methods, and cross domain style transfer. We particularly focus on GAN-based architectures that have culminated in the StyleGAN approaches, which allow generation of high-quality face images and offer rich interfaces for controllable semantics editing and preserving photo quality. We aim to provide an entry point into the field for readers that have basic knowledge about the field of deep learning and are looking for an accessible introduction and overview.
translated by 谷歌翻译
自我跟踪可以提高人们对他们不健康的行为的认识,为行为改变提供见解。事先工作探索了自动跟踪器如何反映其记录数据,但它仍然不清楚他们从跟踪反馈中学到多少,以及哪些信息更有用。实际上,反馈仍然可以压倒,并简明扼要可以通过增加焦点和减少解释负担来改善学习。为了简化反馈,我们提出了一个自动跟踪反馈显着框架,以定义提供反馈的特定信息,为什么这些细节以及如何呈现它们(手动引出或自动反馈)。我们从移动食品跟踪的实地研究中收集了调查和膳食图像数据,并实施了Salientrack,一种机器学习模型,以预测用户从跟踪事件中学习。使用可解释的AI(XAI)技术,SalientRack识别该事件的哪些特征是最突出的,为什么它们导致正面学习结果,并优先考虑如何根据归属分数呈现反馈。我们展示了用例,并进行了形成性研究,以展示Salientrack的可用性和有用性。我们讨论自动跟踪中可读性的影响,以及如何添加模型解释性扩大了提高反馈体验的机会。
translated by 谷歌翻译
Incivility remains a major challenge for online discussion platforms, to such an extent that even conversations between well-intentioned users can often derail into uncivil behavior. Traditionally, platforms have relied on moderators to -- with or without algorithmic assistance -- take corrective actions such as removing comments or banning users. In this work we propose a complementary paradigm that directly empowers users by proactively enhancing their awareness about existing tension in the conversation they are engaging in and actively guides them as they are drafting their replies to avoid further escalation. As a proof of concept for this paradigm, we design an algorithmic tool that provides such proactive information directly to users, and conduct a user study in a popular discussion platform. Through a mixed methods approach combining surveys with a randomized controlled experiment, we uncover qualitative and quantitative insights regarding how the participants utilize and react to this information. Most participants report finding this proactive paradigm valuable, noting that it helps them to identify tension that they may have otherwise missed and prompts them to further reflect on their own replies and to revise them. These effects are corroborated by a comparison of how the participants draft their reply when our tool warns them that their conversation is at risk of derailing into uncivil behavior versus in a control condition where the tool is disabled. These preliminary findings highlight the potential of this user-centered paradigm and point to concrete directions for future implementations.
translated by 谷歌翻译
培训和评估机器学习模型的迭代是提高其性能的重要过程。但是,尽管可教学的接口使盲人用户能够在其独特的环境中拍摄的照片训练和测试对象识别器,但训练迭代和评估步骤的可访问性很少受到关注。迭代假设训练照片的目视检查,对于盲人用户来说是无法访问的。我们通过MyCam探索了这一挑战,Mycam是一个移动应用程序,该应用程序合并了自动估计的描述符,以在用户培训集中对照片进行非视觉访问。我们探索盲人参与者(n = 12)如何通过他们的家中的评估研究与mycam和描述符相互作用。我们证明,实时照片级描述符使盲人用户能够用裁剪的对象减少照片,并且参与者可以通过迭代并访问其训练集的质量来增加更多的变化。此外,参与者发现该应用程序易于使用,表明他们可以有效地训练它,并且描述符很有用。但是,主观反应并未反映在其模型的性能中,部分原因是训练和混乱背景的变化很小。
translated by 谷歌翻译
尽管使用StyleGan进行语义操纵的最新进展,但对真实面孔的语义编辑仍然具有挑战性。 $ W $空间与$ W $+空间之间的差距需要重建质量与编辑质量之间的不良权衡。为了解决这个问题,我们建议通过用基于注意的变压器代替Stylegan映射网络中的完全连接的层来扩展潜在空间。这种简单有效的技术将上述两个空间整合在一起,并将它们转换为一个名为$ W $ ++的新的潜在空间。我们的修改后的Stylegan保持了原始StyleGan的最新一代质量,并具有中等程度的多样性。但更重要的是,提议的$ W $ ++空间在重建质量和编辑质量方面都取得了卓越的性能。尽管有这些显着优势,但我们的$ W $ ++空间支持现有的反转算法和编辑方法,仅由于其与$ w/w $+空间的结构相似性,因此仅可忽略不计的修改。 FFHQ数据集上的广泛实验证明,我们提出的$ W $ ++空间显然比以前的$ w/w $+空间更可取。该代码可在https://github.com/anonsubm2021/transstylegan上公开提供。
translated by 谷歌翻译
我们提出了一个文本编辑器,以帮助用户计划,结构并反思其写作过程。它使用自动文本摘要提供了不断更新的段落摘要作为边缘注释。摘要级别范围从全文到选定的(中央)句子,一直到关键字的集合。为了了解用户在写作过程中如何与该系统进行交互,我们进行了两项用户研究(n = 4和n = 8),人们在其中写了有关给定主题和文章的分析文章。作为关键发现,这些摘要使用户对他们的写作有了外部视角,并帮助他们修改了草稿段落的内容和范围。人们进一步使用该工具快速获得文本概述,并制定了整合自动摘要中见解的策略。从更广泛的角度来看,这项工作探索并突出了为作家设计AI工具的价值,其自然语言处理(NLP)功能超出了直接文本生成和更正。
translated by 谷歌翻译
Prior work has extensively studied the latent space structure of GANs for unconditional image synthesis, enabling global editing of generated images by the unsupervised discovery of interpretable latent directions. However, the discovery of latent directions for conditional GANs for semantic image synthesis (SIS) has remained unexplored. In this work, we specifically focus on addressing this gap. We propose a novel optimization method for finding spatially disentangled class-specific directions in the latent space of pretrained SIS models. We show that the latent directions found by our method can effectively control the local appearance of semantic classes, e.g., changing their internal structure, texture or color independently from each other. Visual inspection and quantitative evaluation of the discovered GAN controls on various datasets demonstrate that our method discovers a diverse set of unique and semantically meaningful latent directions for class-specific edits.
translated by 谷歌翻译
最近,大型预磨损模型(例如,BERT,STYLEGAN,CLIP)在其域内的各种下游任务中表现出很好的知识转移和泛化能力。在这些努力的启发中,在本文中,我们提出了一个统一模型,用于开放域图像编辑,重点是开放式域图像的颜色和音调调整,同时保持原始内容和结构。我们的模型了解许多现有照片编辑软件中使用的操作空间(例如,对比度,亮度,颜色曲线)更具语义,直观,易于操作的统一编辑空间。我们的模型属于图像到图像转换框架,由图像编码器和解码器组成,并且在图像之前和图像的成对上培训以产生多模式输出。我们认为,通过将图像对反馈到学习编辑空间的潜在代码中,我们的模型可以利用各种下游编辑任务,例如语言引导图像编辑,个性化编辑,编辑式聚类,检索等。我们广泛地研究实验中编辑空间的独特属性,并在上述任务上展示了卓越的性能。
translated by 谷歌翻译
组织依靠机器学习工程师(MLE)来操作ML,即部署和维护生产中的ML管道。操作ML或MLOP的过程包括(i)数据收集和标记的连续循环,(ii)实验以改善ML性能,(iii)在多阶段部署过程中评估,以及(iv)监视(iv)性能下降。当一起考虑这些责任似乎令人震惊 - 任何人如何进行MLOP,没有解决的挑战,对工具制造商有什么影响?我们对在包括聊天机器人,自动驾驶汽车和金融在内的许多应用程序中工作的18个MLE进行了半结构化的民族志访谈。我们的访谈暴露了三个变量,这些变量控制了生产ML部署的成功:速度,验证和版本。我们总结了成功实验,部署和维持生产绩效的共同实践。最后,我们讨论了受访者的痛点和反图案,对工具设计产生了影响。
translated by 谷歌翻译
素描是一种常用于创新过程的自然和有效的视觉通信介质。深度学习模型的最新发展急剧改善了理解和生成视觉内容的机器能力。令人兴奋的发展领域探讨了用于模拟人类草图的深度学习方法,开设创造性应用的机会。本章介绍了开发深受学习驱动的创造性支持工具的三个基本步骤,这些步骤消耗和生成草图:1)在草图和移动用户界面之间生成新配对数据集的数据收集工作; 2)基于草图的用户界面检索系统,适用于最先进的计算机视觉技术; 3)一个对话的草图系统,支持基于自然语言的草图/批判创作过程的新颖互动。在本章中,我们在深度学习和人机互动社区中进行了对相关的事先工作,详细记录了数据收集过程和系统的架构,目前提供了定性和定量结果,并绘制了几个未来研究的景观在这个令人兴奋的地区的方向。
translated by 谷歌翻译
Stone" "Mohawk hairstyle" "Without makeup" "Cute cat" "Lion" "Gothic church" * Equal contribution, ordered alphabetically. Code and video are available on https://github.com/orpatashnik/StyleCLIP
translated by 谷歌翻译