指导屏幕外兴趣点(POI)是一种为小屏幕设备的用户提供其他信息的实用方法,例如智能设备和头部安装的显示器。流行的先前方法涉及在屏幕上显示一个称为楔形的原始图,以供用户估算隐形顶点上的屏幕外POI。因为他们利用称为Amodal完成的认知过程,即使一部分被阻塞,用户也可以想象整个数字,因此本地化准确性也会受到偏见和个体差异的影响。为了提高准确性,我们建议使用考虑影响影响的认知成本来优化该数字。我们还设计了具有不同参数的两种优化类型:无偏的Optwedge(UOW)和偏置Optwedge(Bow)。实验结果表明,与启发式方法相比,OPTWEDGE对近距离的指导更加准确。
translated by 谷歌翻译
增强现实(AR)透明视觉是一个有趣的研究主题,因为它使用户能够通过墙壁看到并查看被遮挡的对象。大多数现有研究的重点是透明视觉的视觉效果,而相互作用方法的研究较少。但是,我们认为,使用常见的互动方式,例如,空中点击和语音,可能不是控制透明视觉的最佳方法。这是因为当我们想浏览某些东西时,它与我们的目光深度/狂热有关,因此应由眼睛自然控制。遵循这个想法,本文提出了一种新颖的目光控制(GVC)AR中的透明视觉技术。由于需要凝视深度,因此我们使用两个红外摄像机和相应的算法构建了一个凝视跟踪模块,然后将其组装到Microsoft Hololens 2中,以实现凝视深度估计。然后,我们提出了两种不同的GVC模式,以供透明视觉拟合不同的情况。广泛的实验结果表明,我们的凝视深度估计是有效而准确的。通过与常规互动方式进行比较,我们的GVC技术在效率方面也很出色,用户更喜欢。最后,我们提出了凝视控制的透明视觉的四个示例应用。
translated by 谷歌翻译
人类的感知基于无意识的推论,其中感觉输入与先前的信息集成在一起。这种现象被称为上下文依赖性,有助于面对外部世界的不确定性,并在先前的经验上构建了预测。另一方面,人类的感知过程固有地是由社会互动塑造的。但是,上下文依赖性的机制如何影响到迄今为止未知。如果使用以前的经验 - 先验 - 在单个环境中是有益的,那么它可能代表了其他代理商可能没有相同先验的社会场景中的问题,从而在共享环境上造成了感知的错误。本研究解决了这个问题。我们研究了与人形机器人ICUB的互动环境中的上下文依赖性,该机器人是刺激示威者。参与者在两个条件下重现了机器人所示的长度:一个具有社交性的ICUB,另一个与ICUB充当机械臂。机器人的不同行为显着影响了感知的先验使用。此外,社会机器人通过提高准确性并减少参与者的总体感知错误,从而对感知性能产生积极影响。最后,观察到的现象是按照贝叶斯的方法加深和探索共同感知的新概念进行了建模的。
translated by 谷歌翻译
本文介绍了多传感器用户界面的开发,以促进电弧焊接任务的指导。获得手眼协调能力的传统方法通常是通过一对一的指导来进行的,学员必须戴着保护头盔并进行多项测试。这种方法效率低下,因为电弧从电弧发出的有害光阻止了对过程的密切监测。从业者只能观察到一个小的亮点。为了解决这些问题,最近的培训方法利用虚拟现实来安全地模拟该过程并可视化工件的几何形状。但是,这些类型的仿真平台的合成性质降低了它们的有效性,因为它们无法构成与环境的实际焊接相互作用,从而阻碍了受训者的学习过程。为了为用户提供真正的焊接体验,我们开发了一个新的多传感器扩展现实平台,用于弧焊接训练。我们的系统由:(1)HDR摄像头,实时监视真实的焊接位; (2)深度传感器,捕获场景的3D几何形状; (3)头部安装的VR显示屏,可以安全地可视化过程。我们的创新平台为用户提供了“机器人培训师”,接缝几何形状的虚拟提示,自动点跟踪和性能得分。为了验证平台的可行性,我们通过几项焊接培训任务进行了广泛的实验。我们表明,与传统的培训实践和最近的虚拟现实方法相比,我们的自动多传感器方法在准确性,学习曲线和有效性方面取得了更好的性能。
translated by 谷歌翻译
在本文中,我们提出了DendroMap,这是一种新颖的方法,用于互动地探索用于机器学习的大规模图像数据集(ML)。 ML从业人员通常通过使用降低降低技术(例如T-SNE)生成图像的网格或将图像的高维表示分为2-D来探索图像数据集。但是,两种方法都没有有效地扩展到大型数据集,因为图像是无效组织的,并且相互作用不足。为了应对这些挑战,我们通过适应Treemaps(一种众所周知的可视化技术)来开发树突。树突图通过从图像的高维表示中提取层次群集结构来有效地组织图像。它使用户能够理解数据集的整体分布,并在多个抽象级别上进行交互放大到特定的兴趣领域。我们使用广泛使用的图像数据集进行深度学习的案例研究表明,用户可以通过检查图像的多样性,确定表现不佳的子组并分析分类错误,从而发现有关数据集和训练模型的见解。我们进行了一项用户研究,该研究通过将其与T-SNE的网状版本进行比较,评估了树突图在分组和搜索任务中的有效性,并发现参与者更喜欢DendroMap。 DendroMap可在https://div-lab.github.io/dendromap/上获得。
translated by 谷歌翻译
关于人类阅读的研究长期以来一直记录在阅读行为表明特定于任务的效果,但是建立一个通用模型来预测人类在给定任务中将显示什么的通用模型。我们介绍了Neat,这是人类阅读中注意力分配的计算模型,基于人类阅读优化了一项任务中关注经济和成功之间的权衡。我们的模型是使用当代神经网络建模技术实施的,并对注意力分配的分配方式在不同任务中如何变化做出明确的测试预测。我们在一项针对阅读理解任务的两个版本的眼影研究中对此进行了测试,发现我们的模型成功说明了整个任务的阅读行为。因此,我们的工作提供了证据表明,任务效果可以建模为对任务需求的最佳适应。
translated by 谷歌翻译
捕获比窄FOV相机的宽视野(FOV)相机,其捕获更大的场景区域,用于许多应用,包括3D重建,自动驾驶和视频监控。然而,广角图像包含违反针孔摄像机模型底层的假设的扭曲,导致对象失真,估计场景距离,面积和方向困难,以及防止在未造成的图像上使用现成的深层模型。下游计算机视觉任务。图像整流,旨在纠正这些扭曲,可以解决这些问题。本文从转换模型到整流方法的广角图像整流的全面调查进展。具体地,我们首先介绍了不同方法中使用的相机模型的详细描述和讨论。然后,我们总结了几种失真模型,包括径向失真和投影失真。接下来,我们审查了传统的基于几何图像整流方法和基于深度学习的方法,其中前者将失真参数估计作为优化问题,并且后者通过利用深神经网络的力量来将其作为回归问题。我们评估在公共数据集上最先进的方法的性能,并显示虽然两种方法都可以实现良好的结果,但这些方法仅适用于特定的相机型号和失真类型。我们还提供了强大的基线模型,并对合成数据集和真实世界广角图像进行了对不同失真模型的实证研究。最后,我们讨论了几个潜在的研究方向,预计将来进一步推进这一领域。
translated by 谷歌翻译
该研究使用数学建模和人类对象实验,探讨了新兴网络摄像头可能在多大程度上泄漏了可识别的文本和图形信息,从网络摄像头捕获的眼镜反射中闪闪发光。我们工作的主要目标是衡量,计算和预测随着网络摄像头技术在未来发展的可识别性因素,限制和阈值。我们的工作探索并表征了基于光学攻击的可行威胁模型,该模型使用视频帧序列上的多帧超级分辨率技术。我们在受控实验室设置中的模型和实验结果表明,可以重建和识别超过75%的屏幕文本,其高度高达10毫米,并使用720p网络摄像头进行重建和识别。我们进一步将此威胁模型应用于具有不同攻击者功能的Web文本内容,以找到可以识别文本的阈值。我们与20名参与者的用户研究表明,当今的720p网络摄像头足以让对手在大芬特网站上重建文本内容。我们的模型进一步表明,向4K摄像机的演变将使文本泄漏的阈值倾斜到流行网站上大多数标题文本的重建。除文本目标外,还针对具有720p网络摄像头的Alexa前100个网站的封闭世界数据集的案例研究显示,即使没有使用机器学习模型,也没有10个参与者的最高识别精度为94%。我们的研究提出了近期缓解,包括用户可以用来模糊视频流的眼镜区域的软件原型。对于可能的长期防御,我们主张采用个人反思测试程序来评估各种环境下的威胁,并证明遵循最少特权原则对隐私敏感的情况的重要性。
translated by 谷歌翻译
情绪可以提供自然的交流方式,以补充许多领域中社交机器人(例如文本和语音)现有的多模式能力。我们与112、223和151名参与者进行了三项在线研究,以调查使用情绪作为搜救(SAR)机器人的交流方式的好处。在第一个实验中,我们研究了通过机器人的情绪传达与SAR情况有关的信息的可行性,从而导致了从SAR情况到情绪的映射。第二项研究使用控制控制理论是推导此类映射的替代方法。此方法更灵活,例如允许对不同的情绪集和不同机器人进行调整。在第三个实验中,我们使用LED作为表达通道为外观受限的室外现场研究机器人创建了情感表达。在各种模拟的SAR情况下,使用这些情感表达式,我们评估了这些表达式对参与者(采用救援人员的作用)的影响。我们的结果和提议的方法提供了(a)有关情感如何帮助在SAR背景下传达信息的见解,以及(b)在(模拟)SAR通信环境中添加情绪为传播方式的有效性的证据。
translated by 谷歌翻译
在线众包平台使对算法输出进行评估变得容易,并提出诸如“哪个图像更好,A或B?”之类的问题的调查,在视觉和图形研究论文中的这些“用户研究”的扩散导致了增加匆忙进行的研究充其量是草率且无知的,并且可能有害和误导。我们认为,在计算机视觉和图形论文中的用户研究的设计和报告需要更多关注。为了提高从业者的知识并提高用户研究的可信度和可复制性,我们提供了用户体验研究(UXR),人类计算机互动(HCI)和相关领域的方法论的概述。我们讨论了目前在计算机视觉和图形研究中未利用的基础用户研究方法(例如,需要调查),但可以为研究项目提供宝贵的指导。我们为有兴趣探索其他UXR方法的读者提供了进一步的指导。最后,我们描述了研究界的更广泛的开放问题和建议。我们鼓励作者和审稿人都认识到,并非每项研究贡献都需要用户研究,而且根本没有研究比不小心进行的研究更好。
translated by 谷歌翻译
Prior work has identified a resilient phenomenon that threatens the performance of human-AI decision-making teams: overreliance, when people agree with an AI, even when it is incorrect. Surprisingly, overreliance does not reduce when the AI produces explanations for its predictions, compared to only providing predictions. Some have argued that overreliance results from cognitive biases or uncalibrated trust, attributing overreliance to an inevitability of human cognition. By contrast, our paper argues that people strategically choose whether or not to engage with an AI explanation, demonstrating empirically that there are scenarios where AI explanations reduce overreliance. To achieve this, we formalize this strategic choice in a cost-benefit framework, where the costs and benefits of engaging with the task are weighed against the costs and benefits of relying on the AI. We manipulate the costs and benefits in a maze task, where participants collaborate with a simulated AI to find the exit of a maze. Through 5 studies (N = 731), we find that costs such as task difficulty (Study 1), explanation difficulty (Study 2, 3), and benefits such as monetary compensation (Study 4) affect overreliance. Finally, Study 5 adapts the Cognitive Effort Discounting paradigm to quantify the utility of different explanations, providing further support for our framework. Our results suggest that some of the null effects found in literature could be due in part to the explanation not sufficiently reducing the costs of verifying the AI's prediction.
translated by 谷歌翻译
当从人类行为中推断出奖励功能(无论是演示,比较,物理校正或电子停靠点)时,它已证明对人类进行建模作为做出嘈杂的理性选择,并具有“合理性系数”,以捕获多少噪声或熵我们希望看到人类的行为。无论人类反馈的类型或质量如何,许多现有作品都选择修复此系数。但是,在某些情况下,进行演示可能要比回答比较查询要困难得多。在这种情况下,我们应该期望在示范中看到比比较中更多的噪音或次级临时性,并且应该相应地解释反馈。在这项工作中,我们提倡,将每种反馈类型的实际数据中的理性系数扎根,而不是假设默认值,对奖励学习具有重大的积极影响。我们在模拟反馈以及用户研究的实验中测试了这一点。我们发现,从单一反馈类型中学习时,高估人类理性可能会对奖励准确性和遗憾产生可怕的影响。此外,我们发现合理性层面会影响每种反馈类型的信息性:令人惊讶的是,示威并不总是最有用的信息 - 当人类的行为非常卑鄙时,即使在合理性水平相同的情况下,比较实际上就变得更加有用。 。此外,当机器人确定要要求的反馈类型时,它可以通过准确建模每种类型的理性水平来获得很大的优势。最终,我们的结果强调了关注假定理性级别的重要性,不仅是在从单个反馈类型中学习时,尤其是当代理商从多种反馈类型中学习时,尤其是在学习时。
translated by 谷歌翻译
合奏的基本分支混合合奏在许多机器学习问题,尤其是回归中蓬勃发展。几项研究证实了多样性的重要性。但是,以前的合奏仅考虑在子模型训练阶段的多样性,与单个模型相比,改进有限。相反,本研究从异质模型池中选择和权重子模型。它使用内点过滤线性搜索算法解决了优化问题。这种优化问题创新地将负相关学习作为惩罚项,可以选择多种模型子集。实验结果显示了一些有意义的观点。模型池构造需要不同类别的模型,每个类别都作为子模型为所有可能的参数集。选择每个类的最佳子模型以构建基于NCL的合奏,该集合比子模型的平均值要好得多。此外,与经典常数和非恒定加权方法相比,基于NCL的合奏在几种预测指标中具有重要优势。实际上,由于模型不确定性,很难在事先结论数据集的最佳子模型。但是,我们的方法将获得可比较的精度作为RMSE度量的潜在最佳子模型。总之,这项研究的价值在于它的易用性和有效性,使混合团合奏可以接受多样性和准确性。
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
预测组合在预测社区中蓬勃发展,近年来,已经成为预测研究和活动主流的一部分。现在,由单个(目标)系列产生的多个预测组合通过整合来自不同来源收集的信息,从而提高准确性,从而减轻了识别单个“最佳”预测的风险。组合方案已从没有估计的简单组合方法演变为涉及时间变化的权重,非线性组合,组件之间的相关性和交叉学习的复杂方法。它们包括结合点预测和结合概率预测。本文提供了有关预测组合的广泛文献的最新评论,并参考可用的开源软件实施。我们讨论了各种方法的潜在和局限性,并突出了这些思想如何随着时间的推移而发展。还调查了有关预测组合实用性的一些重要问题。最后,我们以当前的研究差距和未来研究的潜在见解得出结论。
translated by 谷歌翻译
Scale-invariance is an open problem in many computer vision subfields. For example, object labels should remain constant across scales, yet model predictions diverge in many cases. This problem gets harder for tasks where the ground-truth labels change with the presentation scale. In image quality assessment (IQA), downsampling attenuates impairments, e.g., blurs or compression artifacts, which can positively affect the impression evoked in subjective studies. To accurately predict perceptual image quality, cross-resolution IQA methods must therefore account for resolution-dependent errors induced by model inadequacies as well as for the perceptual label shifts in the ground truth. We present the first study of its kind that disentangles and examines the two issues separately via KonX, a novel, carefully crafted cross-resolution IQA database. This paper contributes the following: 1. Through KonX, we provide empirical evidence of label shifts caused by changes in the presentation resolution. 2. We show that objective IQA methods have a scale bias, which reduces their predictive performance. 3. We propose a multi-scale and multi-column DNN architecture that improves performance over previous state-of-the-art IQA models for this task, including recent transformers. We thus both raise and address a novel research problem in image quality assessment.
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
折射率是最常见的眼睛障碍,是可更正视觉障碍的关键原因,造成了美国近80%的视觉障碍。可以使用多种方法诊断折射误差,包括主观折射,视网膜镜检查和自动磨蚀器。尽管主观折射是黄金标准,但它需要患者的合作,因此不适合婴儿,幼儿和发育迟缓的成年人。视网膜镜检查是一种客观折射方法,不需要患者的任何输入。但是,视网膜镜检查需要镜头套件和训练有素的检查员,这限制了其用于大规模筛查的使用。在这项工作中,我们通过将智能手机连接到视网膜镜和录制视网膜镜视频与患者戴着定制的纸框架来自动化自动化。我们开发了一个视频处理管道,该管道将视网膜视频视为输入,并根据我们提出的视网膜镜检查数学模型的扩展来估算净屈光度错误。我们的系统减轻了对镜头套件的需求,可以由未经培训的检查员进行。在一项185只眼睛的临床试验中,我们的灵敏度为91.0%,特异性为74.0%。此外,与主观折射测量相比,我们方法的平均绝对误差为0.75 $ \ pm $ 0.67D。我们的结果表明,我们的方法有可能用作现实世界中医疗设置中的基于视网膜镜检查的折射率筛选工具。
translated by 谷歌翻译
可编程逻辑控制器(PLC)推动对社会至关重要的工业过程,例如水处理和分配,电力和燃料网络。搜索引擎(例如Shodan)强调说,可编程逻辑控制器(PLC)经常暴露于Internet,这是安全设置的错误配置的主要原因之一。这导致了一个问题 - 为什么这些错误配置会发生,具体而言,安全控制的可用性是否起作用?迄今为止,尚未研究配置PLC安全机制的可用性。我们通过基于任务的研究和随后的半结构化访谈(n = 19)介绍了第一次调查。我们探索PLC连接配置和两个关键安全机制的可用性(即访问级别和用户管理)。我们发现使用不熟悉的标签,布局和误导性术语加剧了已经复杂的配置安全机制的过程。我们的结果揭示了对安全控制的各种看法,以及设计约束(例如,安全性和缺乏定期更新)如何(由于这种系统的长期性质),为实现现代HCI和可用性原则的实现提供了重大挑战。基于这些发现,我们提供了设计建议,以在工业环境中与IT同行提供可用的安全性。
translated by 谷歌翻译
映射近场污染物的浓度对于跟踪城市地区意外有毒羽状分散体至关重要。通过求解大部分湍流谱,大型模拟(LES)具有准确表示污染物浓度空间变异性的潜力。找到一种合成大量信息的方法,以提高低保真操作模型的准确性(例如,提供更好的湍流封闭条款)特别有吸引力。这是一个挑战,在多质量环境中,LES的部署成本高昂,以了解羽流和示踪剂分散如何随着各种大气和源参数的变化。为了克服这个问题,我们提出了一个合并正交分解(POD)和高斯过程回归(GPR)的非侵入性降低阶模型,以预测与示踪剂浓度相关的LES现场统计。通过最大的后验(MAP)过程,GPR HyperParameter是通过POD告知的最大后验(MAP)过程来优化组件的。我们在二维案例研究上提供了详细的分析,该案例研究对应于表面安装的障碍物上的湍流大气边界层流。我们表明,障碍物上游的近源浓度异质性需要大量的POD模式才能得到充分捕获。我们还表明,逐组分的优化允许捕获POD模式中的空间尺度范围,尤其是高阶模式中较短的浓度模式。如果学习数据库由至少五十至100个LES快照制成,则可以首先估算所需的预算,以朝着更逼真的大气分散应用程序迈进,因此减少订单模型的预测仍然可以接受。
translated by 谷歌翻译