语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
在基于视觉的辅助技术中,具有不同新兴主题的用例,例如增强现实,虚拟现实和人类计算机互动等不同的主题中的用例中,自动眼目光估计是一个重要问题。在过去的几年中,由于它克服了大规模注释的数据的要求,因此人们对无监督和自我监督的学习范式的兴趣越来越大。在本文中,我们提出了Raze,Raze是一个带有自我监督的注视表示框架的区域,该框架从非宣传的面部图像数据中发挥作用。 Raze通过辅助监督(即伪凝视区域分类)学习目光的表示,其中目的是通过利用瞳孔中心的相对位置将视野分类为不同的凝视区域(即左,右和中心)。因此,我们会自动注释154K Web爬行图像的伪凝视区标签,并通过“ IZE-NET”框架学习特征表示。 “ IZE-NET”是基于胶囊层的CNN体​​系结构,可以有效地捕获丰富的眼睛表示。在四个基准数据集上评估了特征表示的判别性能:洞穴,桌面,MPII和RT-GENE。此外,我们评估了所提出的网络在其他两个下游任务(即驱动器凝视估计和视觉注意估计)上的普遍性,这证明了学习的眼睛注视表示的有效性。
translated by 谷歌翻译
在过去的几年中,在有限的监督下,在不受限制的环境中解释凝视方向一直引起人们的兴趣。由于数据策展和注释问题,将目光估计方法复制到其他平台(例如不受限制的户外或AR/VR)可能会导致性能大幅下降,因为对于模型培训的准确注释数据的可用性不足。在本文中,我们探讨了一个有趣但具有挑战性的凝视估计方法的问题,其标记数据有限。所提出的方法将知识从标记的子集中提炼出具有视觉特征。包括特定身份的外观,凝视轨迹的一致性和运动特征。给定凝视轨迹,该方法仅利用凝视序列的开始和终点的标签信息。提出的方法的扩展进一步减少了标记框架的需求,仅在生成标签的质量下略有下降的起始框架。我们评估了四个基准数据集(Cave,Tabletgaze,MPII和Gaze360)的建议方法以及Web craw的YouTube视频。我们提出的方法将注释工作降低到低至2.67%,对性能的影响很小。表明我们的模型的潜力实现了凝视估计的“野外”设置。
translated by 谷歌翻译
对象探测器对于许多现代计算机视觉应用至关重要。但是,即使是最新的对象探测器也不是完美的。在两个看起来与人眼类似的图像上,同一探测器可以做出不同的预测,因为摄像机传感器噪声和照明变化等小图像变形。这个问题称为不一致。现有的准确性指标不能正确解释不一致的情况,并且在该领域的类似工作仅针对人造图像扭曲的改善。因此,我们提出了一种使用非人工视频框架来测量对象检测一致性,随着时间的流逝,跨帧的方法来测量对象检测一致性。使用此方法,我们表明,来自多个对象跟踪挑战的不同视频数据集,现代对象检测器的一致性范围从83.2%至97.1%。最后,我们表明应用图像失真校正(例如.WEBP图像压缩和UNSHARP遮罩)可以提高一致性多达5.1%,而准确性没有损失。
translated by 谷歌翻译
设置机器人环境快速测试新开发的算法仍然是一个困难且耗时的过程。这给有兴趣执行现实世界机器人实验的研究人员带来了重大障碍。Robotio是一个旨在解决此问题的Python库。它着重于为机器人,抓地力和摄像机等提供常见,简单和结构化的Python接口。这些接口以及这些接口的实现为常见硬件提供了。此启用使用机器人的代码可以在不同的机器人设置上可移植。在建筑方面,Robotio旨在与OpenAI健身房环境以及ROS兼容。提供了这两种示例。该库与许多有用的工具一起融合在一起,例如相机校准脚本和情节记录功能,这些功能进一步支持算法开发。
translated by 谷歌翻译
我们提出了一个开放域的社交聊天机器人Chirpy Cardinal。为了既有信息又有信息,我们的机器人以一种真实的,情感上的方式与用户聊天。通过将受控的神经产生与脚手架,手写的对话整合在一起,我们让用户和机器人都轮流推动对话,从而产生引人入胜且流利的体验。Chirpy Cardinal部署在Alexa奖Socialbot Grand Challenge的第四次迭代中,每天处理数千次对话,在9个机器人中排名第二,平均用户评级为3.58/5。
translated by 谷歌翻译
我们通过在野外观看人类来解决学习问题。尽管在现实世界中学习的传统方法和强化学习对于学习是有希望的,但它们要么是效率低下的样本,要么被限制在实验室环境中。同时,处理被动的,非结构化的人类数据已经取得了很大的成功。我们建议通过有效的一声机器人学习算法解决此问题,该算法围绕第三人称的角度学习。我们称我们的方法旋转:野生人类模仿机器人学习。旋转对人类演示者的意图提取先前,并使用它来初始化代理商的策略。我们介绍了一种有效的现实世界政策学习方案,该方案可以使用交互作用进行改进。我们的主要贡献是一种简单的基于抽样的策略优化方法,这是一种对齐人和机器人视频的新型目标功能,以及一种提高样本效率的探索方法。我们在现实世界中展示了单一的概括和成功,其中包括野外的20个不同的操纵任务。视频并在https://human2robot.github.io上进行交谈
translated by 谷歌翻译
鉴于我们不断增加的在线形象和信息摄入,现实的虚假视频是传播有害错误信息的潜在工具。本文提出了一种基于多模式学习的方法,用于检测真实和虚假视频。该方法结合了来自三种模式的信息 - 音频,视频和生理学。我们通过将视频与生理学的信息增加或通过新颖地学习这两种方式与所提出的图形卷积网络体系结构的融合来研究两种结合视频和生理方式的策略。两种结合两种方式的策略都取决于一种新方法来生成生理信号的视觉表示。然后,对真实视频和虚假视频的检测是基于音频和修改视频方式之间的差异。在两个基准数据集上评估了所提出的方法,与以前的方法相比,结果显示检测性能显着增加。
translated by 谷歌翻译
我们提出了一系列两项研究,以了解基于语音的人机相互作用期间用户的情感状态。重点放在通信错误或失败的情况下。特别是,我们有兴趣了解与其他情感状态有关的“混乱”。研究由两种类型的任务组成:(1)与基于语音的虚拟代理的通信有关:与机器交谈并了解机器所说的话,(2)与参与者解决的无通信,解决问题的任务难题和谜语,但被要求口头解释机器的答案。我们收集了参与者情感状态的视听数据和自我报告。我们报告了两项研究的结果和分析收集的数据。根据注释者的观察对第一项研究进行了分析,并根据自我报告分析了第二项研究。
translated by 谷歌翻译
免疫反应是一个动态过程,通过该过程,身体决定抗原是自我还是非自然。这种动态过程的状态由构成该决策过程的炎症和监管参与者的相对平衡和种群定义。免疫疗法的目的,例如因此,类风湿关节炎(RA)是为了使免疫状态偏向于监管参与者,从而在反应中关闭自身免疫性途径。尽管有几种已知的免疫疗法方法,但治疗的有效性将取决于这种干预措施如何改变该状态的演变。不幸的是,此过程不仅取决于该过程的动力学,而且是在干预时的系统状态决定的 - 这种状态在应用治疗之前很难确定即使不是不可能的状态。
translated by 谷歌翻译