Estimating 3D human motion from an egocentric video sequence is critical to human behavior understanding and applications in VR/AR. However, naively learning a mapping between egocentric videos and human motions is challenging, because the user's body is often unobserved by the front-facing camera placed on the head of the user. In addition, collecting large-scale, high-quality datasets with paired egocentric videos and 3D human motions requires accurate motion capture devices, which often limit the variety of scenes in the videos to lab-like environments. To eliminate the need for paired egocentric video and human motions, we propose a new method, Ego-Body Pose Estimation via Ego-Head Pose Estimation (EgoEgo), that decomposes the problem into two stages, connected by the head motion as an intermediate representation. EgoEgo first integrates SLAM and a learning approach to estimate accurate head motion. Then, taking the estimated head pose as input, it leverages conditional diffusion to generate multiple plausible full-body motions. This disentanglement of head and body pose eliminates the need for training datasets with paired egocentric videos and 3D human motion, enabling us to leverage large-scale egocentric video datasets and motion capture datasets separately. Moreover, for systematic benchmarking, we develop a synthetic dataset, AMASS-Replica-Ego-Syn (ARES), with paired egocentric videos and human motion. On both ARES and real data, our EgoEgo model performs significantly better than the state-of-the-art.
translated by 谷歌翻译
Satellite image analysis has important implications for land use, urbanization, and ecosystem monitoring. Deep learning methods can facilitate the analysis of different satellite modalities, such as electro-optical (EO) and synthetic aperture radar (SAR) imagery, by supporting knowledge transfer between the modalities to compensate for individual shortcomings. Recent progress has shown how distributional alignment of neural network embeddings can produce powerful transfer learning models by employing a sliced Wasserstein distance (SWD) loss. We analyze how this method can be applied to Sentinel-1 and -2 satellite imagery and develop several extensions toward making it effective in practice. In an application to few-shot Local Climate Zone (LCZ) prediction, we show that these networks outperform multiple common baselines on datasets with a large number of classes. Further, we provide evidence that instance normalization can significantly stabilize the training process and that explicitly shaping the embedding space using supervised contrastive learning can lead to improved performance.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
呼吸障碍(例如睡眠呼吸暂停)是一种严重的疾病,由于肺部含有/交换氧气和二氧化碳的能力不足,以确保身体处于稳定的稳态状态,因此会影响大量个体。呼吸测量(例如微小通风)可以与其他生理测量相关,例如远程监测健康和检测此类呼吸相关疾病的症状,例如心率和心率变异性。在这项工作中,我们制定了一种基于深度学习的方法来衡量私人数据集上的远程通风。接受这项工作后,数据集将公开。我们使用两个深度神经网络的两个版本来估计通过可穿戴心率和呼吸设备获得的数据流的微小通风。我们证明,我们的管道的简单设计(包括轻型深神经网络)可以轻松地纳入实时健康监测系统中。
translated by 谷歌翻译
可编程逻辑控制器(PLC)推动对社会至关重要的工业过程,例如水处理和分配,电力和燃料网络。搜索引擎(例如Shodan)强调说,可编程逻辑控制器(PLC)经常暴露于Internet,这是安全设置的错误配置的主要原因之一。这导致了一个问题 - 为什么这些错误配置会发生,具体而言,安全控制的可用性是否起作用?迄今为止,尚未研究配置PLC安全机制的可用性。我们通过基于任务的研究和随后的半结构化访谈(n = 19)介绍了第一次调查。我们探索PLC连接配置和两个关键安全机制的可用性(即访问级别和用户管理)。我们发现使用不熟悉的标签,布局和误导性术语加剧了已经复杂的配置安全机制的过程。我们的结果揭示了对安全控制的各种看法,以及设计约束(例如,安全性和缺乏定期更新)如何(由于这种系统的长期性质),为实现现代HCI和可用性原则的实现提供了重大挑战。基于这些发现,我们提供了设计建议,以在工业环境中与IT同行提供可用的安全性。
translated by 谷歌翻译
深度学习模型推断是许多企业和科学发现过程中的关键服务。本文介绍了Ribbon,这是一种新颖的深度学习推理服务系统,符合两个相互竞争的目标:服务质量(QoS)目标和成本效益。功能区背后的关键思想是智能采用各种云计算实例(异质实例)来满足QoS目标并最大程度地节省成本。功能区设计了一种贝叶斯优化驱动的策略,该策略可帮助用户在云计算平台上为其模型推理服务需求构建最佳的异质实例集 - 并且,功能区展示了其优于使用均匀实例池的推理服务系统的优越性。功能区可为不同的学习模型节省多达16%的推理服务成本,包括新兴的深度学习建议系统模型和药物发现的启用模型。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
尽管受到监督的深度学习彻底改变了语音和音频处理,但它必须为个人任务和应用程序方案建立专业模型。同样,很难将其应用于仅可用标记数据的方言和语言。自我监督的代表学习方法承诺一个单一的通用模型,该模型将使各种各样的任务和领域受益。这种方法已显示出在自然语言处理和计算机视觉域中的成功,在减少许多下游场景所需的标签数量的同时,达到了新的性能水平。语音表示学习在三个主要类别中也经历了类似的进展:生成,对比和预测方法。其他方法依赖于多模式数据,用于预训练,将文本或视觉数据流与语音混合。尽管自我监督的语音表示仍然是一个新生的研究领域,但它与用零词汇资源的声学单词嵌入和学习密切相关,这两种资源已经进行了多年的积极研究。这篇评论介绍了自我监督的语音表示学习及其与其他研究领域的联系的方法。由于许多当前的方法仅集中在自动语音识别作为下游任务上,因此我们回顾了基准测试的最新努力,以将应用程序扩展到语音识别之外。
translated by 谷歌翻译
预测人类运动对于辅助机器人和AR/VR应用至关重要,在这种机器人和AR/VR应用中,与人类的互动需要安全舒适。同时,准确的预测取决于理解场景上下文和人类意图。尽管许多作品研究场景 - 意识到人类的运动预测,但由于缺乏以自我为中心的观点,这些观点揭示了人类意图以及运动和场景的多样性有限,因此后者在很大程度上并没有得到充实的影响。为了减少差距,我们提出了一个大规模的人类运动数据集,该数据集可提供高质量的身体姿势序列,场景扫描以及以自我为中心的视图,目光注视,这是推断人类意图的代孕。通过使用惯性传感器进行运动捕获,我们的数据收集与特定场景无关,这进一步增强了从主题中观察到的运动动力学。我们对利用眼睛目光进行以自我为中心的人类运动预测的优势进行了广泛的研究,并进行了各种最新的架构。此外,为了实现目光的全部潜力,我们提出了一种新型的网络体系结构,该架构可以在目光和运动分支之间进行双向交流。我们的网络在拟议的数据集上实现了人类运动预测的最高性能,这要归功于眼睛凝视的意图信息以及动作调制的DeNocied Ceaze特征。代码和数据可以在https://github.com/y-zheng18/gimo上找到。
translated by 谷歌翻译
促进辅助(AAN)控制旨在通过鼓励患者积极参与促进机器人辅助康复的治疗结果。大多数AAN控制器使用阻抗控制来在目标运动周围创建柔性的力字段,以确保在允许中等运动错误的同时进行跟踪精度。然而,由于控制力场的形状的参数通常根据关于关于对象学习能力的简单假设在线手动调整或在线调整,因此可以限制传统AAN控制器的有效性。在这项工作中,我们提出了一种新颖的自适应AAN控制器,其能够根据每个单独的电动机能力和任务要求自动重塑力场以相位相关的方式重塑力场。该拟议的控制器包括使用路径积分算法的修改策略改进,一种无模型的采样的增强学习方法,该方法实时地学习了特定于主题的阻抗景观,以及嵌入AAN PARADIGM的分层策略参数评估结构通过指定性能驱动的学习目标。通过跑步机培训课程通过具有能够在动力踝足矫形器的协助学习改变的步态模式的跑步机培训课程,通过跑步机培训课程进行实验验证,拟议的控制策略及其促进短期运动适应能力的适应性。
translated by 谷歌翻译