Quantifying motion in 3D is important for studying the behavior of humans and other animals, but manual pose annotations are expensive and time-consuming to obtain. Self-supervised keypoint discovery is a promising strategy for estimating 3D poses without annotations. However, current keypoint discovery approaches commonly process single 2D views and do not operate in the 3D space. We propose a new method to perform self-supervised keypoint discovery in 3D from multi-view videos of behaving agents, without any keypoint or bounding box supervision in 2D or 3D. Our method uses an encoder-decoder architecture with a 3D volumetric heatmap, trained to reconstruct spatiotemporal differences across multiple views, in addition to joint length constraints on a learned 3D skeleton of the subject. In this way, we discover keypoints without requiring manual supervision in videos of humans and rats, demonstrating the potential of 3D keypoint discovery for studying behavior.
translated by 谷歌翻译
Neurosymbolic Programming (NP) techniques have the potential to accelerate scientific discovery. These models combine neural and symbolic components to learn complex patterns and representations from data, using high-level concepts or known constraints. NP techniques can interface with symbolic domain knowledge from scientists, such as prior knowledge and experimental context, to produce interpretable outputs. We identify opportunities and challenges between current NP models and scientific workflows, with real-world examples from behavior analysis in science: to enable the use of NP broadly for workflows across the natural and social sciences.
translated by 谷歌翻译
现实世界的行为通常是由多种代理之间复杂的相互作用来塑造的。为了可靠地研究多代理行为,无监督和自我监督的学习的进步使从轨迹数据中学到了各种不同的行为表示。迄今为止,还没有一组统一的基准测试,可以在广泛的行为分析设置中进行定量和系统地比较方法。我们的目的是通过引入来自现实世界行为神经科学实验的大规模,多代理轨迹数据集来解决这一问题,该数据集涵盖了一系列行为分析任务。我们的数据集由来自通用模型生物的轨迹数据组成,其中有960万帧的小鼠数据和440万帧的飞行数据,在各种实验环境中,例如不同的菌株,相互作用的长度和光遗传学刺激。框架的子集还包括专家注销的行为标签。我们数据集的改进对应于跨多种生物的行为表示,并能够捕获常见行为分析任务的差异。
translated by 谷歌翻译
神经科学家和神经工具长期以来一直依赖多电极神经记录来研究大脑。但是,在典型的实验中,许多因素损坏了来自单个电极的神经记录,包括电噪声,运动伪像和制造错误。当前,普遍的做法是丢弃这些损坏的录音,减少已经有限的数据,难以收集。为了应对这一挑战,我们提出了深层神经插补(DNI),这是一个从跨空间位置,天和参与者中收集的数据中学习的框架,以从电极中恢复缺失值。我们通过线性最近的邻居方法和两个深层生成自动编码器探索我们的框架,证明了DNI的灵活性。一位深度自动编码器单独建模参与者,而另一个则扩展了该体系结构以共同建模。我们评估了12名用多电极内电图阵列植入的人类参与者的模型;参与者没有明确的任务,并且在数百个记录小时内自然行为。我们表明,DNI不仅恢复了时间序列,还可以恢复频率内容,并通过在科学相关的下游神经解码任务上恢复出色的性能来进一步确立DNI的实际价值。
translated by 谷歌翻译
Recently developed methods for video analysis, especially models for pose estimation and behavior classification, are transforming behavioral quantification to be more precise, scalable, and reproducible in fields such as neuroscience and ethology. These tools overcome long-standing limitations of manual scoring of video frames and traditional "center of mass" tracking algorithms to enable video analysis at scale. The expansion of open-source tools for video acquisition and analysis has led to new experimental approaches to understand behavior. Here, we review currently available open-source tools for video analysis and discuss how to set up these methods for labs new to video recording. We also discuss best practices for developing and using video analysis methods, including community-wide standards and critical needs for the open sharing of datasets and code, more widespread comparisons of video analysis methods, and better documentation for these methods especially for new users. We encourage broader adoption and continued development of these tools, which have tremendous potential for accelerating scientific progress in understanding the brain and behavior.
translated by 谷歌翻译
我们提出了一种学习来自未标识的行为视频的代理的姿势和结构的方法。从观察开始,表现代理通常是行为视频中的主要运动来源,我们的方法使用具有几何瓶颈的编码器 - 解码器架构来重建视频帧之间的差异。只要仅关注运动区域,我们的方法直接在输入视频上工作,而无需手动注释,例如关键点或边界框。关于各种代理类型(鼠标,飞,人,水母和树木)的实验展示了我们的方法的一般性,并揭示了我们发现的关键点代表着语义有意义的身体部位,这在关键点回归上实现了最先进的性能在自我监督的方法中。此外,我们发现的关键点可实现可比的性能,以对下游任务的监督关键点,例如行为分类,表明我们的方法可以大大降低模型培训VIS-VIS监督方法的成本。
translated by 谷歌翻译
获取大型训练集的注释是昂贵的,尤其是在行为分析设置中,准确注释所需的域知识。研究了弱监管,以减少任务级标签函数的弱标签来减少注释成本,以增加地面真理标签。但是,仍然需要域专家对每项学习任务的手工制衡功能。为了减少专业努力,我们展示了AutoSwap:一个自动综合数据高效的任务级标签功能的框架。我们方法的关键是以可重复使用的域特定语言和域级标记函数有效地代表专业知识,我们使用最先进的程序合成技术和小标记数据集以生成标签功能。此外,我们提出了一种新颖的结构多样性成本,允许直接合成具有最小开销的多样化标记功能,进一步提高标记功能数据效率。我们在三个行为分析域中评估AutoSwap,并证明AutoSwap仅使用数据的一部分来表明现有方法。我们的结果表明,Autoswap是一种有效的方法,可以自动生成标签功能,这可以显着降低行为分析的专业努力。
translated by 谷歌翻译
We present a framework for the unsupervised learning of neurosymbolic encoders, which are encoders obtained by composing neural networks with symbolic programs from a domain-specific language. Our framework naturally incorporates symbolic expert knowledge into the learning process, which leads to more interpretable and factorized latent representations compared to fully neural encoders. We integrate modern program synthesis techniques with the variational autoencoding (VAE) framework, in order to learn a neurosymbolic encoder in conjunction with a standard decoder. The programmatic descriptions from our encoders can benefit many analysis workflows, such as in behavior modeling where interpreting agent actions and movements is important. We evaluate our method on learning latent representations for real-world trajectory data from animal biology and sports analytics. We show that our approach offers significantly better separation of meaningful categories than standard VAEs and leads to practical gains on downstream analysis tasks, such as for behavior classification.
translated by 谷歌翻译
多代理行为建模旨在了解代理之间发生的交互。我们从行为神经科学,Caltech鼠标社交交互(CALMS21)数据集中提供了一个多代理数据集。我们的数据集由社交交互的轨迹数据组成,从标准居民入侵者测定中自由行为小鼠的视频记录。为了帮助加速行为研究,CALMS21数据集提供基准,以评估三种设置中自动行为分类方法的性能:(1)用于培训由单个注释器的所有注释,(2)用于风格转移以进行学习互动在特定有限培训数据的新行为学习的行为定义和(3)的注释差异。 DataSet由600万个未标记的追踪姿势的交互小鼠组成,以及超过100万帧,具有跟踪的姿势和相应的帧级行为注释。我们的数据集的挑战是能够使用标记和未标记的跟踪数据准确地对行为进行分类,以及能够概括新设置。
translated by 谷歌翻译
对人类姿势和行动的认可对于自治系统与人们顺利互动。然而,相机通常在2D中捕获人类的姿势,作为图像和视频,这在跨越识别任务具有挑战性的观点来具有显着的外观变化。为了解决这个问题,我们探讨了来自2D信息的3D人体姿势中的识别相似性,在现有工作中没有得到很好地研究。在这里,我们提出了一种从2D主体关节键盘学习紧凑型视图 - 不变的嵌入空间的方法,而不明确地预测3D姿势。通过确定性映射难以代表预测和遮挡的2D姿势的输入模糊,因此我们采用了嵌入空间的概率制定。实验结果表明,与3D姿态估计模型相比,我们的嵌入模型在不同相机视图中检索类似的姿势时达到更高的准确性。我们还表明,通过培训简单的时间嵌入模型,我们在姿势序列检索方面取得了卓越的性能,并大大减少了基于堆叠帧的嵌入式的嵌入维度,以实现高效的大规模检索。此外,为了使我们的嵌入能够使用部分可见的输入,我们进一步调查培训期间的不同关键点遮挡增强策略。我们证明这些遮挡增强显着提高了部分2D输入姿势的检索性能。行动识别和视频对齐的结果表明,使用我们的嵌入没有任何额外培训,可以实现相对于每个任务专门培训的其他模型的竞争性能。
translated by 谷歌翻译