对颅面畸形的评估需要稀疏可用的患者数据。统计形状模型提供了现实和合成数据,从而实现了公共数据集上现有方法的比较。我们建立了第一个公开可获得的颅骨肌肤肤化患者的统计3D头号,并将重点关注比1.5年更年轻的婴儿。对于通信建立,我们测试和评估四种模板变形方法。我们进一步提出了一种基于模型的基于模型的基于模型的分类方法,用于摄影测图表面扫描。据我们所知,我们的研究使用最大的Craniosynosisosis患者数据集,以迄今为止的粗糙化和统计形状建模的分类研究。我们展示了我们的形状模型与人头的其他统计形状模型类似。特异性抗皱性病理学在该模型的第一个特征模具中表示。关于Craniosynostis的自动分类,我们的分类方法能够提供97.3%的精度,与使用两种计算机断层扫描扫描和立体测量法进行的其他最先进的方法相当。我们公开的颅骨弯曲特异性统计形状模型能够评估粗糙化和合成数据的颅骨。我们进一步提出了一种基于最先进的形状模型的分类方法,用于无放射诊断性的颅骨。
translated by 谷歌翻译
In this paper, we present a novel visual SLAM and long-term localization benchmark for autonomous driving in challenging conditions based on the large-scale 4Seasons dataset. The proposed benchmark provides drastic appearance variations caused by seasonal changes and diverse weather and illumination conditions. While significant progress has been made in advancing visual SLAM on small-scale datasets with similar conditions, there is still a lack of unified benchmarks representative of real-world scenarios for autonomous driving. We introduce a new unified benchmark for jointly evaluating visual odometry, global place recognition, and map-based visual localization performance which is crucial to successfully enable autonomous driving in any condition. The data has been collected for more than one year, resulting in more than 300 km of recordings in nine different environments ranging from a multi-level parking garage to urban (including tunnels) to countryside and highway. We provide globally consistent reference poses with up to centimeter-level accuracy obtained from the fusion of direct stereo-inertial odometry with RTK GNSS. We evaluate the performance of several state-of-the-art visual odometry and visual localization baseline approaches on the benchmark and analyze their properties. The experimental results provide new insights into current approaches and show promising potential for future research. Our benchmark and evaluation protocols will be available at https://www.4seasons-dataset.com/.
translated by 谷歌翻译
We propose AnyTOD, an end-to-end task-oriented dialog (TOD) system with zero-shot capability for unseen tasks. We view TOD as a program executed by a language model (LM), where program logic and ontology is provided by a designer in the form of a schema. To enable generalization onto unseen schemas and programs without prior training, AnyTOD adopts a neuro-symbolic approach. A neural LM keeps track of events that occur during a conversation, and a symbolic program implementing the dialog policy is executed to recommend next actions AnyTOD should take. This approach drastically reduces data annotation and model training requirements, addressing a long-standing challenge in TOD research: rapidly adapting a TOD system to unseen tasks and domains. We demonstrate state-of-the-art results on the STAR and ABCD benchmarks, as well as AnyTOD's strong zero-shot transfer capability in low-resource settings. In addition, we release STARv2, an updated version of the STAR dataset with richer data annotations, for benchmarking zero-shot end-to-end TOD models.
translated by 谷歌翻译
Most research on task oriented dialog modeling is based on written text input. However, users interact with practical dialog systems often using speech as input. Typically, systems convert speech into text using an Automatic Speech Recognition (ASR) system, introducing errors. Furthermore, these systems do not address the differences in written and spoken language. The research on this topic is stymied by the lack of a public corpus. Motivated by these considerations, our goal in hosting the speech-aware dialog state tracking challenge was to create a public corpus or task which can be used to investigate the performance gap between the written and spoken forms of input, develop models that could alleviate this gap, and establish whether Text-to-Speech-based (TTS) systems is a reasonable surrogate to the more-labor intensive human data collection. We created three spoken versions of the popular written-domain MultiWoz task -- (a) TTS-Verbatim: written user inputs were converted into speech waveforms using a TTS system, (b) Human-Verbatim: humans spoke the user inputs verbatim, and (c) Human-paraphrased: humans paraphrased the user inputs. Additionally, we provided different forms of ASR output to encourage wider participation from teams that may not have access to state-of-the-art ASR systems. These included ASR transcripts, word time stamps, and latent representations of the audio (audio encoder outputs). In this paper, we describe the corpus, report results from participating teams, provide preliminary analyses of their results, and summarize the current state-of-the-art in this domain.
translated by 谷歌翻译
基于图形的大量系统的关键组成部分是能够检测轨迹中的环闭合以减少从探视法累积的漂移。大多数基于激光雷达的方法仅通过仅使用几何信息来实现此目标,而无视场景的语义。在这项工作中,我们介绍了Padloc,这是一种基于激光雷达的环路闭合检测和注册体系结构,其中包括共享的3D卷积特征提取主链,用于环路闭合检测的全局描述符,以及用于点云匹配和注册的新型变压器头。我们提出了多种方法,用于估计基于多样性指数的点匹配置信度。此外,为了提高前向后的一致性,我们建议使用两个共享匹配和注册头,并通过利用估计的相对转换必须相互倒数来交换其源和目标输入。此外,我们以新颖的损失函数的形式利用综合信息在培训期间,将匹配问题折叠为语义标签的分类任务,并作为实例标签的图形连接分配。我们在多个现实世界数据集上对PADLOC进行了广泛的评估,证明它可以实现最新的性能。我们的工作代码可在http://padloc.cs.uni-freiburg.de上公开获得。
translated by 谷歌翻译
触摸是人类之间互动和交流的关键部分,但在人类机器人的互动中仍然很少探索。在这项工作中,要求参与者接近并触摸手上的人形机器人(NAO -26名参与者; Pepper -28名参与者),以引起注意。我们为机器人设计了反应行为,该机器人由四种不同的手臂运动组合组成,而被触摸的手向前或向后移动,另一只手向前移动或保持到位,同时向后倾斜,然后看参与者。我们研究了机器人的哪种反应发现最合适的是他们选择的原因。对于两个机器人,被触摸的机器人手的首选反应正在向后移动。另一方面,根本没有任何动作对胡椒来说最自然,而NAO则是向前移动的。发现了参与者人格特征的焦虑量表与机器人反应的主动/侵略性的被动性分量表之间的相关性。大多数参与者注意到倾斜的后背并积极地对其进行了评分。一些参与者在非结构化评论中对参与者进行了积极评论。我们还分析了参与者在哪里以及如何自发接触机器人手上的地方。总而言之,这里设计的触摸反应行为是一个很好的候选人,可以更普遍地在社交机器人中部署,可能包括在拥挤的环境中偶然触摸。机器人尺寸构成了一个重要因素,该因素塑造了如何感知机器人反应。
translated by 谷歌翻译
为了关注稳定的室友(SR)实例,我们为进行稳定匹配问题的实验的工具箱做出了贡献。我们引入了一个多项式时间可计算的伪计,以测量SR实例的相似性,分析其属性并使用它来创建SR实例的地图。该地图可视化460个合成SR实例(每个统计培养物之一中的一个采样),如下所示:每个实例都是平面中的一个点,如果相应的SR实例彼此相似,则在地图上有两个点接近。随后,我们进行了几个模范实验,并在地图上描述了它们的结果,说明了地图作为非聚集可视化工具的有用性,生成的数据集的多样性以及使用从不同统计文化中采样的实例。最后,为了证明我们的框架也可以用于偏爱的其他匹配问题,我们创建和分析了稳定的婚姻实例地图。
translated by 谷歌翻译
在实际应用桥梁称重(BWIM)方法中,车辆通过期间车轮或车轴的位置在大多数情况下是先决条件。为了避免使用常规轴检测器和桥梁类型特定的方法,我们提出了一种新的方法来通过在桥梁的任何点上放置加速度计来检测轴检测。为了开发尽可能简单且可理解的模型,将轴检测任务实现为二进制分类问题,而不是回归问题。该模型被用作完全卷积网络,以连续小波变换的形式处理信号。这允许在单个步骤中以最大效率处理任何长度的段落,同时在单个评估中使用多个量表。这使我们的方法能够在桥结构的任何位置使用加速信号,该位置用作虚拟轴检测器(VADS),而无需仅限于特定的结构类型的桥梁。为了测试提出的方法,我们分析了在长途交通线的钢槽铁路桥上记录的3787列火车通道。我们在测量数据上的结果表明,我们的模型检测到轴的95%,因此,正确检测到了134,800个以前看不见的轴的128,599。总共可以以20厘米的最大空间误差检测到90%的车轴,最大速度为$ v _ {\ mathrm {max}} = 56,3〜 \ mathrm {m/s} $。分析表明,即使在实际操作条件下,我们开发的模型也可以使用加速度计作为VAD。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
由自我发项层组成的大型,预训练的神经网络(变形金刚)最近在几种语音情绪识别(SER)数据集上取得了最新的结果。这些模型通常以自我监督的方式进行预训练,以提高自动语音识别性能,从而了解语言信息。在这项工作中,我们研究了在Ser微调过程中利用此信息的程度。使用基于开源工具的可重现方法,我们在改变文本的情感时综合了韵律中性的语音话语。变压器模型的价预测对正面和负面情绪含量以及否定性非常反应,但对增强剂或还原器不反应,而这些语言特征都没有影响唤醒或优势。这些发现表明,变形金刚可以成功利用语言信息来改善其价预测,并且应将语言分析包括在其测试中。
translated by 谷歌翻译