Managing novelty in perception-based human activity recognition (HAR) is critical in realistic settings to improve task performance over time and ensure solution generalization outside of prior seen samples. Novelty manifests in HAR as unseen samples, activities, objects, environments, and sensor changes, among other ways. Novelty may be task-relevant, such as a new class or new features, or task-irrelevant resulting in nuisance novelty, such as never before seen noise, blur, or distorted video recordings. To perform HAR optimally, algorithmic solutions must be tolerant to nuisance novelty, and learn over time in the face of novelty. This paper 1) formalizes the definition of novelty in HAR building upon the prior definition of novelty in classification tasks, 2) proposes an incremental open world learning (OWL) protocol and applies it to the Kinetics datasets to generate a new benchmark KOWL-718, 3) analyzes the performance of current state-of-the-art HAR models when novelty is introduced over time, 4) provides a containerized and packaged pipeline for reproducing the OWL protocol and for modifying for any future updates to Kinetics. The experimental analysis includes an ablation study of how the different models perform under various conditions as annotated by Kinetics-AVA. The protocol as an algorithm for reproducing experiments using the KOWL-718 benchmark will be publicly released with code and containers at https://github.com/prijatelj/human-activity-recognition-in-an-open-world. The code may be used to analyze different annotations and subsets of the Kinetics datasets in an incremental open world fashion, as well as be extended as further updates to Kinetics are released.
translated by 谷歌翻译
Transfer learning is a simple and powerful method that can be used to boost model performance of low-resource neural machine translation (NMT). Existing transfer learning methods for NMT are static, which simply transfer knowledge from a parent model to a child model once via parameter initialization. In this paper, we propose a novel transfer learning method for NMT, namely ConsistTL, which can continuously transfer knowledge from the parent model during the training of the child model. Specifically, for each training instance of the child model, ConsistTL constructs the semantically-equivalent instance for the parent model and encourages prediction consistency between the parent and child for this instance, which is equivalent to the child model learning each instance under the guidance of the parent model. Experimental results on five low-resource NMT tasks demonstrate that ConsistTL results in significant improvements over strong transfer learning baselines, with a gain up to 1.7 BLEU over the existing back-translation model on the widely-used WMT17 Turkish-English benchmark. Further analysis reveals that ConsistTL can improve the inference calibration of the child model. Code and scripts are freely available at https://github.com/NLP2CT/ConsistTL.
translated by 谷歌翻译
人类识别对象何时已知或当前新颖的能力胜过所有开放式识别算法。通过心理学视觉心理物理学的方法和过程来衡量的人类感知可以为计算机视觉中的视觉识别任务中的新颖性提供附加的数据流。例如,人类受试者的测量反应时间可以提供有关是否可能与新颖的样本相混淆的洞察力。在这项工作中,我们设计并进行了大规模的行为实验,该实验收集了超过200,000种与物体识别相关的人类反应时间测量。收集的数据指示的反应时间在样本级别的对象之间有意义地变化。因此,我们设计了一种新的心理物理损失函数,该函数在深网中与人类行为保持一致性,该函数在不同图像中显示出可变的反应时间。与生物学愿景一样,这种方法使我们能够在标记有限的培训数据的制度中实现良好的开放式识别性能。通过使用来自ImageNet的数据的实验,当训练具有这种新配方的多尺度登记材料时,可以观察到显着改善:经过损失功能训练的模型可显着提高TOP-1验证精度7%,对已知样品的TOP-1测试准确性提高18% ,以及未知样品的TOP-1测试精度33%。我们将我们的方法与文献中的10种开放式识别方法进行了比较,这些方法在多个指标上的表现都优于。
translated by 谷歌翻译
我们介绍了一种考虑复杂的环境条件,在极地地区介绍了一种在极地地区长距离海上路线计划的方法。该方法允许构建优化的路线,描述了该过程的三个主要阶段:使用不均匀网格对环境条件进行离散建模,网格最佳路径的构建以及路径平滑。为了说明不同的车辆性能,我们构建了一系列数据驱动的功能,这些功能可以应用于环境网格,以确定给定容器和网格单元的速度限制和燃料要求,以图形和地理空间表示这些数量。在描述我们的结果时,我们展示了一个示例用途,用于Polar Research船RRS David Attenborough爵士(SDA)的路线规划,核算冰的性能特征,并验证韦德尔海地区的时空路线构建,南极洲。我们通过证明路线的变化取决于季节性海冰可变性,所使用的路线规划目标函数的差异以及其他环境条件(如电流)的存在来证明这种路线构建方法的多功能性。为了证明我们的方法的普遍性,我们在北极海洋和波罗的海中介绍了例子。本手稿中概述的技术是通用的,因此可以应用于具有不同特征的血管。我们的方法不仅可以拥有一个船只计划程序,而且我们概述了该工作流程如何适用于更广泛的社区,例如商业和乘客运输。
translated by 谷歌翻译
我们使用基于模型的k均值算法的概括来提出一种聚类时间序列数据的方法,我们称之为k模型。我们证明了该一般算法的收敛性,并将其与用于混合模型的硬EM算法相关联。然后,我们首先使用AR($ p $)聚类示例应用我们的方法,并展示如何使用最小值的偏置偏差标准使群集算法变得可靠。然后,我们为ARMA($ P,Q $)构建了聚类算法,并将其扩展到Arima($ P,D,Q $)。我们针对基于Ljung-Box统计量拟合的模型开发了拟合统计量的优点。我们使用模拟数据执行实验,以说明如何将算法用于离群检测,检测分布漂移以及讨论初始化方法对空簇的影响。我们还对真实数据进行实验,该实验表明我们的方法与其他现有方法竞争类似的时间序列聚类任务。
translated by 谷歌翻译
对偏见的探索对深度学习管道在医疗环境中的透明度和适用性有重大影响,但到目前为止却经过了严重的研究。在本文中,我们考虑了仅在不同的图像分辨率下可用于培训数据的两个单独的组。对于H组,可用的图像和标签处于首选高分辨率,而对于L组L仅弃用较低的分辨率数据。我们分析了数据分布中的这种分辨率偏差如何传播到更高分辨率下L组的系统偏差预测。我们的结果表明,单分辨率训练设置会导致体积组差异的显着损失,这些差异转化为DSC衡量的错误分割,并在低分辨率组上进行了分类失败。我们进一步探讨了如何使用跨决议的培训数据来应对这种系统偏见。具体而言,我们研究了图像重新采样,扩展和解决独立性的影响,并证明可以通过多分辨率方法有效地降低偏见。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
倦怠是影响近一半医疗工作者的重大公共卫生问题。本文介绍了基于电子健康记录(EHR)活动日志的医师倦怠的第一个端到端深度学习框架,即任何EHR系统中可用的医师工作活动的数字痕迹。与仅依靠调查进行倦怠测量的先前方法相反,我们的框架直接从大规模的临床医生活动日志中了解了医师行为的深刻表示,以预测倦怠。我们提出了基于活动日志(HIPAL)的层次结构预测,该预测具有预先训练的时间依赖时间的活动嵌入机制,适用于活动日志和分层预测模型,该模型反映了临床医生活动日志的自然等级结构,并捕获了医生的演化。短期和长期水平的倦怠风险。为了利用大量未标记的活动日志,我们提出了一个半监督的框架,该框架学会了将从未标记的临床医生活动中提取的知识转移到基于HIPAL的预测模型中。从EHR收集的1500万个临床医生活动日志的实验证明了我们提出的框架在医师倦怠和培训效率方面的预测框架比最先进的方法的优势。
translated by 谷歌翻译
我们为机器翻译(MT)评估发布了70个小鉴别的测试集,称为方差感知测试集(VAT),从WMT16覆盖了35个翻译方向到WMT20竞争。VAT由一种新颖的方差感知过滤方法自动创建,该方法会在没有任何人工的情况下过滤当前MT测试集的不分度测试实例。实验结果表明,VAT在主流语言对和测试集中与人为判断的相关性方面优于原始的WMT测试集。进一步分析增值税的性质揭示了竞争MT系统的具有挑战性的语言特征(例如,低频词和专有名词),为构建未来MT测试集提供指导。测试集和准备方差感知MT测试集的代码可在https://github.com/nlp2ct/variance-aware-mt-test-sets自由使用。
translated by 谷歌翻译
Designing experiments often requires balancing between learning about the true treatment effects and earning from allocating more samples to the superior treatment. While optimal algorithms for the Multi-Armed Bandit Problem (MABP) provide allocation policies that optimally balance learning and earning, they tend to be computationally expensive. The Gittins Index (GI) is a solution to the MABP that can simultaneously attain optimality and computationally efficiency goals, and it has been recently used in experiments with Bernoulli and Gaussian rewards. For the first time, we present a modification of the GI rule that can be used in experiments with exponentially-distributed rewards. We report its performance in simulated 2- armed and 3-armed experiments. Compared to traditional non-adaptive designs, our novel GI modified design shows operating characteristics comparable in learning (e.g. statistical power) but substantially better in earning (e.g. direct benefits). This illustrates the potential that designs using a GI approach to allocate participants have to improve participant benefits, increase efficiencies, and reduce experimental costs in adaptive multi-armed experiments with exponential rewards.
translated by 谷歌翻译