公民科学数据集可能非常大,并且有望改善物种分布建模,但是检测是不完美的,在安装模型时冒着偏见的危险。特别是,观察者可能无法检测到实际存在的物种。占用模型可以估计和纠正此观察过程,并且多种物种的占用模型利用了观察过程中的相似性,这可以改善稀有物种的估计值。但是,目前用于拟合这些模型的计算方法不能扩展到大型数据集。我们开发近似的贝叶斯推理方法,并使用图形处理单元(GPU)将多物种占用模型扩展到非常大的公民科学数据。我们将多物种占用模型拟合到来自eBird项目的一个月数据,该数据由186,811个清单记录组成,其中包括430种鸟类。我们评估了59,338条记录的空间分离测试集的预测,并比较了两种不同的推理方法 - 马尔可夫链蒙特卡洛(MCMC)和变异推理(VI) - 使用最大可能性分别拟合到每个物种的占用模型。我们使用VI将模型拟合到整个数据集中,并使用MCMC将多达32,000个记录拟合。安装在整个数据集中的VI表现最佳,在AUC上表现优于单物种模型(90.4%,而相比88.7%)和对数可能性(-0.080),而不是-0.085)。我们还评估了该模型预测的范围地图与专家图的一致。我们发现建模检测过程大大改善了一致性,并且所得的地图与使用高质量调查数据估计的图表与专家图密切一致。我们的结果表明,多物种占用模型是对大型公民科学数据集建模的令人信服的方法,并且一旦考虑到观察过程,它们就可以准确地对物种分布进行建模。
translated by 谷歌翻译