【PaperWriting】基于最大熵方法的中国夜行猛禽时空分布格局研究 - Bili-Sakura/NOTES GitHub Wiki

基于最大熵方法的中国夜行猛禽时空分布格局研究

一、绪论

1.2 研究现状

1.2.1 物种分布研究

[!NOTE] 物种分布研究的定义

物种地理分布预测建模是分析生物学中的一项重要技术,它涉及到评估和预测物种对环境因素如气候、地形、同种或异种竞争等的响应,以及这些因素如何影响物种分布的研究(Phillips 等,2006),在保护保护区规划、生态学、进化、流行病学、入侵物种管理等领域具有广泛的应用(Corsi 等, 1999; Peterson 和 Shaw, 2003; Peterson 等, 1999; Scott 等, 2002; Welk 等, 2002; Yom-Tov 和 Kadmon, 1998)。

[!NOTE] 物种分布研究的主要内容

物种分布研究的核心内容包括:1) 评估物种在不同环境条件下的存在概率和分布范围;2) 理解环境变量如何影响物种的地理分布;3) 利用统计和模型方法预测物种对环境变化的响应,例如气候变化。

[!NOTE] 物种分布研究的主要方法

物种分布研究通常依赖于现场调查数据和遥感数据,结合地理信息系统(GIS)进行分析。近年来,机器学习方法如最大熵模型(MaxEnt)已被广泛应用于物种分布模型的构建中,这些模型可以有效处理只有物种存在数据而没有物种缺失数据的情况。

[!NOTE] 物种分布研究的目的和意义

我们希望通过建立合理的模型,基于先验知识,确定一些最有可能影响物种生存的环境变量,根据给定的环境变量来预测物种的环境适应性(Phillips 等,2006)。物种分布研究的目的是为生物多样性保护、自然资源管理和环境政策制定提供科学依据。通过预测物种对未来环境变化的响应,这一研究有助于制定有效的物种保护策略和生态系统管理措施,同时也对生态系统服务的持续性和生物多样性的保护具有重要意义。

1.2.2 传统方法与物种分布研究

[!NOTE] 传统方法时间线

物种分布研究方法从早期的简单统计和生物地理模型发展到现代的集成模型和高级统计方法。早期研究主要关注气候因素对动植物分布的影响,诸如Humboldt和Bonpland (1807)以及de Candolle (1855)的工作表明了气候对植物地理分布的重要性​​。随着统计学和地理信息系统(GIS)技术的进步,预测性栖息地分布模型得到了快速发展,特别是在生态学、生物保护、气候变化研究和物种或栖息地管理领域。到20世纪末,生态模型已经包括了广泛的统计技术,例如普通多重回归、广义线性模型(GLM)、神经网络、排序和分类方法、贝叶斯模型和局部加权方法如广义加性模型(GAM)等​​。这些方法不仅在统计上考虑了模型的优化精确度和泛化性,还考虑了模型在理论上对物种响应形态和性质的反映。此外,新的方法如阈值独立度量,例如接收者操作特征(ROC)图和重采样技术(例如自助法和交叉验证)也被引入生态学中,用于测试预测模型的精确性​​。

[!NOTE] 传统方法弊端

然而上述统计学方法缺少泛化能力,针对不同的研究目标,需要重新选择模型和权重,这也会不同权重下出现遗漏和错误归类等预测错误(Guisan 和 Zimmermann,2000)。

1.2.2 机器学习与物种分布研究

[!NOTE] 机器学习方法时间线:MLP -> SVM -> RF -> (MaxEnt)

多层感知器(MLP,Multi-Layer Perceptron)是一种前馈人工神经网络模型,它通过多层结构和非线性激活函数来模拟复杂函数。MLP的理论基础最初是在1986年由Rumelhart等人在他们的开创性论文中提出的。这篇论文大力推动了反向传播算法(Back propagation)的应用,这是训练多层神经网络的一种有效方法。而后,随着人工智能的研究不断深入,各类机器学习方法兴起。支持向量机(Support Vector Machine, SVM)是一种广泛使用的监督学习模型,通过寻找数据类别之间的最优分割边界用于分类和回归分析(Cortes 和 Vapnik,1995)。随机森林(Random Forest, RF)是一种流行且功能强大的机器学习算法,属于集成学习方法的一种,主要用于分类和回归任务。它基于决策树集成的原理,通过构建多个决策树并对它们的结果进行汇总来提高预测准确性(Breiman,2001)。

[!NOTE] 机器学习方法的不足(为介绍Maxent作铺垫)

尽管上述机器学习方法被广泛应用于各种行业和领域,并取得显著成效,但物种分布研究中,由于物种观测数据的固有问题和模型的局限性,上述模型无法很好的应用在分布预测中。因此,Phillips等人(2006)引入基于的最大熵方法(Maxent)的机器学习模型,特别适合处理仅有物种存在数据而缺乏缺失数据的情况并具有良好的可解释性,成为物种分布研究的主流方法。

[!NOTE] 简单概述MaxEnt模型(第四章细讲模型算法)

MaxEnt模型,全称最大熵模型(Maximum Entropy Modeling),是一种在生态学和其他科学领域广泛使用的统计方法,用于估计物种的潜在地理分布(Phillips 等,2006)。该模型基于最大熵原理,通过优化预测分布的熵来构建模型,使得预测分布尽可能接近实际分布,同时满足所有已知约束。MaxEnt模型使用最大熵原理来预测物种分布,这一原理指出,在所有符合已知约束条件的概率分布中,熵最大的分布是最优的预测模型。熵是信息论中的一个概念,代表随机变量不确定性的度量。MaxEnt模型构建时,研究者会输入一系列关于物种出现地点的环境变量(如气候、土壤类型、地形等),这些环境变量作为特征来预测物种在地理空间上的分布。模型会尝试在满足这些实际观测数据的约束下,最大化输出分布的熵。MaxEnt模型广泛用于物种分布模型(Species Distribution Models, SDMs),尤其是在只有物种存在数据而没有物种缺失数据的情况下。模型不仅能预测物种的潜在分布区,还可以评估不同环境变量对物种分布的贡献。MaxEnt模型因其强大的预测能力和对不完全数据集的适应性,被广泛应用于生物多样性研究、入侵物种监测、自然保护区规划和气候变化对生物分布影响的研究等领域(补充引用...)。

1.3 存在问题

[!NOTE] 对全国尺度猛禽研究的空白

前人对夜行猛禽的研究主要关注于...,然而全国尺度的猛禽时空分布格局和影响因素研究仍然空缺。

[!NOTE] 研究方法的滞后

此外,前人的研究大多采用简单的统计学模型,拟合精度低,可解释性差,且局限于小尺度范围,缺乏系统性的研究和分析工作。

[!NOTE] 研究问题难点(对着模型优势写)

探究夜行猛禽的时空分布格局需要综合考虑多种环境因素,...

1.4 本文研究的价值和意义

[!NOTE]

本文使用Maxent方法,探究2000-2020年中国夜行猛禽的时空分布格局并分析影响其分布的决定性因素。Maxent方法相较于基于判别式模型的传统机器学习方法,使用生成式模型有效的弥合了数据谬误(包括观测记录获取有偏,数据记录失误和环境变量数据有误)对模型精度的影响;同时,Maxent概论分布有明确的数学定义,可解释性强;此外,模型可以机器学习方法常见的避免过拟合问题。本文的核心贡献包括以下几个方面:

  1. 本文基于2000-2020年中国夜行猛禽观测数据和气候数据,使用Maxent方法得出【因子】和其分布具有显著的相关性,具体表现为【...】
  2. 本文收集并制作了夜行猛禽分布数据集,得出2000-2020年空间分布情况并进行详细分析。
  3. 本文以夜行猛禽为例,对此物种的时空分布格局和影响因素进行详尽研究和分析,此实验路线具有良好的迁移性,可供日后其它物种的研究参考。
  4. 夜行猛禽的研究对揭示物种存在的生态和生物地理规律、加强生态系统管理和保护、保护生物多样性、抵御入侵物种和制定长期的生态和环境政策都具有重要意义。

参考文献

引用规范:浙江大学论文引用格式GitHub样式下载csl

Corsi F., Duprè E., Boitani L. A large-scale model of wolf distribution in Italy for conservation planning[J]. Conserv. Biol., 1999, 13: 150-159.

Peterson A. T., Shaw J. Lutzomyia vectors for cutaneous leishmaniasis in southern Brazil: ecological niche models, predicted geographic distribution, and climate change effects[J]. Int. J. Parasitol., 2003, 33: 919-931.

Peterson A. T., Cohoon K. P. Sensitivity of distributional prediction algorithms to geographic data completeness[J]. Ecol. Model., 1999, 117: 154-164.

Scott J. M., Heglund P. J., Morrison M. L., Haufler J. B., Raphael M. G., Wall W. A., Samson F. B. (Eds.). Predicting Species Occurrences: Issues of Accuracy and Scale[M]. Washington, DC: Island Press, 2002.

Welk E., Schubert K., Hoffmann M. H. Present and potential distribution of invasive mustard (Alliaria petiolata) in North America[J]. Divers. Distributions, 2002, 8: 219-233.

Yom-Tov Y., Kadmon R. Analysis of the distribution of insectivorous bats in Israel[J]. Divers. Distributions, 1998, 4: 63-70.

Phillips S J,Anderson R P,Schapire R E.Maximum entropy modeling of species geographic distributions[J].Ecological Modelling,2006,190(3):231–259.

de Candolle A. I. Géographique botanique raisonnée[M]. Paris: Masson, 1855.

von Humboldt A., Bonpland A. Essai sur la géographie des plantes[M]. Paris, 1807.

Rumelhart D. E., Hinton G. E., Williams R. J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533-536.

Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1): 5–32.

Cortes C, Vapnik V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273–297.

Rumelhart D. E., Hinton G. E., Williams R. J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533-536.