土壤有机碳反演方案
本文最后更新于 2026年1月17日 晚上
基于遥感和人工智能方法的土壤有机碳时空演变分析研究
1. 研究目标
- 构建数据集:建立”星-地”一体化的SOC反演特征数据库
- 模型开发:比较并优选适用于该区域的AI反演模型(如RF, XGBoost)
- 时空制图:生成过去25年(2000-2025)表层(0-10 cm或0-30cm)SOC空间分布图(分辨率500m/1km)
- 归因分析:解析气候变化(降水、温度)与人类活动(放牧、开垦)对SOC变化的相对贡献
2. 数据来源
基于SCORPAN模型理论框架选取环境变量。数字土壤制图反映的是土壤的空间分布特征和规律,土壤的空间分布是土壤形成与发展过程的体现,因而,数字土壤制图的一个理论基础是土壤成土因子学说。该学说认为土壤是母质、气候、生物、地形和时间5个成土因素综合作用的产物。
表 1 SCORPAN特征分类体系
| SCORPAN | 适用变量 | 作用机制 |
|---|---|---|
| S(土壤) | ① 土壤 pH ② 土壤质地(黏粒/砂粒百分比) ③ 容重 |
土壤普遍呈弱碱性,适宜微生物活动,提高SOC稳定性;黏粒可保护有机质不被分解;容重反映过度放牧造成的压实、根系输入减少。研究中通常可解释SOC(20-30%)的差异。 |
| C(气候) | ① 年均降水量(MAP) ② 年均温度(MAT) ③ 土壤湿度/干旱指数 |
呈干旱梯度,降水是植被与微生物活动的主控因子;升温促进分解,增加SOC损失。气候因子在干旱区贡献较大。 |
| O(生物) | ① NDVI/EVI ② 地上生物量(AGB)或NPP ③ 土地利用(放牧强度) |
NDVI/EVI反映生产力与根系输入;耕地化或重度放牧可使SOC下降。植被因子对SOC影响尤为显著。 |
| R(地形) | ① 高程 ② 坡度 ③ 坡向 ④ 地形湿度指数(TWI) |
海拔影响区域气候;坡度陡峭区更易发生侵蚀导致SOC流失;TWI可反映积水和微地形湿度。 |
结合区域尺度建模对数据空间一致性、时间连续性和可获取性的要求选取数据集。数据源应完整覆盖成土因子,具备长期稳定、空间一致和多尺度适配等优势。
表 2 数字土壤制图通用数据源
| 数据类别 | 具体指标/变量 | 数据来源 | 作用 |
|---|---|---|---|
| 实测数据 | SOC含量 (g/100g) | ① 公共数据库 (WoSIS) ② 文献挖掘 (从近5年发表论文中提取) ③ 自有采样数据 |
作为AI模型的训练集和验证集 |
| 光学遥感 | 植被指数 (NDVI, EVI), 裸土指数 (BSI) | MODIS (MOD13Q1) 或 Landsat 8/9 | 表征地表植被生产力和裸露情况 |
| 气候数据 | 降水, 温度, 蒸散发, 土壤湿度 | ERA5-Land 或 TerraClimate | 关键的气候驱动因子 |
| 地形数据 | 高程, 坡度, 坡向, 地形湿度指数 | SRTM 或 NASA DEM | 影响水热再分配 |
| 微波遥感 | 后向散射系数 (VH/VV) | Sentinel-1 (SAR) | 补充光学遥感在云层覆盖下的缺失,反映土壤质地/水分 |
通过检索近十年关于土壤有机碳的文献,筛选出在区域尺度上被反复证明具有重要影响的特征因子。包括:放牧压力(以畜牧密度等指标表征)、植被生产力及其变化趋势(基于NDVI/EVI的多年时序指标)、干旱程度(如蒸散与降水的比值或干旱指数)等。这些变量可依托遥感产品或再分析气候资料进行量化,从而在模型训练时更准确地反映独特的生态过程与碳循环驱动机制,有助于提升区域SOC反演的适应性与预测精度,并增强模型对驱动机制的解释能力。
3. 技术路线与方法
3.1 数据与特征工程
- 数据标准化:收集WoSIS、文献中的剖面数据,进行统一的变量标准化(单位、深度标准化)。剔除异常剖面、统一土层厚度或按深度区间标准化SOC值。环境协变量标准化处理后进行栅格化。
- GEE处理:利用Google Earth Engine对MODIS/Landsat数据进行去云、镶嵌、裁剪。构建多时相指标(NDVI、BSI、band ratios、短波红外波段等)。
- 时空匹配:将地面采样点的经纬度和采样时间,与遥感影像像素进行时空匹配,提取对应的光谱和环境变量。
- 特征筛选:使用递归特征消除(RFE)或皮尔逊相关性分析,剔除冗余变量,保留对SOC解释度最高的因子(通常是降水、NDVI、DEM)。
3.2 AI模型构建与优选
设计多模型对比实验,选择最优反演策略:
- 基准模型:随机森林 (Random Forest, RF)。适合处理高维非线性数据,且能输出特征重要性。
- 进阶模型:XGBoost / LightGBM。在处理稀疏数据时表现优异。
- 深度学习:一维卷积神经网络 (1D-CNN)。输入光谱曲线特征,挖掘深层隐含关系。
- 验证方法:采用10折交叉验证 (10-fold CV),使用R2 (决定系数)、RMSE (均方根误差) 和 MAE (平均绝对误差) 评价精度。
3.3 时空演变分析
- 反演制图:将训练好的最佳模型应用到整个区域的长时序影像上。
- 趋势分析:计算Theil-Sen Median (森氏斜率)和Mann-Kendall (MK)趋势检验,判断SOC是显著增加、减少还是稳定。公式逻辑:如果Slope > 0 且 P < 0.05,则为显著增加。
- 变异系数:通过计算各区域SOC含量的变异系数(CV),量化其空间异质性程度。
3.4 驱动机制归因
- 地理探测器 (Geodetector):用于量化不同因子(如降水、放牧)对SOC空间分布的解释力(q值)及其交互作用。
- SHAP (SHapley Additive exPlanations) 值:用于解释AI模型,量化各因子(降水、温度、放牧强度等)对SOC的具体贡献度(正向或负向影响)。
- 结构方程模型(SEM):量化环境因子的相对作用强度及其潜在作用路径。
4. 可行性与预期难点分析
4.1 可行性
- 数据可获取:GEE平台免费提供了海量遥感数据;WoSIS等全球土壤数据库提供了基础的训练样本。
- 技术成熟:Python (Scikit-learn)和GEE API使得非计算机专业人员也能搭建机器学习流程。
4.2 潜在难点及解决方案
跨国界数据不一致
- 问题:草地管理政策不同,且采样数据密度不均。
- 方案:在训练样本中进行加权重采样,确保样本平衡。
纯净裸土光谱获取难
- 问题:植被覆盖遮挡了土壤光谱。
- 方案:利用早春/晚秋植被枯黄期的影像进行建模。
长时序传感器间差异
- 问题:多源影像数据质量。
- 方案:使用融合产品,例如Harmonized Landsat-Sentinel(HLS)。
5. 预期成果
- 一张地图:2000-2025年SOC时空分布数据集(GeoTIFF格式)
- 一份报告:揭示气候变化与人类活动(放牧、开垦)对碳库稳定性的影响
6. 时间节点
表 3 进度安排
| 编号 | 阶段 | 任务内容 | 第1月 | 第2月 | 第3月 | 第4月 | 第5月 |
|---|---|---|---|---|---|---|---|
| 1 | 数据准备 | 数据收集;数据清洗;遥感影像下载;预处理(云掩膜、大气校正) | ████████ | ████ | |||
| 2 | 特征工程 | 光谱指数、地形、气候;时间序列构建;特征筛选 | ████████ | ████ | |||
| 3 | 模型训练 | RF/XGBoost;训练与验证 | ████████ | ████ | |||
| 4 | SOC制图 | 生成SOC空间图 | ████████ | ||||
| 5 | 变化分析 | 多时相差值、趋势显著性检验 | ████ | ||||
| 6 | 驱动归因 | SHAP/特征贡献;气候/土地利用影响 | ████ | ||||
| 7 | 成果整理 | 图件、产品、报告撰写 | ████████ |
土壤有机碳反演方案
https://bingoodog.github.io/links/soil-organic-carbon-inversion-plan.html