SÍNTESE DO MÉTODO
Apresentamos uma síntese do método desenvolvido e aplicado no MapBiomas Solo. Para obter mais detalhes metodológicos, acesse o ATBD (Documento Base da Teoria do Algoritmo) neste LINK
1. APRESENTAÇÃO
O MapBiomas Solo desenvolveu a primeira coleção beta de mapas anuais de estoques de carbono orgânico do solo (COS) no Brasil, abrangendo o período de 1985 a 2021. Esses mapas representam a quantidade de carbono presente na camada superficial do solo, que vai desde a superfície até uma profundidade de 30 centímetros. Essa camada é de extrema importância, pois é onde ocorre a maior interação entre as raízes das plantas, a decomposição da matéria orgânica e a formação do solo. Esses mapas foram criados utilizando dados do Repositório SoilData, juntamente com dezenas de covariáveis ambientais que representam os fatores de formação do solo brasileiro. A resolução espacial desses mapas é de 30 metros, e eles fornecem informações sobre os estoques de carbono orgânico do solo em toneladas por hectare (t/ha) para os primeiros 30 centímetros do solo.
A iniciativa do MapBiomas Solo tem como objetivo desvendar a evolução dos recursos do solo ao longo do tempo e do espaço, adotando uma abordagem científica aberta e colaborativa. Essa coleção beta representa a primeira aproximação de um modelo espaço-temporal do estoque de carbono orgânico do solo brasileiro, construído com base em dados abertos de solo e utilizando o conhecimento atualizado em mapeamento digital de solos. Os mapas podem ser acessados na plataforma do MapBiomas, disponível em https://plataforma.brasil.mapbiomas.org/. Nessa plataforma, é possível visualizar os estoques totais de carbono orgânico do solo em toneladas, assim como os estoques por unidade de área em toneladas por hectare, para diferentes recortes territoriais.
Essa iniciativa do MapBiomas Solo tem como objetivo fornecer informações valiosas sobre a dinâmica do carbono orgânico do solo no Brasil, auxiliando na compreensão dos processos e nas tomadas de decisão relacionadas à conservação e uso sustentável do solo. O solo é um ambiente dinâmico em constante transformação, e estamos em busca contínua de aprimoramento. Continuamos empenhados em melhorar nossas estimativas, expandir a base de dados no Repositório SoilData, avaliar os mapas com a colaboração de especialistas locais e incorporar novas variáveis ambientais. Nosso objetivo é obter resultados cada vez mais úteis e relevantes para a compreensão do solo.
2. MÉTODO
A coleção beta de mapas foi obtida por algoritmos de aprendizado de máquina que computam a relação entre dados pontuais de estoque de carbono orgânico do solo com coordenadas espaciais (latitude e longitude) e temporais (ano), juntamente com covariáveis ambientais que cobrem todo o território brasileiro. Essas covariáveis representam os fatores de formação do solo, como clima, organismos, relevo e material parental, e são obtidas de bancos de dados espaciais livres e abertos. Os dados de solo utilizados são provenientes de amostragem de solos em campo e estão disponíveis no https://soildata.mapbiomas.org/. Todos os procedimentos estão demonstrados no fluxograma da Figura 1 e detalhados nos itens a seguir.
2.1 Dados pontuais de solo
Mapear o estoque de carbono orgânico do solo ao longo do tempo e do espaço requer um extenso conjunto de dados pontuais sobre as propriedades do solo, como concentração de carbono orgânico, proporção de terra fina, densidade da terra fina e espessura da camada amostrada. É crucial contar com um conjunto padronizado de amostras de campo para esse propósito. Nesse contexto, o Repositório SoilData desempenha um papel fundamental como um repositório centralizado, projetado para armazenar e fornecer dados abertos sobre solos para a comunidade científica.
Atualmente, o SoilData abriga a maior coleção de dados pontuais disponíveis para o cálculo dos estoques de carbono orgânico no Brasil, além de outras informações sobre as propriedades do solo brasileiro. Você pode acessar os dados no seguinte link: soildata.mapbiomas.org. O repositório reúne informações de mais de 20 mil amostras de solo, provenientes de 247 conjuntos de dados. Esses dados são de suma importância para a geração e aprimoramento dos mapas gerados pelo MapBiomas Solo. Ao fornecer um conjunto abrangente de dados padronizados, o SoilData possibilita uma melhor compreensão das propriedades do solo, contribuindo para pesquisas e práticas mais eficientes e sustentáveis.
Dos dados disponíveis no Repositório SoilData, foram consideradas para o mapeamento apenas as amostras que possuem informações temporais (ano de coleta) e espaciais (latitude e longitude), o número de amostras resultantes está ilustrado na Figura 2. Essas amostras foram coletadas desde a década de 1960 até o presente. Embora haja um volume considerável de dados disponíveis para o mapeamento dos estoques de carbono no solo, sua distribuição espaço-temporal é heterogênea (Figura 2). A maioria dos dados provém de amostras de solo coletadas entre as décadas de 1970 e 1990, sendo que a maior parte delas é fruto do projeto RADAM, disponibilizado por instituições como a EMBRAPA, IBGE e universidades. É importante ressaltar que a distribuição das amostras por bioma também é heterogênea, destacando-se os biomas Amazônia e Mata Atlântica, que possuem o maior número de amostras, totalizando 4467 e 2890, respectivamente.
Figura 2: distribuição espacial e temporal das amostras de campo utilizadas no mapeamento dos estoques de carbono orgânico do solo. Todas as amostras foram padronizadas e estão prontas para serem reutilizadas no Repositório SoilData
2.2 Covariáveis ambientais
As covariáveis ambientais espacialmente explícitas são usadas para prever os estoques de carbono orgânico do solo em locais e momentos não amostrados. Essas covariáveis representam os fatores que influenciam a formação do solo, como controles da pedogênese, processos pedogenéticos e distribuição do solo na paisagem. Cada fator exerce um impacto específico sobre o solo através de uma variedade de processos físicos, químicos e biológicos que ocorrem simultaneamente ao longo do tempo.
Para incluir as covariáveis ambientais no modelo espaço-temporal, foram utilizados dados espacialmente explícitos de bancos de dados espaciais livres e abertos. Esses dados foram considerados como potenciais preditores do modelo. A inclusão das covariáveis no modelo preditivo foi feita gradualmente, a fim de avaliar sua influência nos mapas resultantes. No total, 43 covariáveis foram incluídas nesta coleção beta, selecionadas com base na plausibilidade de sua relação com a dinâmica espaço-temporal dos estoques de carbono.
As covariáveis ambientais foram utilizadas na modelagem levando em consideração a cobertura temporal dos dados. Elas podem ser estáticas, ou seja, sem referência temporal, ou dinâmicas, com dados anuais. Entre as variáveis estáticas estão as características morfométricas do relevo, classificação climática, bioma, fitofisionomias e mapas pré-existentes de propriedades do solo. A dinâmica temporal do carbono foi modelada com base nos dados de uso e cobertura da terra da coleção 7.1 do MapBiomas, que foram consideradas covariáveis dinâmicas.
Essa abordagem de incorporar covariáveis ambientais espacialmente explícitas no modelo ajuda a capturar a complexidade e a variabilidade dos fatores que influenciam os estoques de carbono orgânico do solo ao longo do tempo e do espaço. Isso permite uma melhor compreensão da dinâmica e das mudanças nos estoques de carbono, contribuindo para a tomada de decisões informadas em relação à gestão e conservação do solo.
Tabela 1. Conjunto de covariáveis estáticas e dinâmicas utilizadas na modelagem conforme o fator de formação do solo que elas representam.
Fator preditivo | Covariáveis | Tipo de variável | Dimensão temporal |
Solo (s) | Probabilidade de ocorrência de classes ou tipos de solo: rasos, arenosos , úmidos, húmicos, orgânicos e ricos em óxidos de Fe e Al, black soil. Fonte: WRB/ISRIC, 2015 | contínua | estática |
Propriedades do solo: conteúdo de argila, conteúdo de silte, conteúdo de areia, capacidade de troca de cátionspH em água , densidade do solo, conteúdo de carbono, nitrogênio total, fragmentos grossos. Fonte: SoilGrids 2.0. | contínua | estática | |
Carbono abaixo do solo, Carbono acima do solo, Madeira Morta, serrapilheira, carbona total. Fonte: Quarta Comunicação Nacional (QCN), 2020. | numérica | estática | |
Índices espectrais minerais: óxidos de ferro e argilominerais derivados de imagens Landsat | contínua | dinâmica | |
Clima (c) | Classificação climática de Koppen. Fonte : Alvares et al. (2013) | categórica nominal | estática |
Organismos (o) | Classificação da vegetação primária: Fitofisionomia. Fonte: IBGE, 2021 | categórica nominal | estática |
Classificação de cobertura e uso da terra. Fonte: MapBiomas, Coleção 7.1 | categórica nominal | dinâmica | |
Classificação territorial (bioma). Fonte: IBGE, 2021 | categórica nominal | estática | |
Índices de vegetação (NDVI, EVI e SAVI) derivados de imagens Landsat | contínua | dinâmica | |
Relevo (r) | Propriedades morfométricas do terrenoDeclividade, Índice Topográfico Composto, Rugosidade, Convergência, Curvatura do Perfil, Modelo Digital Elevação 30m , Índice de exposição a norte e a leste, índice de potência de fluxo. Fonte: Geomorpho 90m, 2020 | contínua | estática |
Idade (a) | Idade do tipo de cobertura e uso da terra. Fonte: MapBiomas, Coleção 7.1 | contínua | dinâmica |
Posição espacial (n) | Coordenadas geográficas (lat/long) | contínua | estática |
2.3 Modelo Preditivo
O método utilizado para prever o estoque de carbono orgânico do solo foi o Random Forest, que é uma técnica de regressão baseada em uma coleção de árvores de regressão randomizadas. Para ajustar o modelo, dois parâmetros principais foram definidos: o número de árvores de regressão a serem ajustadas (parâmetro ntree) e o número de covariáveis preditoras a serem utilizadas em cada árvore (parâmetro mtry). Esses parâmetros são considerados hiperparâmetros do modelo.
No caso destes mapas, o número de árvores de regressão (ntree) foi definido como 1/10 do número total de amostras disponíveis. O número de covariáveis selecionadas em cada divisão (mtry) foi definido como 1/3 do número total de covariáveis. O modelo foi treinado utilizando a função ee.Classifier.smileRandomForest disponível na plataforma Google Earth Engine (GEE), com a configuração de saída “Regression” para prever valores contínuos.
Para o treinamento do modelo, foram utilizados os dados de carbono orgânico do solo de todas as observações disponíveis, juntamente com o ano de coleta das amostras e as covariáveis ambientais. Esse conjunto de dados permitiu criar um único modelo preditivo. Em seguida, esse modelo foi utilizado para fazer predições espaciais e extrapolações temporais. Para realizar as predições espaciais, o modelo foi aplicado a cada ano de interesse (1985-2021), considerando as covariáveis ambientais relevantes para cada ocasião. Isso permitiu obter estimativas do estoque de carbono orgânico do solo ao longo do tempo e do espaço, proporcionando uma visão abrangente da dinâmica de COS.
2.4 Validação
A avaliação do modelo no MapBiomas Solo foi realizada de forma abrangente, utilizando técnicas de validação cruzada e validação cruzada espacial. Nesse processo, as amostras foram separadas aleatoriamente em 10 conjuntos, o que é conhecido como validação cruzada de 10 partições (10-fold cross-validation). Em cada iteração, um conjunto foi utilizado para validar o modelo, enquanto os outros nove conjuntos foram utilizados para treinar o modelo. Durante a validação cruzada, várias métricas de desempenho foram calculadas para avaliar a eficiência e a precisão do modelo. Algumas dessas métricas incluem: Erro Médio Absoluto (MAE), Erro Quadrático Médio (MSE), Raiz do Erro Quadrático Médio (RMSE) e Eficiência do Modelo (NSE). Essas métricas foram calculadas para cada bioma individualmente, permitindo avaliar o desempenho do modelo em diferentes regiões e condições ambientais.