4 Observation des surfaces continentales par télédétection

January 8, 2018 | Author: Anonymous | Category: Ingénierie, Informatique, Data Mining
Share Embed Donate


Short Description

Download 4 Observation des surfaces continentales par télédétection...

Description

4 Cartographie de l’occupation des sols à partir d’images optiques Jordi Inglada

CESBIO, 18 av. Edouard Belin, bpi 2801, 31401 Toulouse cedex 9, France

4.1. Introduction Ce chapitre traite dela production de cartes d’occupation des sols à partir d’imagerie optique. Après une introduction au sujet, les différents types de données utilisées sont présentés. Les types d’imagerie sont décrits en termes de leurs résolutions spatiale, spectrale et temporelle. Outre les données de référence que la cartographie d’occupation du sol requiert pour l’étalonnage des méthodes, les approches de traitement qui permettent de transformer les pixels des images en information cartographique puis l’étape incontournable de leur validation thématique et spatiale sont explicitées. Au cœur de ce chapitre, se placent les méthodes d’extraction de primitives et les algorithmes de classification les plus fréquents. Quelques exemples d’application sont illustrés par les cartes d’occupation des sols qui en ont été produites.

4.1.1.La cartographie par imagerie de télédétection La production de cartes a été, de longue date, l‘objectif premier des techniques de télédétection, dès ses débuts photographiques par des moyens aéroportés, ce qui

4

Observation des surfaces continentales par télédétection : Agriculture et Forêt

sollicitait l’interprétation visuelle des photographies aériennes par des cartographes aguerris [GIR 10]. L’avènement des satellites d’observation de la Terre, avec leur revisite systématique et leur couverture de grandes surfaces, a permis d’envisager la production systématique d’images interprétées, voire la production opérationnelle de cartes. Il convient de commencer par définir ce qu’est une carte. L’objectif d’une carte est de permettre une compréhension synthétique et pertinente d’un espace géographique. La carte constitue ainsi une représentation concise (donc simplifiée), tout autant qu’efficace (contenant les éléments essentiels et en respectant les règles de sémiologie graphique) de la nature physique, politique ou sociale de l’espace choisi. L’imagerie de télédétection permet d’appréhender des objets physiques, biologiques et morphologiques qui résultent de facteurs physiques tout autant qu’humains. Ces objets sont appréhendés par l’analyse de l’occupation des sols qui désigne la couverture physique (y compris dans ses aspects biologiques, notamment la végétation) de la surface des terres émergées, décrite aussi en termes de types d’usages des terres par les sociétés humaines. On parlera aussi de paysage, à travers lequel on visera à identifier et caractériser des types homogènes de milieux. On visera ainsi à distinguer les zones artificialisées (bâti, infrastructures), les zones agricoles, les forêts, les landes, les zones humides, etc. A la différence des cartes topographiques, qui servent à se repérer dans l’espace, tout en délivrant certaines de ces informations sur les usages des sols, l’enjeu principal des cartes d’occupation des sols est de délimiter, d’inventorier et de comprendre les évolutions et les tendances des typologies de zones au cours du temps (le changement de forêt en zone artificialisée, par exemple) afin d’en expliquer les déterminismes et d’en prévoir le devenir. Les cartes d’occupation des sols constituent donc un outil essentiel pour l’aménagement du territoire ou l’analyse du changement climatique. Elles sont aussi utilisées en entrée de modèles décrivant les processus environnementaux (hydrologie, climat, cycles de l’eau et du carbone).

4.1.2.Occupation et utilisation des sols Le terme "occupation des sols" englobe souvent 2 aspects différents: l’occupation proprement dite c’est-à-dire la présence d’objets physiques ou biologiques identifiés et l’utilisation des sols, c’est-à-dire les usages et les fonctions de ces objets. D’un côté, dans certaines applications, on s’intéresse à la vue physionomique du terrain. On parle alors d’occupation des sols (land cover en anglais). On vise ici à distinguer les éléments qui forment la structure du paysage sans essayer d’en

Cartographie de l’occupation des sols à partir d’images optiques

identifier la fonction. Dans ce cas, par exemple, une zone agricole ne sera pas identifiée comme telle, mais plutôt en tant que végétation herbacée ou sol nu dépendant de son état au moment de la production de la carte. De l’autre, il est souvent nécessaire d’adopter un point de vue anthropique sur le paysage, afin de prendre en compte la fonction ou le type d’usage qui est fait de l’espace. On parle alors d’utilisation des sols (land use en anglais). Dans ces cas, même si la couverture physique est la même, on souhaitera distinguer par exemple une zone industrielle d’une zone commerciale, ou un terrain de sport d’une prairie. Cette distinction, qui est très importante du point de vue de l’utilisateur des cartes, n’a pas beaucoup d’incidence sur les méthodologies employées pour leur production. Nous la laisserons donc de côté dans la suite du chapitre.

4.1.3. Les nomenclatures La légende d’une carte d’occupation des sols est la liste des catégories cartographiées (classes thématiques). La légende est spécifique à une échelle de restitution cartographique au format papier (rapport entre une distance sur la carte et la distance réelle sur le terrain): la classe « bâtiment » ne peut apparaître qu’à des échelles très fines (c’est-à-dire grandes, telles que 1/10000), mais la classe « zone urbaine » a moins de sens à ces mêmes échelles. Les objets du paysage peuvent donc être regroupés selon des classes différentes en fonction de l’application, de l’échelle, de l’emprise géographique de la carte, des données (imagerie) utilisées pour la produire mais aussi du thématicien producteur de la carte, de son champ d’expertise, du budget et du temps alloués pour collecter des références de terrain ou encore des utilisateurs ou du commanditaire de la carte [LEG 96]. Cependant, la réalité physique est indépendante de la carte et elle peut être organisée en une nomenclature ou classification. Ainsi, tandis que la légende de la carte est déterminée par l’échelle et le type de donnée utilisée,la nomenclature est indépendante de l’échelle et des ressources utilisées pour produire la carte. La plupart des nomenclatures sont hiérarchiques, ce qui leur permet d’être thématiquement exhaustives, comme d’en dériver des légendes spécifiques de façon cohérente. Ces hiérarchies de classes peuvent être constituées a priori ou a posteriori. On parle de nomenclature a priori quand on part de concepts abstraits que l’on détaille au fur et à mesure que l’on descend dans la hiérarchie des classes. Dans le cas a posteriori, on part de classes concrètes que l’on regroupe de façon ascendante. Le tableau 4.Error! Reference source not found. présente un exemple de nomenclature hiérarchique. A partir de cette nomenclature, on peut définir une légende pour une carte en choisissant le niveau de détail souhaité pour chaque branche de la hiérarchie. Par exemple, on pourrait choisir une hiérarchie simplifiée pour des applications forestières (Tableau 4.2).

4

Observation des surfaces continentales par télédétection : Agriculture et Forêt

Niveau dans la hiérarchie 1

2

3

4

5

6

Végétation

Terrestre

Agricole

Annuelle

Hiver

Blé, Orge Colza

Eté

Maïs Tournesol Riz

Mixte

Autres céréales Autres oléagineux Protéagineux Semences Légumineuses Fourrage Légumes fleurs

Semi naturel Naturel

Pluriannuelle

Gel Prairies temporaires Canne à sucre

Pérenne

herbacée ligneuse

Prairies Vergers Vignes Fruits à coque Oliviers Autre arboriculture

Caducs

Hêtre Chêne caduc Autres feuillus

Persistants

Résineux

Estives landes Forêts

Feuillus Mixtes Ligneux bas Pelouses Aquatique Non végétation

terrestre

Naturelle

Surfaces Minérales Artificielle Bâti Routes

Aquatique Eau

7

Cours d’eau Eau libre

Neige Glace

Tableau 4.1.Exemple de nomenclature hiérarchique.

Pin sylvestre Autres pins Sapin pectine Autres résineux Chêne persistant

Cartographie de l’occupation des sols à partir d’images optiques

Végétation

Terrestre Agricole Semi naturel Naturel Forêts

Caducs

Hêtre Chêne caduc Autres feuillus

Persistants

Résineux

Pin sylvestre Autres pins Sapin pectine Autres résineux

Feuillus

Chêne persistant

Mixtes Ligneux bas Pelouses Aquatique Non végétation

Tableau 4.2.Exemple de hiérarchie de classes simplifiée.

Cette hiérarchie peut ensuite être aplatie pour élaborer la légende de la carte en choisissant le niveau le plus détaillé pour chaque branche de la nomenclature: 1. non forêt 2. hêtre 3. chêne caduc 4. autres feuillus 5. pin sylvestre 6. autres pins 7. sapin pectiné 8. autres résineux 9. chêne persistant 10. forêts mixtes Un des problèmes fréquemment rencontrés par les utilisateurs de cartes d’occupation des sols est l’impossibilité de comparer facilement des cartes utilisant des nomenclatures différentes. Afin d’améliorer cette situation, des nomenclatures standardisées ont été proposées. En Europe, la nomenclature Corine Land-Cover a été conçue en 1985. Elle propose une nomenclature hiérarchisée en 3 niveaux (5

4

Observation des surfaces continentales par télédétection : Agriculture et Forêt

classes, 15 classes et 44 classes) pour des cartographies au 1/100 000e construites à partir de données satellitaires et selon un seuil surfacique minimal de 15 ou 25 hectares selon les thèmes. Une autre initiative de ce type est le système LCCS (Land Cover Classification System) proposé par la FAO (l’organisation des Nations unies pour l’agriculture et l’alimentation). Il s’agit d’un système qui permet de construire des nomenclatures hiérarchiques qui peuvent être spécifiques à une application, tout en restant comparables à certains niveaux de détails. 4.1.4. Détection de changements d’occupation des sols L’imagerie satellitaire, combinée à des techniques de traitements de données, permet de produire rapidement des cartes d’occupation des sols. Grâce à la revisite fréquente des satellites, ces cartes peuvent être produites de façon fréquente afin de permettre l’étude des évolutions des surfaces observées. Le fait de disposer des cartes représentant des états précédents, facilite la production de nouvelles cartes. On peut ainsi travailler de façon incrémentale, analyser les différences et même faire des prévisions sur les évolutions à venir. Ces approches s’appuient sur des techniques spécifiques.

4.2. Les données en entrée Nous présentons dans cette section les types de jeux de données d’imagerie de télédétection qui peuvent être utilisés pour la production de cartes d’occupation des sols. La disponibilité d’un type de donnée ou d’un autre dépend de plusieurs facteurs: – économique : certains types d’images ont un coût financier élevé ; –

du problème à traiter : certains des phénomènes à cartographier nécessitent des données particulières ;



technologiques : le traitement de certains types de données requiert des moyens de calcul importants (grosses séries temporelles couvrant de grandes surfaces) ;



compétences : certaines modalités d’imagerie sous-tendent des connaissances pointues en physique de la mesure, ainsi que des connaissances thématiques de chacun des milieux cartographiés (urbains, agricoles, forestiers, aquatiques).

Au-delà des images, des données de référence seront nécessaires. On appelle donnée de référence la connaissance de l’occupation du sol sur un point du territoire

Cartographie de l’occupation des sols à partir d’images optiques

à un instant donné. On utilise souvent le terme vérité terrain, qui est facile à comprendre, mais qui est inapproprié, car la donnée dite « de référence » est parfois obtenue sans aller sur le terrain, et elle peut ne pas être vraie (elle peut contenir des erreurs ou des biais). La donnée de référence est nécessaire, a minima, pour évaluer la qualité de la carte produite. Elle est souvent utilisée pour étalonner les méthodes de production automatique. 4.2.1. Types d’imagerie En fonction des besoins de cartographie, le choix des images à utiliser peut varier. Nous présentons ici 3 scénarios pour illustrer ces choix.

4.2.1.1. Mono-date Une image satellitaire optique à très haute résolution spatiale (THRS) de type Pléiades HR ou SPOT6 peut parfois suffire à réaliser une cartographie précise pour certains besoins. En effet, l’imagerie optique offrant des résolutions spatiales proches du mètre, voire inférieures, donne accès à la reconnaissance des principales structures du paysage (routes, bâtiments, cours d’eau, etc.). Pour des raisons de disponibilité de la donnée, l’approche mono-date a été la plus fréquemment utilisée. La disponibilité d’au moins une bande spectrale dans le proche infrarouge (PIR) permet aussi de détecter la végétation de façon relativement robuste à la date de prise de vue, mais cette unique date est insuffisante pour caractériser la végétation susceptible de se développer à une date ultérieure, dans la zone étudiée. Ce type d’imagerie peut donc être utile pour la cartographie des infrastructures, l’étalement urbain, les morphologies urbaines, que caractérisent principalement leur forme et leur agencement relatif. Dès lors, une seule image couvrant la zone d’intérêt suffit. La figure 4.Error! Reference source not found. montre un extrait d’une image à très haute résolution spatiale (environ 50 cm par pixel, résultat de la fusion de la bande panchromatique échantillonnée à 50 cm et des bandes multispectrales échantillonnées à 2 m). Dans le domaine aéroporté, des données hypespectrales avec des dizaines de bandes spectrales dans les domaines du visible, infrarouge et thermique sont aussi fréquemment utilisées.

4

Observation des surfaces continentales par télédétection : Agriculture et Forêt

Figure4.1.Extrait d’une image Pléiades HR sur le quartier de Rangueil à Toulouse (France), latitude 43.5699°N, longitude 1.4551°E, affichage en couleurs naturelles RVB.

4.2.1.2. Multi-temporel A la différence des infrastructures et de la plupart des zones anthropisées, les milieux cultivés et les milieux dits « naturels » sont souvent caractérisés par leur comportement temporel régulier. La végétation naturelle a des cycles réguliers le long des saisons. Dans le cas des zones agricoles, des ruptures de ce comportement (successions de cultures, opérations culturales) viennent s’y superposer. Pour aller au-delà de la distinction végétation - non végétation, l’imagerie à une seule date ne suffit pas. On rentre ici dans le domaine du multi-temporel, qui va de l’utilisation de 2 acquisitions par an (par exemple une image d’été et une image d’hiver pour distinguer les forêts de persistants des forêts de caducs), jusqu’aux techniques qu’on commence à appeler hyper-temporelles, où l’on se rapproche d’une fréquence d’acquisition de l’ordre de la journée. Des systèmes d’observation comme SPOT Végétation (résolution d’1km pour une couverture globale chaque jour) ou MODIS (résolution de 250m à 1km avec aussi une revisite journalière) ont été utilisés avec succès pour réaliser des cartographies à des échelles continentales voire globales. Cependant, leur faible résolution spatiale ne permet pas la production de cartes suffisamment détaillées que

Cartographie de l’occupation des sols à partir d’images optiques

ce soit en finesse spatiale ou thématique, même si des approches de désagrégation de pixels mixtes ont été proposées [BEN 08]. Les systèmes comme LANDSAT et tout récemment SENTINEL-2 offrent des revisites de l’ordre de quelques jours, mais avec des résolutions décamétriques, ce qui est un très bon compromis pour mettre en évidence des comportements temporels tout en ayant accès à des détails du paysage. Si la résolution spatiale de ces données n’est guère appropriée pour la cartographie des réseaux routiers fins ou pour la caractérisation des morphologies urbaines, ces données sont en revanche très utiles pour la cartographie des écosystèmes (zones humides, etc.), des types de cultures au niveau des parcelles agricoles ou des essences forestières avec des niveaux élevés de détail thématique. La figure 4.Error! Reference source not found. montre une série temporelle d’images acquises par le satellite taïwanais Formosat-2 (revisite théorique de 2 jours sur la zone imagée, résolution de 8 m et 4 bandes spectrales dans le visible et le proche infrarouge). Avec ce type de données, on peut observer de façon précise l’évolution du paysage agricole et donc distinguer différents types de cultures grâce à leur phénologie et les pratiques agricoles qui y sont liées. On observe par exemple l’émergence des cultures d’hiver à partir du mois de janvier et surtout en février : ce sont les champs en rouge, car l’affichage utilise une composition couleur de type RVB=(vert, rouge, proche infrarouge).

2005-11-16

2005-11-20

2005-11-28

2005-12-04

2005-12-08

2005-12-12

4

Observation des surfaces continentales par télédétection : Agriculture et Forêt

2005-12-16

2005-12-29

2006-01-10

2006-01-18

2006-01-22

2006-02-16

Figure 4.2. Extrait d’une image Pléiades HR sur le quartier de Rangueil à Toulouse (France), latitude 43.5699°N, longitude 1.4551°E, affichage en couleurs naturelles RVB.

4.2.1.3. Multi-modalités Dans certaines applications, les types d’occupation des sols à cartographier sont difficiles à caractériser avec un seul type d’imagerie. Par exemple, en plus de la revisite temporelle présentée dans la section précédente, il peut être utile d’avoir de la THRS pour lever les ambiguïtés sur certains types d’objets. Un autre exemple est celui des classes qui ne peuvent être distinguées qu’avec une revisite temporelle très fine qui ne peut être atteinte qu’avec des capteurs de moyenne ou basse résolution spatiale (distinction blé/orge), mais cette faible résolution spatiale ne permet pas de réaliser des cartographies au niveau de la parcelle. Dans ces cas, la cartographie peut être réalisée en utilisant de façon conjointe plusieurs modalités d’imagerie, par exemple couplage optique/radar pour discriminer les opérations culturales en sols nus agricoles [VAU 14]. A l’heure actuelle, ces utilisations sont rares et souvent très spécialisées sur des problématiques scientifiques particulières. Pour le lecteur intéressé, il sera utile de consulter les travaux de thèse de Florence Laporterie sur la fusion d’images de résolutions différentes [LAP 02] et

Cartographie de l’occupation des sols à partir d’images optiques

d’Amandine Robin sur la classification et la détection de changements en utilisant conjointement des images à haute résolution spatiale et à haute fréquence temporelle [ROB 07]. 4.2.2. Données de référence pour l’étalonnage et la validation Pour que les cartes d’occupation des sols puissent être diffusées à des utilisateurs, il faut en connaître la qualité. Cette qualité doit être quantifiée à l’aide d’indicateurs standardisés et acceptés par les utilisateurs (cf. §4.Error! Reference source not found.). Il est pour cela nécessaire de disposer de données de référence dont la qualité a été vérifiée. Ces données correspondent par exemple à des endroits précis pour lesquels on connaît la classe d’occupation des sols au moment de l’acquisition des images utilisées pour produire la carte d’occupation des sols. Ce type de données est indispensable, non seulement en sortie de traitement, pourcalculer des indicateurs statistiques de validité des résultats de traitements, mais aussi en entrée pour ajuster le modèle d’interprétation ou de calibration, ou d’étalonnage, de l’algorithme de traitement. En effet, la plupart d’algorithmes de classification ont de paramètres qui doivent être choisis judicieusement et ce choix est souvent fait par apprentissage automatique. On utilise donc des données de référence pour réaliser cet apprentissage. Dans ce cas, il est important de séparer les données de référence en deux ensembles disjoints : l’ensemble d’apprentissage et l’ensemble de validation. Ceci est nécessaire afin d’éliminer tout biais statistique dans la validation. Le ratio entre la quantité d’échantillons pour la validation et ceux pour l’apprentissage est souvent de moitié, mais si les données sont limitées, on peut utiliser plus d’échantillons pour l’apprentissage afin d’obtenir de meilleurs résultats. Si l’origine des données de référence peut être diverse, il faut néanmoins que leur précision soit supérieure à celle visée par la carte. Dans le cas contraire, il n’est pas possible de produire une validation fiable. Dans le meilleur des cas, il est préférable de recourir à des campagnes d’observation sur le terrain pour constituer ces bases de données de référence, utiles non seulement à l’étalonnage, mais aussi à la validation. Sur de vastes surfaces, les relevés de terrain assortis de leur position géographique précise doivent être réalisés au plus proche de la prise de vue et mobilisent plusieurs personnes [VAU 14b]. Le dispositif d’échantillonnage des relevés terrain doit être raisonné au mieux afin de disposer d’observations spatialement et thématiquement représentatives. Du fait de ces contraintes budgétaires, logistiques, et de stratégie d’échantillonnage, le recours à des données d’observation de terrain n’est hélas pas toujours mis en œuvre.Les données de référence reposent alors parfois uniquement sur la photo-interprétation. Cette procédure repose sur une interprétation visuelle

4

Observation des surfaces continentales par télédétection : Agriculture et Forêt

d’images (éventuellement assistée de certaines techniques algorithmiques). On préfère cette approche dans les cas où les campagnes terrain sont coûteuses, voire impossibles. Cependant, la photo-interprétation, sauf dans des cas particuliers, aboutit à des données de référence qui peuvent contenir des erreurs d’étiquetage des échantillons. En revanche, la photo-interprétation permet de couvrir des zones beaucoup plus vastes que les déplacements sur le terrain. Enfin, dans certains cas, l’identification de certaines classes par photo-interprétation, telles que les cultures annuelles, est tout simplement impossible. Au-delà de l’utilisation de ces données de référence pour la validation des cartes produites, on peut les utiliser pour l’étalonnage des algorithmes de production des cartes eux-mêmes. En fonction du choix de la méthode de classification (cf. §4.3.3) le besoin de données de référence pour l’apprentissage sera plus ou moins important. Il est donc primordial d’anticiper ces besoins lors de l’organisation des campagnes terrain. La stratégie et le protocole d’échantillonnage (nombre d’échantillons ; dispositif d’échantillonnage) sont une étape clé anticipant l’apprentissage et la validation, mais ces questions ne peuvent pas être abordées ici [GIR 10]. 4.3. Les approches de production de cartes d’occupation des sols Dans cette partie, différentes étapes qui constituent une chaîne de production de cartes d’occupation des sols sont développées. Avant d’aborder les algorithmes de traitement, nous présentons les techniques de validation des cartes.

4.3.1.La validation des cartes 4.3.1.1. Les 4 étapes de la validation La façon de valider des cartes d’occupation des sols a beaucoup évolué depuis les années 1980 pour aboutir à un ensemble de pratiques acceptées actuellement par la communauté des télédétecteurs. Les premières cartes d’occupation des sols étaient souvent validées de façon qualitative et visuelle, du fait qu’il n’y avait pas d’utilisations opérationnelles associées, mais aussi dû au fait qu’elles avaient des nomenclatures simplifiées et des résolutions spatiales très grossières. A partir du moment où la résolution et les nomenclatures se sont affinées, il a fallu mettre en place des critères quantitatifs. Dans les années 1980, il était difficile d’accéder à des données de validation spatialisées et l’on s’appuyait surtout sur des statistiques agrégées au niveau de grands territoires. La seule validation quantitative applicable alors était la

Cartographie de l’occupation des sols à partir d’images optiques

comparaison des pourcentages des surfaces couverts par chaque classe. Il n’y avait donc pas de validation au niveau des pixels des cartes. Quand les données de validation spatialisées ont été disponibles plus facilement et que l’importance de la validation spatialisée a été comprise par les utilisateurs, on a commencé à utiliser des pourcentages de pixels bien classés, soit toutes classes confondues, soit par classe d’occupation des sols. A l’heure actuelle, il est courant d’aller plus loin dans la validation et d’analyser aussi quelles sont les confusions les plus fréquentes entre les classes d’occupation. Pour ce faire, on utilise la matrice de confusion et des indices dérivés de celle-ci.

4.3.1.2. La matrice de confusion et les indices dérivés En classification, on appelle matrice de confusion ou tableau de contingence un tableau à 2 entrées, où les lignes représentent les vraies classes des échantillons de référence et les colonnes représentent les classes attribuées dans la carte pour ces mêmes échantillons. Ainsi, la case correspondant à la ligne i et à la colonne j contientle nombre d’échantillons de la classe i qui sont classés comme appartenant à la classe j dans la carte. Par exemple, dans la matrice de confusion illustrée en Tableau 4.3, 25 pixels de bâti sont correctement classés et il y en a 10 qui sont incorrectement classés comme étant des sols nus.

Bâti Forêt Eau Pelouses Sols nus Précision

Bâti 25 2 4 2 9 0.59

Forêt 1 50 2 8 4 0.76

Eau 4 3 47 3 5 0.75

Pelouses 5 10 0 33 5 0.62

Sols nus 10 2 3 3 38 0.67

Rappel 0.55 0.74 0.83 0.67 0.62

Tableau 4.3.Exemple d’une matrice de confusion.

A partir de la matrice de confusion, il est utile de calculer des mesures de performance qui en font un résumé. La mesure la plus fréquente est la précision globale (OA pour OverallAccuracy en anglais) qui correspond à la somme de la diagonale divisée par la somme totale:

4

Observation des surfaces continentales par télédétection : Agriculture et Forêt

r

∑ nii

OA =

[4.1]

i=1 r r

∑ ∑ nij

i=1j=1

oùr représente le nombre de classes, nij est le nombre de pixels. Il existe aussi des mesures qui sont calculées par classe d’occupation des sols. La plus fréquente est la précision utilisateur (UA, user’saccuracy), qui correspond à la fraction des pixels classés dans une classe et qui y appartiennent vraiment: r n ii [4.2] UAi = ∑ j=1 nij et la précision du producteur (PA, producer’saccuracy) ou rappel qui correspond à la fraction des pixels de référence d’une classe qui sont correctement classés dans l’image: r n ii [4.3] PAi = ∑ j=1 nji L’information donnée par ces 2 métriques est complémentaire et permet de détecter des sur-classements ou des sous-classements. Ces métriques peuvent aussi être calculées globalement en faisant la moyenne sur toutes les classes: PA =

1 r ∑ PA r i=1 i

[4.4]

UA =

1 r ∑ UA r i=1 i

[4.5]

On utilise aussi souvent le FScore, qui correspond à la moyenne harmonique entre les 2 métriques précédentes: FScore =

2 × UA × PA UA + PA

[4.6]

Il est difficile de donner une interprétation générale des valeurs numériques de ces indices, mais en général, on vise des précisions globales supérieures à 80% et des valeurs de FScore global supérieures à 0.75. Au niveau des classes individuelles, on accepte souvent que certaines classes minoritaires soint classées avec moins de précision, mais il s’agit ici d’un choix de l’utilisateur qui dépend du contexte applicatif.

Cartographie de l’occupation des sols à partir d’images optiques

4.3.1.3. Validation par pixel ou par objet Habituellement, les cartes d’occupation des sols sont validées en calculant des métriques sur des pixels. Ainsi, les métriques présentées dans la section précédente, sont basées sur une matrice de confusion issue d’un comptage de pixels. Pour l’imagerie à très haute résolution spatiale (THRS)et pour certaines nomenclatures d’occupation du sol (celles qui contiennent des objets composites, par exemple), il peut être plus adapté d’utiliser des métriques spécifiques. En effet, à ces résolutions fines, il peut exister des décalages géométriques entre la donnée de référence utilisée pour la validation et l’imagerie utilisée pour le traitement. Ces décalages sont souvent dus à des objets qui ont une élévation par rapport au sol (effet de parallaxe). C’est aussi le cas pour les objets qui sont simplifiés dans la donnée de référence (les routes représentées par leur axe central). Plusieurs stratégies existent pour prendre en compte la présence d’objets dans les images: 1. Au lieu de réaliser un échantillonnage aléatoire des pixels de référence disponibles pour la validation, l’échantillonnage peut être fait en prenant en compte la taille surfacique des objets, de façon à ce que la matrice de confusion soit représentative de la scène cartographiée. 2. On peut aussi utiliser des métriques basées sur des comparaisons de forme et des distances d’ensemble, comme ls distances de Haussdorf ou de Fréchet. 3. Enfin, on peut utiliser des mesures spécifiques à la comparaison de segmentations, comme les métriques de Hoover [HOO 96]. Cependant, à l’heure actuelle, il n’existe pas d’approche communément acceptée dans la communauté pour la validation basée sur les objets, au même titre que les approches pixel.

4.3.2. Extraction de primitives Nous nous intéressons ici à la transformation des données de type image en information pertinente pour les algorithmes de classification. Les algorithmes de classification permettent d’attribuer une classe d’occupation des sols à chaque objet (pixel ou région) présent sur la zone étudiée. Nous pourrions donner à ces algorithmes tout simplement les valeurs des pixels (ou des suites des valeurs dans le cas de séries temporelles d’images). Cependant, cette approche se montre peu efficace dès lors que les classes d’occupation des sols à distinguer sont complexes ou très similaires entre elles. Il est donc souvent nécessaire de transformer la donnée image brute de façon à faciliter le travail de l’algorithme de classification. Cette transformation est appelée extraction de primitives.

4

Observation des surfaces continentales par télédétection : Agriculture et Forêt

En fonction du type de donnée image disponible et de la nomenclature de classes visées, différents types de primitives pourront être extraites.

4.3.2.1. Indices radiométriques Les indices radiométriques (ou néo-canaux) sont des grandeurs calculées à partir de combinaisons des valeurs des différents canaux pour un même objet (pixel ou région). Dans le cas de l’imagerie optique, les réflectances dans les différentes bandes spectrales (bleu, vert, rouge, proche infrarouge, etc.) sont utilisées. Le calcul d’indices radiométriques requiert donc au préalable la correction atmosphérique des images i.e. le passage des valeurs brutes de comptes numériques à des valeurs de réflectance de surface. Ceci peut se faire au moyen de modèles de transfert radiatif (tels que MODTRAN, ATCOR) ou bien de mesures de réflectance au sol synchrones de la prise de vue. Ces indices radiométriques servent à mettre en évidence des propriétés particulières des surfaces observées. Par exemple, dans le cas de l’imagerie optique multispectrale, la présence de végétation peut être mise en évidence en utilisant les bandes rouge et proche infrarouge, car la végétation a des valeurs élevées de réflectance dans le PIR et faibles dans le rouge. Ainsi, des indices de végétation comme le NDVI (NormalisedDifferenceVegetation Index) ont été proposés: NDVI =

PIR − R PIR + R

[4.7]

Où PIR, réflectance dans le proche infra-rouge ; R, réflectance dans le rouge. L’indice de NDVI est proche de 1 pour des surfaces fortement végétalisées alors qu’il est proche de 0, voire négatif, pour des surfaces sans végétation. On comprend donc que si l’objectif est de différencier les surfaces végétalisées du reste, le travail de l’algorithme de classification sera plus simple si l’information en entrée est exprimée en valeurs de NDVI que si elle l’est en valeurs de réflectance dans les différentes bandes spectrales. La littérature propose un grand nombre d’indices de végétation (chapitre Baret, Tome2)qui utilisent d’autres combinaisons de bandes spectrales pour corriger certaines limitations du NDVI (phénomène de saturation lié à la normalisation) ou pour prendre en compte l’information contenue dans d’autres bandes spectrales [FER 09]. Au-delà des indices de végétation, d’autres combinaisons de bandes spectrales permettent de mettre en évidence d’autres types de surfaces. Il existe ainsi des indices pour l’eau, les sols nus, le bâti, etc.

Cartographie de l’occupation des sols à partir d’images optiques

4.3.2.2. Statistiques locales Le indices présentés dans le paragraphe précédent sont calculés pour chaque pixel de l’image ou éventuellement en réalisant la moyenne au sein d’une région dans le cas des approches dites objet. Ils ne nous renseignent donc pas sur l’organisation spatiale de l’information dans l’image. Souvent, pour distinguer certains types d’occupation des sols, la valeur individuelle des pixels ou la moyenne au sein d’une région ne suffisent pas. Par exemple, pour distinguer une végétation homogène (pelouse) d’une végétation hétérogène (friche, lande), une information sur la variabilité spatiale est nécessaire. Une façon simple de mettre en évidence cette variabilité est de calculer la variance des valeurs autour de chaque pixel de l’image. En général, les moments statistiques jusqu’à l’ordre 4 (moyenne, variance, asymétrie et kurtosis) peuvent être utiles. Par exemple, pour une grandeur x (réflectance dans une bande spectrale, NDVI, etc.) le moment d’ordre p dans un voisinage (fenêtre) de taille N×M pixels peut être calculé comme ceci: μp =

N M 1 ∑ ∑ (x(i,j) − μ1 )p N × M i=1j=1

[4.8]

etμ est tout simplement la moyenne dans la fenêtre. 1 Ces moments statistiques donnent un premier niveau d’information concernant l’organisation spatiale dans les images. Pour une description plus fine de cette organisation spatiale, des coefficients de texture peuvent être aussi calculés (voir pages 183-190 de [TUP 14]).

4.3.2.3. Primitives temporelles Certaines classes d’occupation des sols ne peuvent être distinguées qu’à partir de leur dynamique temporelle. C’est notamment le cas des différents types de végétation : forêts de persistants par rapport à forêts caducifoliées, cultures d’été par rapport aux cultures d’hiver, etc. Dans ces cas simples, un choix judicieux des dates d’observation (une image en hiver et une image en été, par exemple) peut suffire à séparer les classes. Souvent, on s’intéresse à des distinctions plus subtiles, comme par exemple le maïs et le tournesol (2 cultures d’été en France) ou le hêtre et le chêne caduc. Dans ces cas, un choix a priori des dates d’observation est difficile et on préfère travailler avec des séries temporelles d’images à haute résolution temporelle. La description d’un pixel n’est plus alors donnée par le NDVI en été et en hiver, mais plutôt par la série de valeurs de NDVI pour chaque acquisition disponible, une fois par mois en moyenne.

4

Observation des surfaces continentales par télédétection : Agriculture et Forêt

De la même façon que pour les indices radiométriques, on passe d’une représentation de bas niveau (vecteur de réflectances) à une représentation plus proche du niveau d’abstraction souhaité pour l’interprétation (contenu de végétation, présence d’eau), l’information temporelle peut aussi être résumée par des primitives pertinentes. La première approche à laquelle on peut penser est celle de l’extraction de statistiques: pour un pixel pour lequel on dispose d’une série temporelle, on peut calculer la moyenne de la série ainsi que les moments statistiques d’ordre supérieur. On peut aussi calculer d’autres descripteurs typiques des séries temporelles dans d’autres domaines du traitement du signal (coefficients de Fourier, transformée en ondelettes, etc.) [HLA 05]. Ces techniques sont de portée très générale et peuvent être utiles, mais dans le cas de la télédétection pour l’observation de la Terre, nous disposons de connaissances a priori sur le comportement des surfaces qui nous permettent de développer des indices spécifiques. Par exemple, nous savons que les surfaces ayant une dynamique importante et régulière correspondent à la végétation. Dans ce cas, nous pouvons nous concentrer sur la description de la séquence temporelle des valeurs d’un indice de végétation et décrire ce profil temporel à un niveau de représentation approprié. Il est ainsi habituel de décrire la végétation par quelques paramètres fondamentaux qui peuvent être dérivés d’un profil temporel de NDVI: la date de démarrage du cycle (émergence pour une culture semée, débourrage pour la forêt), la vitesse de croissance, la date de maturité, la durée de la maturité, la date de sénescence, la vitesse de sénescence et la date de récolte (pour les cultures). Une façon habituelle de modéliser le cycle annuel de la végétation est d’utiliser une fonction double sigmoïde: (x) = A(f1 (x) − f2 (x)) + B = A(

1 1+

ex0 −x x1



1 1+

ex2 −x

)+B

[4.9]

x3

dont la représentation graphique est donnée sur la figure 4.Error! Reference source not found. pour des valeurs x0=75, x1=7, x2=250, x3=10, A=0.95 et B=0.1. L’interprétation de ces paramètres est la suivante :        

x1 et x3 sont respectivement les pentes montante et descendante x0 et x2 sont les dates des pentes maximales A est l’amplitude du profil B est sa valeur minimum t0 est la date d’émergence ou de démarrage de la végétation t1 est la date de maturité de la végétation t2 est le début de la sénescence t3 est la date de fin de sénescence

Cartographie de l’occupation des sols à partir d’images optiques

A partir des paramètres de la double sigmoïde, il est facile d’estimer les dates pertinentes. Par exemple, la date de démarrage (t0), peut être obtenue en calculant la pente montante, puis son intersection avec la valeur minimale du profil: t0 =

mx0 − g(x0 ) g(x0 ) = x0 − ' m g (x0 )

[4.10]

De façon analogue, on peut obtenir la date de maturité: t1 =

A + B − (g(x0 ) − g ' (x0 )x0 ) g ' (x0 )

[4.11]

Les autres dates clés s’obtiennent de façon analogue. La seule difficulté réside dans l’estimation des paramètres de la double sigmoïde à partir de la série temporelle d’indice de végétation. Ce problème peut être résolu en utilisant des bibliothèques numériques pour l’ajustement de fonctions paramétriques par optimisation.

Figure 4.3. Modélisation du cycle végétatif par une double sigmoïde. Evolution d’un indice de végétation générique (NDVI par exemple) en fonction du jour de l’année.

4.3.2.4. Données exogènes Nous avons vu dans les paragraphes précédents comment transformer la donnée image en information pertinente pour la mise en évidence des caractéristiques des différentes surfaces observées. L’objectif de cette étape de transformation était de rendre plus simple la tâche des algorithmes de production de cartes d’occupation des sols.

4

Observation des surfaces continentales par télédétection : Agriculture et Forêt

Toujours dans cet objectif, on peut utiliser toute information disponible en dehors des images et qui pourrait être susceptible de contribuer à la séparation des classes d’occupation des sols. On sait par exemple que l’altitude ou l’exposition au soleil d’une surface a une incidence sur le type de végétation qui peut s’y développer. Ces mêmes paramètres sont corrélés à la présence d’habitations ou de routes. Le type de sol joue aussi un rôle important en termes de types de végétation (profondeur du sol, réserve en eau utile pour la végétation, richesse en éléments minéraux, etc). Le climat local est aussi déterminant pour la présence de certaines classes d’occupation des sols. Si ces informations sont disponibles de façon spatialisée, c’est-à-dire sous forme de cartes, elles peuvent être utilisées comme primitives au même titre que les indices calculés à partir des images. Il est donc fréquent d’utiliser des modèles numériques de terrain (MNT) pour calculer l’altitude, la pente et l’exposition de chaque pixel. Le MNT est une donnée disponible presque sur tout point du globe grâce à des missions spatiales comme SRTM ou ASTER. Les cartes pédologiques donnant des informations sur le type de sol sont moins facilement disponibles et donc moins souvent utilisées. Les informations climatiques (des synthèses saisonnières ou annuelles de température, rayonnement, pluviométrie, dérivées de données météorologiques) sont plus ou moins facilement disponibles en fonction de l’échelle cartographique visée. Au-delà de ces informations sur des grandeurs physiques, il est possible d’utiliser d’autres informations fournies par des systèmes d’informations géographiques. On peut classer dans cette catégorie des informations comme la distance à une route ou à une zone d’habitations (pour, selon le cas, distinguer entre végétation naturelle et parcelle agricole), la distance à des surfaces en eau (pour évaluer la probabilité qu’une zone agricole soit irriguée), la densité de population, etc.

4.3.2.5. Sélection de primitives Parmi l’ensemble de primitives qu’il est possible de calculer, toutes ne sont pas utiles et certaines redondantes. Un grand nombre de primitives pour la production d’une carte d’occupation des sols peut être problématique à 2 titres. D’abord, le temps de calcul peut être important pour la production de ces primitives, mais aussi ensuite, dans la procédure de fabrication des cartes où de grands volumes de données devront être utilisés. Le deuxième problème peut se présenter dans l’utilisation de certains algorithmes de classification de données dont la qualité peut baisser de façon notable quand les échantillons à classer sont caractérisés par un grand nombre d’attributs.Il est donc utile de bien sélectionner les primitives à fournir à l’algorithme de classification. La difficulté réside alors dans l’obtention de l’ensemble minimal de primitives à même de conserver un maximum d’informations

Cartographie de l’occupation des sols à partir d’images optiques

pertinentes. Plusieurs approches pour la sélection de primitives sont pour cela envisageables. La première approche consiste à produire plusieurs cartes d’occupation des sols avec différents sous-ensembles de primitives puis en comparer les métriques de validation (§4.3.1). Le problème de cette approche est son coût souvent rédhibitoire. En effet, une recherche exhaustive de toutes les combinaisons de primitives peut être impossible à mettre en œuvre. Il faut donc approcher le problème différemment. Une autre façon de déterminer la pertinence d’une primitive est de regarder son degré de corrélation avec les classes d’occupation des sols. On peut, par exemple, analyser la variance d’une primitive en regroupant les échantillons par classes. Par exemple, si la variance du NDVI calculée sur un ensemble quelconque de pixels est plus élevée que la variance calculée par classe, les pixels de végétation peuvent être utilisés sans être mélangés aux pixels de non-végétation. De façon plus formelle, on peut utiliser le rapport de corrélation: η2 (I|J) =

Var(I) − Var(E[I|J]) Var(I)

[4.12]

qui indique comment la variance d’une primitive Var(I) diminue quand on limite le calcul aux échantillons de la classe J, Var(E[I|J]). En faisant ce calcul pour toutes les classes, on peut utiliser le rapport de corrélation moyen pour identifier les primitives qui apportent le plus d’information: ce sont celles pour lesquelles le rapport de corrélation est le plus élevé. Parmi les primitives les plus pertinentes, certaines peuvent s’avérer redondantes. Par exemple, les indices de végétation sont souvent très pertinents, mais 2 indices de végétation différents fournissent des informations trèsproches. La redondance entre les primitives peut être mesurée au moyen d’un coefficient de corrélation ou de toute autre mesure de dépendance statistique. Une limite des approches de sélection uni-variées (appliquées à chaque primitive individuellement) est qu’elles ne prennent pas en compte l’utilité des combinaisons de plusieurs primitives. En effet, 2 primitives prises isolément peuvent être peu utiles, mais leur utilisation conjointe peut être très performante. Dans ces cas, des techniques basées sur l’analyse en composantes principales [LEB 06] peuvent être intéressantes. Enfin, des techniques très sophistiquées basées sur l’ajout progressif ou la soustraction séquentielle de primitives existent, mais elles sont très spécialisées et ne peuvent être traitées dans cet ouvrage. Pour plus de détails, le lecteur peut consulter [DRE 08], pages 55 à 67.

4

Observation des surfaces continentales par télédétection : Agriculture et Forêt

4.3.3. Méthodes de classification Le cœur du processus de production de cartes d’occupation des sols est l’étape de classification. Cette étape consiste à attribuer à chaque pixel ou région de l’image la classe d’occupation des sols pertinente. Cette attribution est une fonction de  décision F qui utilise le vecteur de primitives  pour inférer la classe C:  F : C

[4.13]

Toute la difficulté de la procédure réside dans la construction de la fonction F qui permet d’obtenir une faible erreur de classification au sens des métriques présentées dans la section 4.Error! Reference source not found.. Si dans certains cas extrêmement simples les classifieurs peuvent être construits de façon experte, la plupart des problèmes nécessitent des méthodes automatiques qui réalisent un apprentissage sur les données. Les rares cas où l’algorithme de classification peut être construit manuellement sont rencontrés lorsque les classes à cartographier sont peu nombreuses et facilement séparables. Dans ces cas, on peut construire des arbres de décision simples ou des petits ensembles de règles opérant sur des seuillages de primitives. Par exemple: –

si le NDVI moyen du mois d’avril est inférieur à 0.3, il s’agit d’une culture d’été ;



sinon, si le NDVI moyen des mois de février et juillet est supérieur à 0.6, alors, c’est une forêt ;



etc.

On comprend aisément que ce type d’approche sera long et fastidieux à mettre en œuvre pour un nombre de classes supérieur à 4 ou 5. Il sera aussi très difficile de déterminer les valeurs des seuils de façon fiable. Dans la pratique, même pour des cas relativement simples, on se tourne vers des méthodes d’apprentissage automatique. Une description détaillée de la théorie de l’apprentissage automatique pour la classification n’est pas envisageable dans ce chapitre. Le lecteur pourra consulter des ouvrages spécialisés comme [COM 10] et [AMI 15] pour un traitement approfondi de ce sujet. Un traitement plus synthétique dans le cadre du traitement d’images de télédétection est proposé dans le chapitre 5 de [TUP 14]. Nous nous limiterons ici à détailler les grands principes permettant de guider le choix des approches. Les méthodes de classification sont divisées en deux grandes familles, les méthodes assistées ou « supervisées » (anglicisme dérivé de l’anglais « supervised ») et celles non assistées ou« non supervisées » (« unsupervised »).

Cartographie de l’occupation des sols à partir d’images optiques

Nous appellerons individus les pixels ou les régions à classer. Ces individus sont caractérisés par des vecteurs de primitives. Les méthodes non supervisées, aussi appelées méthodes de clustering, travaillent sur les valeurs des primitives de façon à regrouper les individus par similarité. Les groupes ainsi obtenus forment les clusters. Une fois que ces clusters sont obtenus, la donnée de référence peut être utilisée pour les classer (leur attribuer une sémantique). On obtient ainsi les classes. Dans le cas où il y a plus de clusters que de classes d’occupation des sols, on regroupe les clusters pour lesquels il n’y a pas de donnée de référence avec les clusters classés les plus proches. La différence entre les diverses méthodes de classification non supervisées réside dans le type de mesure de similarité utilisée pour regrouper les individus, mais aussi dans des contraintes supplémentaires que l’on ajoute pour éviter certains regroupements. Ainsi, dans l’algorithme des k-moyennes (« k-means »), la similarité entre les individus est mesurée à l’aide de la distance euclidienne sur le vecteur de primitives Θ avec la contrainte additionnelle de minimiser la variance des individus au sein d’un cluster tout en maximisant la distance entre le centre des clusters. Il existe aussi des méthodes statistiques qui utilisent les densités de probabilité, comme l’algorithme EM(« Expectation Maximisation », anglais pour maximisation de l’espérance mathématique [COM 10]). Ce type de méthode est très facile à mettre en œuvre. Cependant, il n’y a aucune garantie sur le fait que les clusters obtenus correspondent aux groupes thématiques recherchés. En effet, certains regroupements d’individus peuvent contenir plusieurs groupes thématiques, ou un même groupe peut être représenté par plusieurs clusters. Si ce dernier point ne pose pas de problème majeur, le premier ne peut pas être corrigé de façon sûre. On peut toujours appliquer l’algorithme en recherchant un nombre croissant de clusters, mais la séparation des classes au terme de cette recherche n’est pas garantie. Une façon de s’assurer que tous les groupes thématiques d’occupation des sols sont pris en compte par l’algorithme de classification, est d’utiliser la connaissance sur l’appartenance de chaque individu à une classe donnée pendant l’apprentissage. C’est ce qui est fait dans les méthodes supervisées. Dans ce type de méthodes, on cherche directement à construire la fonction de décision qui sépare au mieux les individus en fonction de leur classe d’appartenance. Ce sont donc des méthodes plus performantes que les méthodes non supervisées, mais elles ont besoin de plus de données de référence et nécessitent davantage de maîtrise thématique (connaissance et observation des sites de référence) et technique (géoréférencement des sites, construction des noyaux d’apprentissage). En effet, dans le cas des méthodes non supervisées, il suffit de quelques échantillons de référence pour étiqueter les clusters (utilisation a posteriori de la donnée de référence). Dans les méthodes supervisées, tous les échantillons utilisés pour l’apprentissage doivent être étiquetés.

4

Observation des surfaces continentales par télédétection : Agriculture et Forêt

Parmi les algorithmes de classification supervisée les plus utilisés pour la production de cartes d’occupation des sols, on peut répertorier les forêts d’arbres aléatoires (RandomForests (RF)) [GEN 10], les séparateurs à vaste marge ou machines à support de vecteur (SVM ou Support Vector Machines) [LOU 08], [CHA 11] ou les réseaux de neurones de type perceptron multi-couches[COM 10] et les approches par maximum de vraisemblance [CHA 11]. Le choix entre une approche supervisée ou non supervisée est souvent déterminé par la quantité et la qualité des données de référence disponibles. Si celles-ci sont rares et de qualité faible (haute probabilité que les individus soient mal étiquetés), on choisira des méthodes non supervisées. Si les données de référence sont de bonne qualité mais en faible quantité, on choisira des approches de type SVM. Ces méthodes sont aussi très robustes quand le nombre de primitives utilisées est élevé. Si nous disposons d’une grande quantité de données de référence, mais qu’elles contiennent un niveau de bruit élevé, les méthodes de type RF sont souvent plus performantes. Les réseaux de neurones ont souvent besoin d’une quantité très élevée de données d’apprentissage, ce qui en limite leur application en télédétection. Les méthodes par maximum de vraisemblance, très utilisées avant l’apparition des SVM et les RF, sont toujours appliquées quand le nombre de primitives est réduit. Depuis quelques années, on voit apparaître l’utilisation de méthodes semisupervisées qui combinent les 2 familles d’approches et qui sont utilisables dans les cas où les données de référence sont peu disponibles [VAN 09]. Même si l’on peut donner des recommandations générales sur le choix des méthodes en fonction du type de données disponibles, on préférera comparer plusieurs approches pour un même problème avant de faire un choix définitif. Enfin, il est toujours possible d’utiliser plusieurs méthodes de classification et d’en combiner les résultats. L’approche la plus simple consiste à appliquer une règle de vote majoritaire: la classe attribuée à chaque individu sera celle qui a été produite par la majorité des classifieurs utilisés. D’autres approches de fusion plus sophistiquées prenant en compte les performances individuelles de chaque classifieur peuvent être utilisées [BLO 94], [MOR 13]. Un autre post-traitement souvent utilisé après la classification est la régularisation spatiale. Il s’agit d’appliquer des règles de cohérence spatiale pour réduire le nombre de pixels mal classés. Une version simple de ce traitement consiste à remplacer la classe des pixels isolés (appartenant à une classe non représentée dans leur voisinage proche) par la classe majoritaire dans leur voisinage. Des techniques plus complexes prenant en compte les corrélations spatiales entre les classes ou les formes des objets peuvent aussi être utilisées.

Cartographie de l’occupation des sols à partir d’images optiques

4.3.4. Détection de changements L’un des avantages principaux de la télédétection spatiale par rapport à d’autres approches pour la cartographie est la possibilité de répéter les observations de façon fréquente avec le même point de vue. Ceci permet donc la réalisation de cartes d’occupation des sols à des intervalles réguliers donnant ainsi une profondeur temporelle très utile pour beaucoup d’applications. Dans le cas des cartes d’occupation des sols, des comparaisons entre cartes produites avec des données acquises àdes périodes différentes permettent d’analyser les changements d’occupation des sols. Ainsi, dans le cas de l’étude de l’étalement urbain, on pourra comparer la couche bâti ou route entre 2 cartes produites à 2 ou 3 ans d’intervalle. Dans le cas de l’enfrichement des anciennes terres agricoles, des cartes séparées de5 ou 10 ans seront utiles. Dans certains territoires ou pour certaines classes d’occupation des sols, des fréquences plus élevées peuvent être nécessaires (catastrophes naturelles, pays à forte croissance démographique). Dans la plupart des cas, en plus de l’écart temporel entre 2 cartes, la date de référence par rapport à laquelle on compare les changements est aussi très importante. Il paraît donc qu’une production de cartes d’occupation des sols avec une fréquence annuelle peut être utile à la plupart des applications. L’approche habituelle pour le suivi des changements d’occupation des sols est celle de la comparaison post-classification (CPC). Cette approche consiste à cartographier les classes de changement. Ainsi, le résultat est une carte dont la nomenclature représente les transitions entre les classes à l’instant t et celles à l’instant t+1: agricole vers urbain, forêt vers agricole, etc. 4.4. Exemples d’application Dans cette partie sont présentés des exemples de cartes d’occupation des sols produites par classification d’images satellitaires. 4.4.1. Cartographie générique de l’occupation des sols Par cartographie générique, nous entendons celle qui utilise une nomenclature qui n’est pas spécifique à une application particulière. Ce type de cartes convient à beaucoup d’usages où le besoin réside dans la connaissance de l’étendue et la localisation des grandes familles d’occupation des sols. Les différents types de cartes d’OS générique se distinguent principalement par la résolution spatiale (dont le choix détermine la taille des objets qu’il est envisageable de détecter) et l’étendue de la zone cartographiée. Souvent, il faut trouver un compromis entre ces 2 caractéristiques. Nous donnons ici 2 exemples qui montrent ces compromis.

4

Observation des surfaces continentales par télédétection : Agriculture et Forêt

4.4.1.1. Mono-date à haute résolution Cet exemple illustre l’utilisation d’une image Pléiades HR multi-spectrale(2.80 m de résolution échantillonnée à 2 m, et 4 bandes spectrales visible et proche infrarouge). L’imagerie à haute résolution est nécessaire pour distinguer des objets fins comme les routes et les haies (arborées ou arbustives). En revanche, comme expliqué dans la section 4., il est difficile et coûteux d’obtenir plusieurs images sur la même zone à des dates différentes pour mettre en évidence le comportement temporel des surfaces. Dans ce cas, il est donc difficile de distinguer les forêts d’arbres caducs de celles d’arbres au feuillage persistant. De même, il n’est pas possible de caractériser les surfaces agricoles de façon précise au niveau de la classe de culture, car elles sont caractérisées par une succession de couverts végétatifs et sols nus. Afin d’obtenir différentes classes de végétation, les primitives de texture (similaires aux statistiques locales présentées plus haut) sont très pertinentes sur de l’imagerie HR. En complément des primitives spectrales, elles permettent de distinguer végétation herbacée, arbustive et arborée. La figure 4.Error! Reference source not found. illustre le type de résultat que l’on peut obtenir avec ce type d’approche. On remarque la finesse de la détection des éléments du paysage. Le FScore moyen pour cette carte est de 0.77.

Cartographie de l’occupation des sols à partir d’images optiques

Figure 4.4. Occupation des sols générique à partir d’imagerie mono-date HR. Illustration extraite de [GRE 14] sur la zone de Tarbes (France), latitude 43.2218°N, longitude 0.1197°E.

4.4.1.2. Multi-date à moyenne résolution Certaines classes de végétation peuvent être distinguées grâce à leur comportement temporel. Pour cela, il faut utiliser des séries d’images couvrant au moins une période de 12 mois de façon à observer un cycle végétatif complet. Les satellites offrant une revisite temporelle systématique ont des résolutions spatiales décamétriques. Cette approche est illustrée ici en utilisant des images LANDSAT acquises de janvier à décembre 2010 avec une revisite d’environ 16 jours. La revisite systématique permet aussi d’avoir des images sur des grandes étendues. L’exemple choisi ici couvre tout le massif des Pyrénées (France) et son piémont sur une surface de 500 km × 200 km. La nomenclature choisie ici (Figure 4.Error! Reference source not found.) reflète la dynamique temporelle, car elle distingue cultures d’été, d’hiver et ligneuses (permanentes), les prairies et 2 types de forêt. Ces dernières sont classées en fonction de leur phénologie et non pas en fonction du type de feuille comme c’était le cas de l’exemple mono-date précédent. En revanche, en raison de la faible résolution spatiale (30 m), les éléments fins du paysage (routes, haies, etc.) sont absents de la carte. La précision globale de cet exemple est de 0.75. L’arrivée de nouveaux satellites, comme par exemple la famille des Sentinelles de l’Agence spatiale européenne, tel que SENTINEL-2, avec des résolutions spatiales de 10 met des revisites temporelles de 5 jours, devrait permettre d’aller plus loin dans la qualité et le détail des cartes produites. Enfin, il faut noter qu’il est envisageable de combiner l’approche mono-date à haute résolution spatiale et l’approche multi-temporelle afin de produire des cartes

4

Observation des surfaces continentales par télédétection : Agriculture et Forêt

plus détaillées. Ceci nécessite cependant un travail délicat de mise en cohérence des données (notamment la superposition géométrique).

Figure 4.5.Carte d’occupation des sols produite à partir d’une année d’acquisitions LANDSAT sur la zone des Pyrénées. (France), latitude 43.2732°N, longitude 0.5246°E.

4.4.2. Cartographie détaillée des cultures agricoles Les deux exemples ci-dessus ont illustré la cartographie générique de l’occupation des sols. Pour certaines applications, des cartes avec une nomenclature très détaillée pour certaines familles de classes d’occupation des sols sont nécessaires, tandis que beaucoup d’autres classes de la nomenclature générique peuvent être ignorées. Afin d’illustrer ce cas d’utilisation, nous choisissons ici la cartographie des surfaces agricoles. Dans ce cas, toutes les surfaces non agricoles peuvent être regroupées, mais à l’intérieur des surfaces agricoles, on souhaite connaître le type exact de culture pour chaque parcelle. Plus précisément, l’objectif est de produire une cartographie des cultures annuelles principales dans la zone (blé, orge, colza, maïs et tournesol). Pour arriver à ce degré de finesse (dans l’exemple précédent ces 5 classes étaient regroupées en 2), il faut: –

une haute résolution spatiale pour bien distinguer chaque parcelle agricole ;



une haute résolution temporelle pour bien caractériser les périodes de croissance, maturité et sénescence de chaque culture.

Cependant, cela ne suffit souvent pas, car des cultures comme le blé d’hiver et l’orge d’hiver sont très similaires à tous les niveaux. Dans ce cas, il faut introduire de l’information a priori dans le processus de classification, en vérifiant que les variétés considérées sont séparables morphologiquement sur le terrain. Une culture implantée une année sur une parcelle est en principe choisie en fonction des cultures

Cartographie de l’occupation des sols à partir d’images optiques

implantées les années précédentes (rotation des cultures). Si cette connaissance est disponible, elle peut être utilisée comme primitive en entrée du classifieur. La figure 4.Error! Reference source not found. montre une carte de cultures obtenue à partir de données Formosat[OSM 15]. La carte a été produite en utilisant une année d’acquisitions Formosat-2 (2012, 8 m de résolution et 4 bandes spectrales dans le visible et le proche infrarouge). Les primitives utilisées pour la classification sont des indices spectraux pour chaque date ainsi que des informations sur les cultures présentes sur chaque parcelle les 3 années précédentes. La précision globale de la carte est de 85%.

Figure 4.6. Carte des cultures annuelles en 2012 produite à partir d’une année d’acquisitions Formosat-2 sur un site couvrant 400 km² au sud-ouest de Toulouse (France), latitude 43.4509°N, longitude 1.1501°N. Le blé est en jaune, le maïs est en rouge, l’orge est en vert, le colza est en violet et le tournesol est en marron. Les zones blanches correspondent à des surfaces non agricoles.

Ce qu’il faut retenir Les cartes d’occupation des sols sont nécessaires à diverses fins qui vont de l’aménagement du territoire jusqu’à leur utilisation dans des modèles

4

Observation des surfaces continentales par télédétection : Agriculture et Forêt

décrivant les processus environnementaux (cycle de l’eau, climat). La légende de la carte d’occupation des sols (choix des classes) doit être adaptée à l’application thématique visée. Pour atteindre une bonne qualité, la carte d’occupation des sols est produite à partir de données d’imagerie appropriées en termes de résolutions spatiale, spectrale et temporelle. Diverses méthodes d’apprentissage automatique permettent aujourd’hui de produire cette carte. Elles requièrent des données de référence pour être étalonnées et validées. La disponibilité, la qualité et la représentativité thématique et spatiale des données de référence ne doivent pas être négligées pour ce faire. Les nouvelles missions à hautes résolutions spatiale, temporelle et spectrale comme SENTINEL-2 devraient permettre d’atteindre des niveaux de qualité inédits jusqu’à maintenant. La combinaison de ces données de façon ponctuelle avec de l’imagerie à très haute résolution spatiale est susceptible de permettre d‘affiner certains thèmes de la carte (urbain dense, haies, petits cours d’eau).

Bibliographie [AMI 15] AMINI M.R.,«Apprentissage machine. De la théorie à la pratique. Concepts fondamentaux en Machine Learning», Eyrolles, 272 p., 2015. [BEN 08] BENHADJ I., «Observation spatiale de l’irrigation d’agrosystèmes semi-arides et Gestion durable de la ressource en eau en plaine de Marrakech», PhD thesis, Université de Toulouse III - Paul Sabatier, 2008. [BLO 94] BLOCH I., MAITRE H., «Fusion de données en traitement d’images : modèles d’information et décisions»,Traitement du signal, 11(6), 435–446, 1994. [CHA 11] CHARRIER C.,«Modélisation statistique et classification par apprentissage pour la qualité des images»,Habilitation à diriger des recherches, Université de Caen, 2011. [COR 10] CORNUEJOLS C., MICLET L.,«Apprentissage artificiel. Concepts et algorithmes», Eyrolles, ISBN: 978-2-212-12471-2, 830 p., 2010. [DRE 08]DREYFUS G., MARTINEZ J.M., SAMUELIDES M., GORDON M.B., BADRAN F., THIRIA S.,«Apprentissage statistique. Réseaux de neurones - Cartes topologiques - Machines à vecteurs supports», Eyrolles, 448 p., 2008. [FER 09] FERET J.B., «Apport de la modélisation pour l’estimation de la teneur en pigments foliaires par télédétection»,PhD thesis, Université Pierre et Marie Curie, Paris, 2009. [GEN 10]GENUER R.,«Forêts aléatoires: aspects théoriques, sélection de variables et applications»,PhD thesis, Université Paris Sud - Paris XI, 2010. [GRE 14] GRESSIN A.,«Mise à jour d’une base de données d’occupation du sol à grande échelle en milieux naturels à partir d’une image satellite THR»,PhD thesis, Université René Descartes - Paris V, 2014.

Cartographie de l’occupation des sols à partir d’images optiques

[HLA 05] Hlawatsch F., Auger F., Editors. «Temps-fréquence: concepts et outils»,Hermès Paris, 2005. [HOO 96] Hoover A., Jean-Baptiste G., Jiang X., Flynn P. J.,Bunke H., Goldgof D.B., ..., Fisher R.B., «An experimental comparison of range image segmentation algorithms»,IEEE Transactions on Pattern Analysis and Machine Intelligence, 18(7), p. 673-689, 1996. [LAP 02] LAPORTERIE F., «Représentations hierarchiques d’images avec des pyramides morphologiques»,PhD thesis, Université de Toulouse III - Paul Sabatier, 2002. [LEB 06] LEBART L., PIRON M., MORINEAU A.,«Statistique exploratoire multidimensionnelle. Visualisation et inférence en fouille de données», Sciences Sup.,Dunod, 480 p., 2006. [LOU 08] LOUSTAU S.,«Performances statistiques de méthodes à noyaux»,PhD thesis, Université de Provence - Aix-Marseille I, 2008. [MOR 13] MORVANT E.,«Apprentissage de vote de majorité pour la classification supervisée et l’adaptation de domaine: approches PAC-Bayésiennes et combinaison de similarités»,PhD thesis, Aix-Marseille Université, 2013. [OSM 15] OSMAN J.,«Connaissances expertes et modélisation pour l’exploitation d’images d’observation de la Terre à haute résolution spatiale, spectrale et temporelle»,PhD thesis, Université de Toulouse III - Paul Sabatier, 2015. [POU 10] POULAIN V.,«Fusion d’images optique et radar à haute résolution pour la mise à jour de bases de données cartographiques», PhD thesis, Université de Toulouse - INPT, 2010. [ROB 07] ROBIN A.,«Détection de changements et classification sous-pixeliques en imagerie satellitaire: Application au suivi temporel des surfaces continentales»,PhD thesis, Université Paris 5 Descartes, 2007. [TUP 14] TUPIN F., NICOLAS J.M., INGLADA J., Editors,«Imagerie de télédétection»,Traité IC2, série Signal et Image, Editions Lavoisier, Paris, 369 p., 2014. [VAN 09] VANDEWALLE V.,«Estimation et sélection en classification semi-supervisée», PhD thesis, Université des Sciences et Technologie de Lille - Lille I, 2009. [GIR 10] GIRARD M.C., GIRARD C.M.,«Traitement des données de télédétection»,Dunod, 573 p., 2010. [LEG 96] LEGROS J.P., «Cartographie des sols : de l'analyse spatiale à la gestion des territoires», Lausanne : Presses polytechniques et universitaires romandes, 1996. [VAU 14a] VAUDOUR E., BAGHDADI N., GILLIOT J.M.,«Mapping tillage operations over a peri-urban region using combined SPOT4 and ASAR/ENVISAT images»,International Journal of Applied Earth Observation and Geoinformation, 28(1), p. 43-59, 2014. [VAU 14b] VAUDOUR E., NOIROT-COSSON P.E., MEMBRIVE O.,«Apport des images satellitaires de très haute résolution spatiale Pléiades à la caractérisation des cultures et des opérations culturales en début de saison»,Revue française de photogrammétrie et de télédétection, 208, p. 97-103, 2014.

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF