RAPPORT DE STAGE
TRAITEMENT AUTOMATIQUE D’IMAGES
SATELLITES POUR L’EXTRACTION
D’INFORMATION D’OCCUPATION DES
SOLS
Encadrement : Jacques BOUFFIER et Dominique HEBRARD
Le pôle Applications Satellitaires et Télécommunication,
Centre d’Etudes Techniques de l’Equipement du Sud-Ouest,
Toulouse, France.
Réalisé par : NGUYEN Quoc Phuong
Promotion 16, Institut de la Francophonie pour l’Informatique,
Hanoi, Vietnam.
01 Mars 2014
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
Page 2 sur 75
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
REMERCIEMENTS
Les travaux présentés dans ce manuscrit ont été effectués au Centre d’Etude Technique et de
l’Equipement du Sud-Ouest, Département de Délégation Aménagement, Laboratoire, Expertise et de
Transport de Toulouse (CETE SO/DALETT) – Pôle « Applications Satellitaires et Télécommunication ».
Je tiens d’abord à remercier M. Didier TREINSOUTROT, directeur de CETE SO/DALETT, pour m’avoir
accueilli au CETE SO/DALETT. Je remercie ensuite Anita BRUNET, le secrétaire de la direction, pour
son aide qui m’a permis de bien compléter les papiers administratifs.
Je tiens à exprimer ma sincère reconnaissance à M. Jacques BOUFFIER, mon premier superviseur de
stage, pour m’avoir encadré tout au long de mes travaux, pour sa patience, pour sa compréhension,
pour ses conseils et pour toutes les heures qu’il m’a consacré. Mes remerciements vont également à
M. Dominique HEBRARD, mon deuxième superviseur de stage, pour sa formation, pour sa
contribution et pour son engagement qui m’a permis de surmonter les difficultés rencontrées
pendant 6 mois.
Je remercie également les stagiaires Martin VALETTE, Morgan VALOGNES pour ses aides qui m’ont
permis de prendre en main les outils, les bases de données exogènes, la chaîne de traitement
automatique qu’ils ont développé dans ses stages, pour leurs réponses à mes questions et particulier
pour leurs amitiés que j’ai eu pendant la période de stage.
Je n’oublie pas de remercie la famille de Denis-Maryline MARIOTTO pour m’avoir accompagné tous
les six mois à Toulouse, pour m’a appris le francais et pour m’a apporté les bonheurs pendant les
périodes difficiles.
Finalement, merci à tous mes collègues du Pôle « Applications Satellitaires et Télécommunication »,
pour m’ont accueilli et pour leurs encouragements pendant les jours là-bas.
Page 3 sur 75
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
RÉSUMÉ
Le développement urbain, qui se traduit généralement par un étalement des villes, diminue les
surfaces agricoles disponibles et entraine une diminution de la biodiversité. En conséquence, la
législation française en matière de planification des territoires s’est adaptée dans l’objectif de mieux
contrôler la gestion des espaces, en demandant notamment aux services d’aménagement de fournir
des données chiffrées obtenues par statistique et analyse de l’utilisation des sols. Le suivi
d’occupation des sols est effectué sur la base des couches d’occupation des sols réalisées par
récupération des données déclarées ou calculées. Cette approche trouve ses limites dans la lenteur
de la mise à jour des données de base.
De nos jours, le développement des satellites d’observation de la terre et les algorithmes de
classification permet d’obtenir automatiquement des couches d’occupation du sol à partir d’images
satellites. Cela apporte des avantages potentiels pour la mise en œuvre des politiques
d’aménagement.
Un programme d’évaluation de l’apport de la télédétection pour la production de couches
d’occupation du sol a lancé par le ministère français du développement durable. Une chaîne de
traitement automatique est développée afin d’extraire automatiquement une couche d’occupation
du sol à partir d’images satellites. Le résultat obtenu est acceptable avec une couche d’occupation du
sol entre 4 et 10 classes, malgré certaines confustions.
Dans le cadre de ce projet, l’objectif principal est de proposer une méthodologie rigoureuse pour
régler le problème de confusion afin d’améliorer la couche d’occupation du sol. La méthodologie
proposée sera ajoutée à la chaîne de traitement. Les tests seront réalisés sur la base d’images
RapidEye d’une résolution de 5 mètres qui couvrent sur l’emprise régionale de Limousin. Au final,
une couche d’occupation du sol en 4 à 6 classes sera livrée à la direction du territoire de Limousin.
Mots clés : aménagement, occupation du sol, images satellites, chaîne de traitement, algorithmes de
classification, étude paramétrique.
Page 4 sur 75
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
ABSTRACT
Urban development, who usually translates into a sprawl, reduces the available agricultural land and
leads to a loss of biodiversity. Consequently, the French legislation has adapted in order to better
control the space management, required the management service who provides the data obtained
by statistical analysis of land utilisation. Monitoring land is performed on the land use data layers
made by recovery of data reported or calculated. This approach is limited by the slow updating of
data.
Nowadays, the development of earth observation satellites and classification algorithms used to
obtain layers of land from satellite images automatically. This approach brings potential benefits for
the implementation of planning policies.
A program evaluation launched by the French Ministry of Sustainable Development to produce layers
of land. An automatic processing chain is developed to automatically extract a land use layer from
satellite images. The result is acceptable with a layer of land between 4 and 10 classes, despite some
confusions.
In this project, the main objective is to provide a rigorous methodology to address the problem of
confusion in order to improve the land use layer. The proposed methodology will be included to the
processing chain. The tests will be conducted on the base of RapidEye imagery with a resolution of 5
meters covering the region of Limousin. Finally, a land use layer with 4 to 6 classes will be delivered
to the Director of the Territory of Limousin.
Keywords : urban development, land use layer, satellite images, automatic processing chain,
classification algorithms, parametric study.
Page 5 sur 75
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
LISTE DES FIGURES
Figure 1 : Mosaïque des images RapidEye disponibles sur la région du Limousin et visualisation sur une petite
zone ....................................................................................................................................................................... 12
Figure 2 : Principe général ..................................................................................................................................... 14
Figure 3 : Principe général de l’extraction d’information d’une image ................................................................. 15
Figure 4 : Visualisation d’un même paysage dans différentes bandes de fréquence ........................................... 16
Figure 5 : Exemple de NDVI MOD .......................................................................................................................... 17
Figure 6 : L’apport des couches d’information complémentaire. ......................................................................... 18
Figure 7 : Enrichissement des couches d’informations [3] .................................................................................... 18
Figure 8 : Visualisation des échantillons d’apprentissage sur la zone test ............................................................ 21
Figure 9 : Le traitement des informations d’apprentissage .................................................................................. 22
Figure 10 : Intérêt du nettoyage des informations d’apprentissage ..................................................................... 23
Figure 11 : Fusion complète des micro-classes ..................................................................................................... 24
Figure 12 : Fusion intermédiaire des micro-classes............................................................................................... 25
Figure 13 : Filtre majoritaire avec le filtre des quatre cellules les plus proches.................................................... 25
Figure 14 : Filtre majoritaire avec le filtre des huite cellules les plus proches ...................................................... 26
Figure 15 : Visualisation de l’impact du filtre majoritaire ..................................................................................... 26
Figure 16 : Visualisation de l’ajout du système routier au résultat de classification ............................................ 27
Figure 17 : L’incohérence entre l’image satellite et les données exogènes .......................................................... 27
Figure 18 : L’impact de jeu de paramètres au résultat de classification ............................................................... 28
Figure 19 : Les échantillons de vérification ........................................................................................................... 29
Figure 20 : Schéma synthétique de deux approches de l’étude paramétrique [3] ............................................... 31
Figure 21 : Identification des micro-classes suspectes .......................................................................................... 32
Figure 24 : La performance des micro-classes....................................................................................................... 34
Figure 24 : Le taux des faux positifs des micro-classes.......................................................................................... 34
Figure 24 : Le taux des faux négatifs des micro-classes ........................................................................................ 34
Figure 25 : Exemple pour 3 itérations KMeans ..................................................................................................... 39
Figure 26 : Exemple pour 3 itérations SVM ........................................................................................................... 39
Figure 27 : Relance du Kmeans avec le traitement automatique ......................................................................... 41
Figure 28 : Relance du Kmeans avec le traitement manuel .................................................................................. 41
Figure 29 : Relance du SVM avec le traitement automatique ............................................................................... 42
Figure 30 : Relance du SVM avec le traitement manuel ....................................................................................... 42
Figure 31 : Résultat de l’étude paramétrique sur le nombre de micro-classes..................................................... 44
Figure 32 : Résultat de l’étude paramétrique des bandes d’informations complémentaires............................... 46
Figure 33 : Résultat de l’étude paramétrique sur les seuils .................................................................................. 47
Figure 34 : L’image satellite sur Limoges avec la visualisation sur les petites zones ............................................ 49
Figure 35 : Les couches d’informations complémentaires .................................................................................... 50
Figure 36 : Illustration des échantillons issus de bases de données exogènes sur Limoges ................................. 52
Figure 37 : Résultat de classification après fusion et filtres en macro-classe ....................................................... 53
Figure 38 : Résultat de classification après deuxième itération, fusion et filtres en macro-classes .................... 54
Figure 39 : Résultat de classification après troisième itération, fusion et filtres en macro-classes ..................... 55
Figure 40 : Résultat de classification après filtres et ajout du squelette linéaire .................................................. 56
Figure 41 : Résultat de classification sur l’ensemble du Limousin en 4 macro-classes ......................................... 58
Figure 42 : Deux exemples de la classification en 6 macro-classes et la visualisation sur les petites zones ......... 59
Figure 43 : Statistique sur le temps de traitement (humain et machine) dans l’étude paramétrique ................. 73
Figure 44 : Visualisation globale de travail pratique réalisé en fonction du temps .............................................. 74
Figure 45 : Statistique sur le temps de traitement (humain et machine) dans la classification de Limousin ....... 74
LISTE DES TABLEAUX
Tableau 1 : Extrait de la nomenclature nationnale – Couverture du sol ............................................................... 20
Tableau 2 : Les nomenclatures sélectionnées pour les échantillons d’apprentissage .......................................... 51
Page 6 sur 75
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
TABLE DES MATIERES
REMERCIEMENTS .................................................................................................................................................... 3
RÉSUMÉ ................................................................................................................................................................... 4
ABSTRACT ................................................................................................................................................................ 5
LISTE DES FIGURES ................................................................................................................................................... 6
LISTE DES TABLEAUX................................................................................................................................................ 6
1.
INTRODUCTION ............................................................................................................................................... 9
1.1.
LA STRUCTURE DE L’ORGANISME D’ACCUEIL .......................................................................................... 9
1.1.1.
LE CETE SO ET LA DÉLÉGATION DE TOULOUSE .................................................................................. 9
1.1.2.
LE PÔLE APPLICATIONS SATELLITAIRES ET TELECOMMUNICATION .................................................. 9
1.2.
LE SUJET DE STAGE .................................................................................................................................. 9
1.2.1.
LE CONTEXTE GÉNÉRAL ..................................................................................................................... 9
1.2.2.
LES OBJECTIFS DU STAGE ................................................................................................................. 10
1.2.3.
LA CONTRIBUTION DU STAGE .......................................................................................................... 11
1.2.4.
L’ENVIRONNEMENT DE TRAVAIL ..................................................................................................... 11
1.2.4.1.
LES DONNEES .......................................................................................................................... 11
1.2.4.2.
LES LOGICIELS.......................................................................................................................... 12
1.2.5. L’ORGANISATION DU MANUSCRIT .................................................................................................. 13
2.
LA MÉTHODOLOGIE ....................................................................................................................................... 14
2.1.
INTRODUCTION ..................................................................................................................................... 14
2.2.
LA CHAINE DE TRAITEMENT .................................................................................................................. 14
2.2.1.
LA TRANSFORMATION D’UNE IMAGE ............................................................................................. 15
2.2.1.1.
L’AMELIORATION DES INFORMATIONS D’ENTREE ................................................................. 16
ENRICHISSEMENT DE L’IMAGE SATELLITE ............................................................................................. 16
AMELIORATION DES INFORMATIONS D’APPRENTISSAGE ..................................................................... 19
2.2.1.2.
LA CLASSIFICATION ................................................................................................................. 23
2.2.1.3.
LES POST TRAITEMENTS .......................................................................................................... 24
2.2.2. L’ETUDE PARAMETRIQUE ................................................................................................................ 27
2.2.2.1.
LES INDICATEURS DE QUALITE ................................................................................................ 28
2.2.2.2.
LES PARAMETRES .................................................................................................................... 30
2.2.2.3.
LES ALGORITHMES DE RECHERCHE......................................................................................... 30
RECHERCHE SYSTEMATIQUE ................................................................................................................. 30
RECHERCHE ALEATOIRE ......................................................................................................................... 30
2.3. LES AMELIORATIONS DE LA CHAINE ...................................................................................................... 32
2.3.1.
DETECTION DES MICRO-CLASSES SUSPECTES .................................................................................. 32
2.3.1.1.
PAR RAPPORT A LEURS CENTROÏDES ...................................................................................... 32
2.3.1.2.
PAR RAPPORT A LA MATRICE DE CONFUSION ........................................................................ 33
2.3.2. LE TRAITEMENT DES MICRO-CLASSES SUSPECTES .......................................................................... 35
2.3.2.1.
LES REGLES DE SUPPRESSION ................................................................................................. 35
2.3.2.2.
LES REGLES DE RE-AFFECTATION ............................................................................................ 36
2.3.2.3.
LES REGLES D’ALERTE .............................................................................................................. 37
2.3.2.4.
TRAITEMENT AUTOMATIQUE OU CONTROLE VISUEL ............................................................ 38
2.3.3. ADAPTATION DE LA CHAINE DE TRAITEMENTS ............................................................................... 38
2.3.3.1.
RELANCE DU K-MEANS ........................................................................................................... 38
Page 7 sur 75
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
2.3.3.2.
RELANCE DU SVM ................................................................................................................... 39
2.3.4. RESULTATS ....................................................................................................................................... 40
2.4.
3.
CONCLUSION ......................................................................................................................................... 43
MISE EN ŒUVRE SUR LE LIMOUSIN ............................................................................................................... 44
3.1.
INTRODUCTION ..................................................................................................................................... 44
3.1.1.
LES GRANDS RESULTATS DE L’ETUDE PARAMETRIQUE ................................................................... 44
3.1.1.1.
L’INFLUENCE DU NOMBRE DE MICRO-CLASSE ....................................................................... 44
3.1.1.2.
L’INFLUENCE DES BANDES D’INFORMATION COMPLEMENTAIRES ........................................ 45
3.1.1.3.
L’INFLUENCE DES SEUILS ......................................................................................................... 47
3.1.1.4.
MEILLEUR JEU DE PARAMETRES ............................................................................................. 48
3.2. LA CLASSIFICATION SUR LIMOGES ......................................................................................................... 48
3.2.1.
L’IMAGE SATELLITE .......................................................................................................................... 49
3.2.2.
LES BANDES D’INFORMATION COMPLEMENTAIRES ....................................................................... 50
3.2.3.
LES ECHANTILLONS D’APPRENTISSAGE ........................................................................................... 51
3.2.4.
LE RESULTAT DE CLASSIFICATION A LA PREMIERE ITERATION ........................................................ 53
3.2.5.
LE RESULTAT DE CLASSIFICATION APRES DEUXIEME ITERATION .................................................... 54
3.2.6.
LE RESULTAT DE CLASSIFICATION APRES TROISIEME ITERATION .................................................... 55
3.2.7.
LES POSTS TRAITEMENTS ................................................................................................................. 56
3.3.
4.
LA CLASSIFICATION SUR L’ENSEMBLE DU LIMOUSIN ............................................................................ 57
3.3.1.
LE PRINCIPE...................................................................................................................................... 57
3.3.2.
LE RESULTAT FINAL .......................................................................................................................... 58
CONCLUSION GENERALE ............................................................................................................................... 60
4.1.
RÉSULTATS OBTENUS AU REGARD DES SPECS ...................................................................................... 60
4.2.
PERSPECTIVES ........................................................................................................................................ 60
5.
BIBLIOGRAPHIE .............................................................................................................................................. 61
6.
ANNEXES........................................................................................................................................................ 62
6.1.
ANNEXE 1 : INDICES ............................................................................................................................... 63
6.2.
ANNEXE 2 : LES FORMULES DES INDICATEURS DE QUALITE ................................................................. 63
6.3.
ANNEXE 3 : INFLUENCE DE BANDES D’INFORMATIONS COMPLEMENTAIRES ...................................... 64
6.4. ANNEXE 4 : EXEMPLE POUR LA DETECTION DES MICRO-CLASSES SUSPECTES PAR RAPPORT LEUR
CENTROIDES ...................................................................................................................................................... 65
6.5. ANNEXE 5 : EXEMPLE POUR LA DETECTION DES MICRO-CLASSES SUSPECTES PAR RAPPORT LA
MATRICE DE CONFUSION .................................................................................................................................. 68
6.6.
ANNEXE 6 : EXEMPLE POUR LE TRAITEMENT DES MICRO-CLASSES SUSPECTES ................................... 70
6.7.
ANNEXE 7 : BASE D’IMAGES RAPIDEYE SUR LIMOUSIN ......................................................................... 71
6.8.
ANNEXE 8 : STATISTIQUE DE TEMPS...................................................................................................... 72
Page 8 sur 75
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
1. INTRODUCTION
1.1.
LA STRUCTURE DE L’ORGANISME D’ACCUEIL
1.1.1. LE CETE SO ET LA DÉLÉGATION DE TOULOUSE
Le CETE SO (Centre d’Etudes Techniques de l’Equipement du Sud-Ouest) est un service de réseau
scientifique et technique du MEDDE (Ministère de l’Ecologie, du Développement Durable et de
l’Energie) localisé à Bordeaux et à Toulouse. La DALETT (Délégation Aménagement Laboratoire
Expertise et Transports de Toulouse) est la délégation Toulousaine du CETE SO.
D’une manière générale, le CETE SO mène des activités d’expertise, de contrôle, de suivi, de
conception et de recherche dans l’ensemble des domaines d’activité du ministère : conception des
routes, ouvrages d’art, bâtiment, géotechnique, transport, … ainsi que dans le domaine des
applications satellitaires (observation de la terre et géolocalisation par satellite).
1.1.2. LE PÔLE APPLICATIONS SATELLITAIRES ET TELECOMMUNICATION
Le pôle Applications Satellitaires et Télécommunication est un Pôle de Compétences et d’Innovations
(AST PCI) du MEDDE localisé au CETE SO, à compétence sur le territoire national. Il est au service de
toutes les entités du MEDDE. Son rôle est de travailler sur l’utilisation et la promotion des
technologies satellitaires auprès des services du ministère.
1.2.
LE SUJET DE STAGE
1.2.1. LE CONTEXTE GÉNÉRAL
Les enjeux liés à la caractérisation de l’occupation du sol sont nombreux : étude de l’étalement
urbain et de la consommation des territoires naturels, cartographie des corridors écologiques,
préservation des terres agricoles, évolution de la forêt, etc…
Pour étudier ces thématiques, un certains nombre de projets ont été réalisés dans le service du
MEDDE1. Les méthodologies de ces études sont principalement basées sur l’exploitation de bases de
données existantes de type RGE2 de l’IGN3 (BD Topo, BD Ortho), fichiers fonciers, registre parcellaire
graphique, etc…
De nos jours, plus de 170 satellites d’observation de la terre tournent autour de la terre, chacun
ayant ses caractéristiques [2]. Les dernières générations sont équipées les nouvelles techniques qui
permettent d’avoir une observation de la terre en haute qualité. Grâce à ces ressources abondantes,
l’utilisation de ses produits, dans ce cas-là, c’est l’image satellitaire, devient de plus en plus large. En
même temps, les méthodes de traitement automatique pour extraire de l’information sont
également de plus en plus perfectionnées. En raison d’avantage apporté par l’application de
l’imagerie satellitaire, plusieurs organismes ou instituts sont établis, chacun ayant les objectifs
différents mais contribuant au développement des applications satellitaires.
En fait, les méthodologies sont basées sur l’utilisation des bases de données existantes : la base de
données IGN (BD Topo, BD Ortho), Corine Land Cover et la BD Parcellaire [2]. Par contre, le problème
est que ces données ne sont pas toujours spatialisées. Le problème vient de plusieurs axes : la date
d’acquisition de l’image qui provoque le décalage entre les données dans la base et l’image utilisée;
la méthodologie pour produire les données (environ 25% des études ne sont pas spatialisées selon la
1
MEDDE : Ministère de l’Ecologie, du Développement Durable, de l’Energie
RGE : Le référentiel à Grande Echelle est au cœur de la mission de service publique de l’IGN, dont il constitue
la production phare. Il décrit le territoire national et l'occupation de son sol de façon précise, complète et
homogène
3
IGN : L’information Grandeur Nature. IGN est l’Institut national de l’information géographie forestière
Page 9 sur 75
2
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
requête de CETE SO); la lenteur de mise à jour des données (3 à 5 ans pour la BD Topo, 5 ans pour BD
Parcellaire, 6 ans pour Corine Land Cover). Ces limitations influencent directement à la qualité de la
couche d’occupation du sol finale. Malheureusement, il n’existe jamais de bases de données
complètes et homogènes pour répondre à toutes les études concernant l’occupation du sol !
En 2012, devant les difficultés et les intérêts de l’utilisation d’images satellites, le Pôle PCI
« Applications Satellitaires et Télécommunications » a lancé les projets d’études qui permettent
d’envisager l’utilisation de méthodes automatiques pour extraire de l’information à partir d’images
satellites en proposant des chaînes de traitements basées sur l’appel d’OTB application. Le résultat
est acceptable avec une couche d’occupation finale sur une emprise régionale. Cependant, la
détection automatique ne peut donner de classifications correctes qu’avec un nombre de classes
relativement restreint (entre 4 et 10 classes) et il y a aussi la confusion entre les classes [5]. Il faut
avoir d’autres traitements avec des bases de données complémentaires ou un traitement manuel
pour corriger les confusions. La chaîne de traitement n’est pas automatique, il demande de la lancer
manuellement étape par étape.
En 2013, le Pôle PCI continue à améliorer le résultat obtenu en 2012 en proposant 3 projets d’étude
qui couvrent sur 3 volets relatifs :
Automisation de la chaîne de traitement.
Projet de démonstration en appliquant la chaîne de traitement automatique avec la
correction manuelle sur l’emprise régionale Rhône-Alpes.
Amélioration de la chaîne de traitement qui consiste à régler le problème de confusion au
niveau de la micro-classe et puis une démonstration sur l’emprise régionale de Limousin.
Ces projets sont distribués aux 3 stagiaires différents qui travaillent dans une même équipe.
Mon stage porte sur le troisième volet qui consiste à améliorer la chaîne de traitement et à livrer une
couche d’occupation du sol finale sur l’emprise régionale de Limousin.
1.2.2. LES OBJECTIFS DU STAGE
Amélioration de la chaîne de traitement existant
Le résultat de classification par la chaîne de traitement actuel nous permet d’avoir une couche
d’occupation du sol dans laquelle les aspects naturels et artificiels sont bien distingués (la surface
anthropisée, la formation herbacée, la formation ligneux, la surface en eau, etc…). Les indicateurs
statistiques sont bien calculées ensuite et utilisés dans la gestion d’aménagement du territoire.
Par contre, cette classification englobe les limitations et les points à améliorer. Il s’agit de la
confusion entre les classes, chaque classe correspond à un aspect naturel que l’utilisateur souhaite
acquérir via la couche d’occupation du sol.
A titre d’exemple, la surface anthropisée apparait parfois au milieu des champs qui sont partout
l’information herbacée. Les espaces vertes dans la ville sont vraiment difficiles à classifier tandis
qu’ils sont entourés par les bâtiments et les routes. De plus, le problème de bordures se passe
souvent dans la plupart de résultats classifiés, etc…
L’objectif principal de cette partie est de définir et d’intégrer à la chaîne de traitement une
méthodologie rigoureuse d’estimation de la qualité de classification avec un ou les indicateurs
statistiques. A travers ces indicateurs, une proposition de correction est rédigée à l’utilisateur. La
correction est exécutée ensuite de manière automatique afin de diminuer ou supprimer les
problèmes de confusions et de bordures. L’utilisateur obtiendra finalement une couche d’occupation
du sol plus concrète, plus correcte et plus proche de ceux qui sont en réalité.
Mise en œuvre sur la région du Limousin
Sous la commande de DREAL Limousin sur le thème de la gestion économe de l’espace et la
dynamique d’évolution de l’occupation des espaces en terme de tâche urbaine et d’espaces agricoles
Page 10 sur 75
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
et forestiers en Limousin, l’objectif principal de cette partie est orientée vers le passage en
opérationnel des méthodes télédétections et la méthodologie proposée dans ce manuscrit pour
cartographie de l’occupation du sol sur l’emprise régional de Limousin.
Le travail est divisé alors en deux parties :
La première partie est de mettre en œuvre la méthodologie développée dans la chaîne de traitement
sur une petite zone de test sur Limousin. L’intérêt de ce travail est de tester pour mettre en évidence
l’efficacité des algorithmes proposés et de chercher les paramètres nécessaires pour intégrer à la
chaîne de traitement. Les jeux de paramètres jouent un rôle important qui influencent directement à
la qualité de la couche d’occupation du sol. Les paramètres choisis sont ceux qui donnent la
meilleure classification sur la zone de test.
La deuxième partie est de préparer et de livrer une cartographie de la couverture du sol en 4 classes
(territoires artificialisés, territoires agricoles, forêts, milieux naturels, milieux semi-naturels et surface
en eau) ou en 6 classes (zones bâties, zones non bâties, surfaces en eau, formations arborées,
pelouses et prairies, terres arables) sur le territoire de la région Limousin. Les jeux de paramétrages
sont repris dans l’étude paramétrique réalisée dans la première partie.
1.2.3. LA CONTRIBUTION DU STAGE
Le travail présenté dans ce rapport porte sur l’amélioration de la chaîne de traitement existe et une
livraison finale au client. Plus précisément, il s’agit de l’amélioration de la qualité de la couche
d’occupation du sol et une livraison d’une cartographie de la couverture du sol en 6 classes sur
l’emprise régional Limousin.
La première contribution est le développement d’une méthodologie rigoureuse qui permet de
détecter les micro-classes suspectes en analysant le résultat des algorithmes d’apprentissage (non
supervisé et supervisé) appliqués dans la chaîne de traitement. Puis, une proposition automatique
est proposée en se basant sur les micro-classes suspectes afin d’améliorer le résultat de
classification. A noter que la correction adresse à avoir un résultat acceptable (pas parfait mais bon
avec le taux de confusion et l’indicateur de la qualité satisfaits aux utilisateurs).
La deuxième contribution est de participer à la livraison d’une cartographie de la couverture du sol
sur l’emprise régionale à DREAL Limousin en utilisant la chaîne de traitement combinée avec la
méthodologie développée dans la première contribution et la base de données exogènes si
nécessaire.
1.2.4. L’ENVIRONNEMENT DE TRAVAIL
1.2.4.1.
LES DONNEES
Le projet d’étude roule sur l’utilisation d’images satellites RapidEye4, disponibles gratuitement dans
le cadre du programme Géosud5. La date d’acquision est de mars à septembre en 2010. La résolution
spatiale est de 5m. Les images sont encodées en 16 bits (65 536 niveaux de couleur possibles) et
formé par 5 bandes spectrales (rouge, vert, bleu, red-edge et proche infrarouge). L’orthorectification
est faite par IGN avec ses propres algorithmes pour une précision planimétrique de l’ordre du mètre
et de ne pas présenter l’égalisation radiométrique entre les images concaténées.
4
RapidEye : constellation de 5 satellites en orbite héliosynchrone à 630 km d’altitude, fauchée de 77km
Dans ce sens, les images ont été obtenues grâce à une aide de l’Etat gérée par l’Agence Nationale de la
Recherche au titre du programme d’investissements d’avenir EQUIPEX GEOSUD. Plus d’informations sur
http://www.geosud.teledetection.fr/
Page 11 sur 75
5
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
Figure 1 : Mosaïque des images RapidEye disponibles sur la région du Limousin et
visualisation sur une petite zone
Les différentes étapes de la méthodologie font parfois appel à des bases de données exogènes. Ces
bases de données sont la BD Topo, le RPG 2011 et Corine Land Cover.
1.2.4.2.
LES LOGICIELS
Les logiciels utilisés dans le cadre de ce projet sont les logiciels libres avec les fonctionnalités
puissantes qui permettent de travailler facilement et efficacement avec les images géométriques.
Quantum GIS (QGIS), système d’information géographique libre et multi-plateforme, a été utilisé
pour les aspects cartographiques, la visualisation de vecteur et rasteur, et certains traitements sur les
vecteurs.
SpatiaLite est une extension spatiale pour SQLite permettant à ce gestionnaire de bases de données
de gérer des fichiers vecteurs. Elle a été utilisée pour automatise certains traitements sur les vecteurs
afin d’intégrer les opérations correspondantes dans la chaîne de traitements.
Orféo ToolBox (OTB) est un outil pour le traitement d’images par télédétection. Il a été utilisé, via les
OTB applications, pour effectuer les différents traitements liés à l’extraction d’informations à partir
des images satellites.
Enfin, l’ensemble des étapes automatisées et leur enchaînement ont été codés en scripts Python, un
langage de programmation multi-paradigmes et multi-plateformes qui permet entre autres d’utiliser
les conjointements de 3 logiciels précédents.
Page 12 sur 75
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
Les nombreux tests de l’étude ont été exécutés sous Linux, à travers des machines virtuelles mises en
place sur six stations de travail pour lesquels nous avons mis en place d’une organisation de travail
distribué. Cela nous a permis de travailler conjointement sur plusieurs machines en parallèle,
notamment pour les phases chronophages de calibrage de la méthodologie.
1.2.5. L’ORGANISATION DU MANUSCRIT
Après le chapitre d’introduction, les méthodologies sont présentées dans le chapitre 1. Elles sont
divisées en deux parties : la première partie est la chaîne de traitement automatique développée par
les travaux coopératifs des deux autres stagiaires; la deuxième partie est mon travail d’amélioration
de la qualité de classification afin d’avoir une couche de la couverture du sol plus fine.
La mise en œuvre de la méthodologie est présentée dans le chapitre 2. Cette partie comprend 3
sous-parties : la première partie porte sur l’étude paramétrique qui étudie l’influence des jeux
paramétriques sur le résultat de classification (nombre de la micro-classe par macro-classe, les seuils
appliqués sur la détection des micro-classes suspectes, les textures); la deuxième partie consiste à
démontrer les résultats étape par étape dans la chaîne de traitement sur la zone de Limoges; la
dernière traite de la cartographie de la couverture du sol sur l’emprise régionale de Limousin.
Le dernier chapitre est la conclusion des travaux réalisés, une perspective est également abordée
pour le travail dans l’avenir.
Page 13 sur 75
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
2. LA MÉTHODOLOGIE
Cette partie a pour objectif de présenter plus détaillé la méthodologie effectuée dans la chaîne de
traitement. La présentation consiste tout d’abord à décrire les grandes lignes théoriques et
méthodologie de la chaine de traitement et de l’amélioration proposée par le stagiaire, puis à faire
un zoom spécifique sur le travail effectué dans ce contexte.
2.1.
INTRODUCTION
La méthodologie développée dans le cadre de cartographie de la couverture du sol se compose
principalement deux grands aspects :
Le premier aspect consiste à présenter les principes dans la chaîne de traitement. Il comprend deux
parties :
La transformation d’une image satellite en couche d’occupation des sols : il s’agit d’une
transformation de pixels caractérisés par leur radiométrie/couleur en pixels caractérisés par
une labellisation thématique/sémantique. En appliquant les algorithmes d’apprentissage
(supervisé et non supervisé) combinées avec l’indication des jeux de paramètres, une couche
d’occupation est calculée par la labellisation de l’ensemble des pixels de l’image en fonction
d’information d’apprentissage.
L’étude paramétrique : le choix des jeux paramétriques impacte directement à la qualité de
classification. La seconde partie présente de la méthode afin d’obtenir le jeu de paramètre
optimal avec lequel la couche d’occupation des sols est en meilleure qualité possible. La
méthode, dans ce cas-là, est de définir une stratégie de manière intelligente pour travailler
avec une grande combinaison de paramètres possibles dont le temps de calcul final est
acceptable et réalisable.
La qualité d’apprentissage dépend fortement de la qualité d’informations d’apprentissage. Le
deuxième aspect porte sur l’objectif d’améliorer les informations d’apprentissage par la suppression
ou par la réaffectation des échantillons de l’une à l’autre classe. La couche de classification améliorée
est normalement plus fine et plus spatialisée par rapport la première classification.
2.2.
LA CHAINE DE TRAITEMENT
La chaîne de traitement se décompose en deux grandes parties : la transformation d’une image en
couche d’occupation des sols et une étude paramétrique.
Le lien entre ces deux parties peut être schématisé de la façon suivante :
Page 14 sur 75
Figure 2 : Principe général
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
2.2.1. LA TRANSFORMATION D’UNE IMAGE
Objectif principal est de transformer une image satellite en couche d’occupation des sols.
Cette transformation comprend 3 étapes à réaliser de manière consécutive :
Amélioration des informations d’entrée.
Classification de l’image.
Post traitements.
Figure 3 : Principe général de l’extraction d’information d’une image
L’ordonnance et la relation des étapes sont présentées dans l’image suivante :
Image satellite : Image orthorectifiée sur le territoire d’étude. Elle est importée le format de l’image
(TIF, JPEG,…), le type de compression des fichiers (avec ou sans perte), le système de coordonnées de
référence en sortie, la profondeur radiométrique (image en 8 bits ou 16 bits), …
Paramètres et informations divers : Les paramètres utilisés dans les algorithmes d’apprentissage,
dans les fonctions de l’OTB, les liens de répertoire contenant les images, les fichiers utilisés, le mode
de travail, …
Le noyau de la chaîne: Ses traitements sont décrits plus détaillé dans les parties suivantes.
Couche d’occupation des sols : Image de classification sur le territoire régional correspondant à
l’image satellite en entrée. Il s’agit aussi une cartographie de la couverture de l’occupation des sols.
Chaque pixel est caractérisé par la labellisation thémantique/sémantique en fonction des
informations d’apprentissage.
Indicateur de qualité : Les informations statistiques extraites par la couche d’occupation des sols qui
permettent d’évaluer la qualité de classification (le nombre de pixels bien classifiés, le taux de
confusion entre les classes). Elles sont aussi les indicateurs à fournir aux clients qui s’occupent
l’étalement urbain, les continuités écologiques. Les genres de l’indicateur sont abordés plus tard.
Page 15 sur 75
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
2.2.1.1.
L’AMELIORATION DES INFORMATIONS D’ENTREE
Cette partie a pour objectif de présenter la méthode qui permet d’enrichir les informations d’entrée
en ajoutant les informations supplémentaires afin d’obtenir une bonne classification. Les
informations d’entrée de la chaîne sont l’image satellite et les entraînements d’apprentissage.
ENRICHISSEMENT DE L’IMAGE SATELLITE
L’image satellite est formée de manière générale par les bandes radiométriques. Dans notre cas
d’étude, il s’agit des images RapidEye encodée en 16 bits (65 536 niveaux de couleurs) qui
composent de 5 couches radiométriques (rouge, vert, bleu, red-edge et proche infrarouge). Plus
précisément, chaque pixel de l’image est présenté par un vecteur de 5 dimensions avec 65 536
valeurs possibles (de 0 à 65 535) sur chaque composant. La classification automatique de chaque
pixel de l’image se fait en fonction des valeurs radiométriques sur chacune de bandes d’information.
Les bandes radiométriques : Une image satellite est composée d’une ou plusieurs couches
d’informations correspondant aux mesures effectuées dans une partie du spectre lumineux (bande
rouge, bande verte, bande bleue, bande du proche infrarouge, …) [4]. Chaque élément du sol (la
forêt, la culture, le bâtiment, …) est caractérisé par sa signature spectrale. C'est-à-dire que pour
chaque pixel de l’image, on peut trouver l’élément du paysage qu’il a plus de chance de présenter si
on connait bien la signature spectrale des différents éléments du paysage. Les signatures spectrales
sont normalement sauvegardées dans les bandes radiométriques de l’image satellite donc ses
valeurs sont l’information de base pour la classification. Les bandes radiométriques sont visualiables
en niveau de gris ou colorisées.
Figure 4 : Visualisation d’un même paysage dans différentes bandes de fréquence
Dans l’illustration, la culture se voit différemment dans le bleu (sombre) et dans le proche infrarouge
(très claire).
Les couches texturales : La texture d’une image représente la variation locale des niveaux de gris des
pixels. Elle traduit l’organisation particulière d’objets dans un paysage. Autrement dit, la texture
définit pour chaque pixel une information sur son entourage (homogénéité ou hétérogénéité). Cela
peut être utile pour classifier les différents éléments du paysage [1] [3]. Par exemple, un champ du
blé est homogène que le quartier de la ville. L’utilisation des couches texturales peut apporter les
informations utiles afin d’avoir une bonne couche d’occupation du sol.
Un grand nombre de texture est disponible : Energie, Entropie, Inverse Difference Moment, …
Page 16 sur 75
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
Dans l’étude, on a testé avec 28 textures. Les textures sont calculées par bande radiométrique et
dépendent de la taille de la fenêtre qui sera utilisée pour définir la distance caractérisant l’entourage
d’un pixel.
Les couches indicielles sont obtenues par combinaisons non linéaires de bandes radiométriques. Ces
couches permettent de mettre en évidence certains éléments du paysage [3]. Pour exemple, une
couche indicielle classique, utilisée dans l’étude, est le NDVI MOD (Normalized Difference Vegetation
Index Modified) calculée à partir des bandes rouges, red-edges et proche infrarouge. En utilisant cet
indice, l’activité photosynthétique de la végétation au niveau du sol est ajoutée dans l’image
d’entrée dont l’intérêt est de discriminer la partie végétale sur le sol.
Figure 5 : Exemple de NDVI MOD
Dans la figure, à gauche, l’image en vraies couleurs, à droite, la couche NDVI MOD. Les formations de
végétations sont plus blanches que les surfaces anthropisées, plus sombres. Certaines zones de
végétations apparaissent cependant en noir : ce sont des sols nus agricoles, peu végétalisées,
traduisant un niveau de photosynthèse faible, ce qui se traduit par de faibles valeurs de NDVI.
Il existe de nombreux indices qui permettent de faire ressortir les différents éléments du paysage.
Certains indices utilisent des bandes particulières qui ne sont pas présentées sur tous les capteurs. Le
choix des indices à utiliser dépend donc des images satellites utilisées et de la nature de l’information
que l’on souhaite extraire.
Les indices les plus courants sont présentés en annexe 1.
L’apport des nouvelles couches permet d’enrichir l’information générale de chaque pixel et donc
d’améliorer potentiellement le résultat de classification. Cependant, la qualité de classification
n’augmente pas en fonction de nombre de couches complémentaires empilées. Plusieurs couches
inutiles peuvent diminuer la qualité de classification. Le choix des couches à retenir se détermine par
dans la partie de l’étude paramétrique.
Page 17 sur 75
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
Figure 7 : Enrichissement des couches d’informations [3]
Figure 6 : L’apport des couches d’information complémentaire.
Page 18 sur 75
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
En haut, le résultat de classification issu directement de l’image satellite
En bas, le résultat de classification avec ajout de textures et de NDVI MOD. Les confusions entre les
surfaces anthropisées et les formations herbacées sont réduites.
AMELIORATION DES INFORMATIONS D’APPRENTISSAGE
La nomenclature décrit la nature des éléments du sol que l’on cherche à identifier dans la couche
d’occupation des sols : surfaces en eau, surfaces arborées, surface herbacées, surfaces
anthropisées… Une nomenclature est normalement définie en amont de l’étude selon diverses
considérations (besoin de l’utilisateur, cohérences avec d’autres bases de données) [1] [4].
Dans notre étude, la nomenclature retenue se veut cohérente avec la nomenclature mise en place
par le groupe de travail national sur l’occupation du sol. Cette nomenclature de référence, née des
volontés conjointes de la GDALN et du CERTU, fournit à l’ensemble des utilisateurs et des
producteurs de données d’occupation du sol. Les nomenclatures nationales sur la couverture du sol
se trouvent dans le tableau 1.
Selon la proposition du groupe de travail national, les nomenclatures de la couverture du sol sont
classifiées en niveau. Une nomenclature d’un niveau est divisée en les petites nomenclatures
appelées « nomenclatures intermédiaires ». Le niveau le plus haut contient les classes plus
précisément des éléments du sol. Le découpage en nomenclatures intermédiaires apporte les
intérêts potentiels à la classification. Ces intérêts sont discutés dans la partie des informations
d’apprentissage.
Le choix du niveau et des nomenclatures dépendent du territoire d’étude avec un accord de
l’utilisateur.
Les informations (ou échantillons) d’apprentissage sont les polygones détourés les zones qui
représentent un élément du territoire sur l’image satellite [3]. Chaque polygone (un vecteur) est
labellisé selon la nomenclature finale qui réponse à la question de la couche finale de l’utilisateur.
Par exemple, dans l’illustration de la figure 7 sur la zone test de Limousin, les polygones sont
labellisés en 4 nomenclatures correspondant à la surface en eau (bleue), à la surface d’anthroposée
(rouge), aux informations ligneux (verte) et aux formations herbacées (jaune) dont la couche finale
sera classifiée en 4 classes. Les valeurs de pixels contenus dans les polygones caractérisent par la
suite mathématiquement les classes qu’ils représentent.
Les échantillons d’apprentissage sont obtenus par photo-interprétation sur l’image satellite ou par
utilisation de bases de données exogènes cohérentes avec l’image en termes de géoréférencement
ou de précision spatiale.
Les échantillons d’apprentissage jouent un rôle important dans les algorithmes d’apprentissage dont
la qualité va influencer directement au résultat de classification. Les échantillons labellisés par une
même nomenclature doivent représenter l’hétérogénéité de l’élément du sol dans la zone d’étude
[3]. Par exemple, dans notre cas d’étude, la couche finale est classifiée en 4 classes et que nous avons
décidé de grouper les zones de culture, les sols nuls, les prairies dans les informations herbacées
dont la valeur radiométrique est différente. Pour assurer que ces zones sont bien classifiées, les
échantillons d’apprentissage doivent les inclure. Cela permet de classifier toutes les variations de
surface herbacée.
De plus, les informations d’apprentissage doivent couvrir une surface pas trop mais assez large sur le
territoire à classifier.
Page 19 sur 75
Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols
Tableau 1 : Extrait de la nomenclature nationnale – Couverture du sol
Page 20 sur 75
- Xem thêm -