<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Impact du changement d'échelle sur l'étude des causes des feux de forêts du sud-est de la France</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Romain Louvet</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Didier Josselin</string-name>
          <email>.josselin@univ-avignon.fr</email>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Cyrille Genre-Grandpierre</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Jagannath Aryal</string-name>
          <email>jagannath.aryal@utas.edu.au</email>
        </contrib>
      </contrib-group>
      <pub-date>
        <year>2015</year>
      </pub-date>
      <abstract>
        <p>The Modifiable Areal Unit Problem (MAUP) is a well-known issue related to the influence of the spatial support on statistical observations. It occurs when different spatial units making different spatial partitions are used and when the resulting measures vary according to those partitions. In this paper, we first draw a state of the art. Considering the particular problem of (up)scaling, we propose a method to visualize the sensitivity of the spatial statistics to the support. We test this method on forest fires in Southern France, handling a sample from the Promethée database.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>1. UMR ESPACE 7300 CNRS, Université d’Avignon</title>
      <p>romain.louvet@alumni.univ-avignon.fr</p>
    </sec>
    <sec id="sec-2">
      <title>2. Laboratoire d’Informatique d’Avignon, Université d’Avignon</title>
    </sec>
    <sec id="sec-3">
      <title>3. University of Tasmania jagannath.aryal@utas.edu.au</title>
      <p>RÉSUMÉ. Le support spatial des données a potentiellement une forte influence sur le
traitement statistique des observations. Cette problématique est connue en géographie
sous le nom de Modifiable Areal Unit Problem (MAUP). Celle-ci survient lorsque
différentes unités surfaciques peuvent être utilisées et que le résultat varie en fonction de
ce choix. Dans cet article, nous présentons un état de l’art de ce problème.
Considérant un des aspects du MAUP, à savoir l’influence du changement de niveau d’échelle,
nous développons une méthode de visualisation de la sensibilité des statistiques à ce
problème. Cette méthode est testée sur l’étude des feux de forêt du sud-est de la France,
avec des données issues de la base Prométhée, à partir desquelles nous recherchons des
variables explicatives. Nos résultats montrent des variations des coefficients de
corrélation en fonction des niveaux d’échelle et la possibilité de sélectionner les variables et
les niveaux d’échelle en fonction de cette variabilité. Nous proposons deux méthodes :
(i) utiliser la visualisation de ces variations afin d’améliorer la robustesse de l’analyse
de corrélation en sélectionnant les informations pertinentes selon leur sensibilité au
MAUP, (ii) sélectionner un niveau d’échelle pour lequel le résultat est le plus différent
possible d’une redistribution spatiale aléatoire de la variable dépendante.
From these data, we try to find the key explanatory variables. The results show that
the correlation coefficient varies significantly, depending on scale, and that we can
select variables and scales based on this variability. Then we propose two different
ways to deal with the MAUP: (i) by using geovisualization to assess and to improve
the robustness of the correlation analysis and to choose the pertinent information that
allows to minimize the sensitivity, (ii) by considering as pertinent the spatial
partition which is the farthest one from a random spatial distribution of the independent
variable.</p>
      <p>MOTS-CLÉS : Modifiable Areal Unit Problem (MAUP), Change Of Support Problem
(COSP), feux de forêt, base de données Prométhée, R</p>
      <sec id="sec-3-1">
        <title>1. Introduction</title>
        <p>
          Un des principaux problèmes actuels de l’analyse des données géographiques
est le biais statistique induit par l’utilisation d’unités surfaciques. Ce problème
est connu en géographie sous le nom de MAUP (Modifiable Areal Unit Problem,
ou problème d’unité spatiale modifiable). Il est défini par le fait que la manière
d’agréger les données sous la forme d’unités spatiales a un impact significatif
sur le résultat, en particulier sur la recherche de facteurs explicatifs à l’aide de
la corrélation
          <xref ref-type="bibr" rid="ref16">(Openshaw, 1984)</xref>
          . En l’absence de « règle pour l’agrégation des
unités spatiales surfaciques », les découpages administratifs sont massivement
utilisés. Puisque le choix du découpage peut avoir un impact sur le résultat,
il est particulièrement problématique qu’un découpage soit préféré à un autre,
qui plus est s’il ne possède pas nécessairement de rapport avec le phénomène.
        </p>
        <p>
          Le sud-est de la France, tout comme les autres régions méditerranéennes en
Europe, est régulièrement et fortement affecté par les feux de forêts. Il s’agit
d’un processus complexe du fait de son statut de catastrophe « naturelle » dont
les causes sont en fait principalement humaines
          <xref ref-type="bibr" rid="ref7">(Ganteaume, Jappiot, 2013)</xref>
          .
Les feux de forêt ne sont a priori pas contraints par les découpages territoriaux.
Pourtant, certaines études utilisent des limites administratives et un seul niveau
d’échelle, ignorant de fait le problème soulevé par l’utilisation d’unités spatiales
étant par nature le résultat d’une agrégation, selon des limites plus ou moins
arbitraires et possédant des tailles et des formes hétérogènes.
        </p>
        <p>
          Pour illustrer ce type d’étude, citons Ganteaume et Jappiot qui ont obtenu
des résultats intéressants sur les causes des feux de grande taille dans le sud-est
de la France
          <xref ref-type="bibr" rid="ref7">(Ganteaume, Jappiot, 2013)</xref>
          . Cependant, ces auteurs ont choisi de
travailler à l’échelle des départements, alors que des niveaux d’échelle beaucoup
plus fins étaient disponibles dans la base sur les feux de forêts utilisée (la base
Prométhée). Ce choix du département est justifiable puisque les politiques de
Copyright © by the paper’s authors. Copying permitted for private and
academic purposes. Proceedings of the Spatial Analysis and GEOmatics
conference, SAGEO 2015.
lutte anti-incendie doivent être mises en place à cette échelle. Toutefois, choisir
comme unité d’analyse des unités spatiales qui semblent être délimitées de
manière arbitraire, dont les limites seraient donc modifiables, est un problème
méthodologique important indépendamment de considérations administratives
et opérationnelles.
        </p>
        <p>
          L’utilisation des découpages administratifs à des fins d’étude d’un
phénomène complexe tel que les feux de forêts peut s’expliquer par la difficulté à
disposer de données à l’échelle individuelle ou selon d’autres types de
découpages. Néanmoins, si nous laissons de côté la question des délimitations,
pourquoi serait-il plus pertinent d’étudier les causes des feux de forêt en France à
l’échelle des départements plutôt qu’à l’échelle des communes ? Car si ce choix
influence fortement nos résultats, quel serait le résultat pertinent ? Existe-t-il
un "bon" résultat in fine ? Autrement dit, puisque le MAUP soulève des
questions sur la certitude des résultats statistiques obtenus à partir des données
spatiales
          <xref ref-type="bibr" rid="ref5">(Fotheringham et al., 2000)</xref>
          , comment prendre en compte ce problème
dans l’analyse pour que les résultats soient plus robustes ? C’est ce que nous
souhaitons développer dans cet article.
        </p>
        <p>À partir de données de la base Prométhée sur les feux de forêt du sud-est de
la France et de variables explicatives agrégées selon les différents niveaux des
découpages territoriaux français, nous développons une méthode de
visualisation du coefficient de corrélation en fonction des découpages utilisés. Puis, nous
proposons d’utiliser la visualisation des variations en fonction de ces niveaux de
découpages afin d’améliorer la robustesse de l’analyse en sélectionnant les
informations pertinentes selon leur sensibilité au MAUP d’après deux principes :
– la sélection d’un résultat selon sa relative stabilité à travers les échelles ;
– la sélection d’un niveau d’échelle dont le résultat possède la plus grande
différence par rapport à un résultat aléatoire.</p>
        <p>Nous commençons par présenter un bref état de l’art sur la question du
MAUP. Nous développons sa définition, l’effet d’échelle et l’effet de zonage, et
nous replaçons ce problème par rapport à ses problèmes connexes, tels que le
biais d’inférence écologique, le paradoxe de Simpson, et le COSP (Change of
Support Problem). Puis nous décrivons trois approches possibles pour tenter
de résoudre le MAUP :
– utiliser des données individuelles ;
– adapter les méthodes statistiques au MAUP ou l’utiliser pour optimiser
les résultats ;</p>
        <p>– évaluer la sensibilité au MAUP pour choisir le bon découpage ou
uniquement les résultats les moins sensibles au changement de partition spatiale.
C’est cette troisième approche que nous avons choisie d’implémenter sous R
et que nous décrivons plus en détails ensuite, avec les données utilisées et les
traitements réalisés. Enfin, nous terminons par la présentation des résultats
obtenus et leur discussion.
Le MAUP revêt deux aspects, définis par deux effets propres à l’utilisation
d’unités spatiales surfaciques. Ces effets sont l’échelle et la délimitation (Figure
1). L’effet de l’échelle est défini par la modification d’un résultat à partir des
mêmes données de départ, selon la manière dont ces données sont agrégées
à différents niveaux de précision en fonction du nombre et de la taille des
unités spatiales. L’effet de la délimitation, également connu sous le nom d’effet
du zonage, est dû à l’impact sur les résultats à partir des mêmes données de
départ et à une même échelle (même nombre d’unités spatiales) selon différents
découpages.</p>
        <p>
          Le MAUP est un problème qui n’est pas restreint à la géographie. Il s’agit
d’abord d’un biais statistique commun à toutes disciplines utilisant des
agrégats, voir d’une erreur de raisonnement dénoncé y compris en philosophie
(Figure 2). Il est proche du problème d’inférence écologique, énoncé par Robinson
          <xref ref-type="bibr" rid="ref19">(W. Robinson, 1950)</xref>
          pour dénoncer l’utilisation par la sociologie de résultats
statistiques sur des groupes pour inférer un comportement individuel. En
économie et en médecine, le paradoxe de Simpson a été clairement établi comme
un biais d’échantillonnage, qui, selon les regroupements d’individus statistiques
recensés, amène à inférer des conclusions opposées. Cet effet a été identifié par
          <xref ref-type="bibr" rid="ref20">(Simpson, 1951)</xref>
          à partir de l’analyse de tableaux de contingence. Sous cette
forme, le problème est aspatial. Il devient spatial dès que l’échantillon concerne
des données localisées.
        </p>
        <p>
          Une des formes spatiales de ce paradoxe est le COSP, ou Change Of
Support Problem. En statistiques spatiales, il regroupe un ensemble de problèmes
liés au changement du support des données (points vers surfaces, surfaces vers
points). Il s’agit par exemple d’un problème d’interpolation spatiale lorsque
deux supports, en général des unités surfaciques, ne sont pas calés. Lorsque le
processus de traitement consiste à désagréger l’information spatialisée, on parle
de downscaling, qui inclut un problème de précision des données. Cela est très
proche du problème d’inférence écologique
          <xref ref-type="bibr" rid="ref13">(King et al., 2004)</xref>
          , qui est décrit
en écologie ou dans les sciences de l’environnement. À l’opposé, le MAUP est
un problème d’upscaling, puisqu’on agrège l’information spatiale en changeant
les partitions. En un sens, le COSP couvre l’ensemble des problèmes dus aux
procédures d’agrégation et de désagrégation spatiales et peut ainsi être
considéré comme l’extension spatiale du paradoxe de Simpson, des paramètres de
proximité entre individus statistiques ou d’autocorrélation spatiale intervenant
alors dans le (ré-)échantillonnage (Figure 2). On entend ici par
échantillonnage le processus qui consiste, dans une population ou un échantillon connu, à
regrouper d’une certaine façon et selon certains critères les individus en
souséchantillons.
        </p>
        <p>
          Depuis sa découverte attribuée à Gehlke et Biehl
          <xref ref-type="bibr" rid="ref8">(Gehlke, Biehl, 1934)</xref>
          ce
problème a été décrit par des travaux de référence tels que ceux de Robinson
          <xref ref-type="bibr" rid="ref19">(W. Robinson, 1950)</xref>
          et d’Openshaw et Taylor
          <xref ref-type="bibr" rid="ref17">(Openshaw, Taylor, 1979)</xref>
          . Bien
que de nombreuses études fassent état de ce problème, peu de solutions
efficaces ont été appliquées et aucune solution globale ne fait consensus
          <xref ref-type="bibr" rid="ref1 ref22">(Swift et
al., 2008 ; Arsenault et al., 2013)</xref>
          . Nous définissons trois approches dans les
solutions proposées. La première, la plus simple, serait d’utiliser uniquement
des données désagrégées, au niveau individuel. Malheureusement, ce type de
données est rarement disponible, souvent par nécessité de maintenir le secret
statistique. Par ailleurs, ces données possèdent un faible pouvoir de
communication en comparaison avec leur équivalent cartographié selon des limites spatiales
bien connues. Elles peuvent également souffrir d’un problème d’atomisme ou
de la tentation d’ignorer la dimension spatiale des données pour produire des
résultats
          <xref ref-type="bibr" rid="ref1 ref22">(Swift et al., 2008 ; Arsenault et al., 2013)</xref>
          .
        </p>
        <p>
          Les données individuelles n’étant pas moins problématique, la seconde
approche consiste à s’adapter au MAUP. Une première solution consiste à utiliser
des formules statistiques le prenant en compte, comme par exemple une
corrélation pondérée par la taille des unités spatiales
          <xref ref-type="bibr" rid="ref18">(A. Robinson, 1956)</xref>
          . Une
seconde solution adaptative est fondée sur le fait de considérer le MAUP comme
un outil plutôt que comme un problème, ce qui se justifie par le fait qu’il est
directement lié à la structure spatiale de la variance
          <xref ref-type="bibr" rid="ref22">(Swift et al., 2008)</xref>
          . À
partir de là, il est possible de préconiser le choix d’un découpage pertinent à partir
de l’optimisation du résultat recherché
          <xref ref-type="bibr" rid="ref16">(Openshaw, 1984)</xref>
          . Plusieurs méthodes
peuvent être employée, comme l’autocorrélation ou la régression
géographiquement pondérée (GWR)
          <xref ref-type="bibr" rid="ref3">(Charleux, 2005)</xref>
          , afin de créer le découpage qui
montrera le plus d’information sur la structure spatiale
          <xref ref-type="bibr" rid="ref12">(King, 1997)</xref>
          .
Toutefois, ces méthodes d’optimisation du découpage sont problématiques du point
de vue de la définition classique de l’objectivité scientifique.
        </p>
        <p>
          La troisième approche développée pour résoudre le MAUP est l’évaluation
de la sensibilité des résultats au problème. L’analyse de sensibilité peut d’abord
être conçue pour comparer les résultats des différents découpages à des
variables statistiques connues au niveau individuel afin de sélectionner le meilleur
découpage
          <xref ref-type="bibr" rid="ref1">(Arsenault et al., 2013)</xref>
          . Un exemple de ce type de solution, proche
des méthodes statistiques de downscaling, consiste à utiliser un ensemble de
variables connues au niveau individuel, puis d’ajuster une matrice de
variancecovariance des données agrégées afin de sélectionner uniquement le découpage
montrant la plus grande similarité avec le niveau individuel de variance
          <xref ref-type="bibr" rid="ref21 ref21 ref23 ref9 ref9">(Steel,
Holt, 1996 ; Holt et al., 1996 ; Tranmer, Steel, 1998)</xref>
          . Cette solution pose
toutefois un problème de taille : elle nécessite la connaissance de variables au niveau
individuel. Les statistiques bayésiennes peuvent être employées pour pallier à ce
problème en mesurant la sensibilité au MAUP à partir d’un estimateur calculé
selon des données individuelles générées aléatoirement
          <xref ref-type="bibr" rid="ref10">(Hui, 2009)</xref>
          . Ces
solutions sont fondées sur l’hypothèse que le MAUP n’affecte que les données non
aléatoires
          <xref ref-type="bibr" rid="ref16">(Openshaw, 1984)</xref>
          . Une troisième solution d’analyse de sensibilité
consiste à re-échantillonner aléatoirement les données observées pour éliminer
l’effet du support du calcul d’indice
          <xref ref-type="bibr" rid="ref11 ref14 ref15">(Mahfoud et al., 2007 ; Josselin et al., 2008 ;
Mahfoud et al., 2009)</xref>
          , en faisant l’hypothèse que le MAUP a le même effet dans
les deux organisations spatiales des données (observées versus aléatoires). Dans
cette approche, les auteurs recherchent ce qu’ils appellent «l’échelle pertinente»
de mesure d’un indice statistique, qui est celle qui maximise cet indice, une fois
l’effet du support spatial supposé éliminé par l’analyse des échelles, c’est à dire
celle qui montre le plus grand écart à une distribution de ces données qui serait
aléatoire. Enfin, l’analyse de sensibilité peut être également conçue comme la
sélection non pas d’un découpage mais d’undifférents découpages, si un résultat
est stable malgré les changements de limites ou d’échelle, il est possible
d’affirmer que ce résultat est plus robuste et plus pertinent qu’un résultat sensible à
la manière dont les données sont agrégées
          <xref ref-type="bibr" rid="ref5">(Fotheringham et al., 2000)</xref>
          .
        </p>
        <p>Ce papier propose d’appliquer l’analyse de sensibilité, en particulier :
– la sélection du résultat selon sa variabilité en fonction des découpages
(Figure 4) ;</p>
        <p>– la sélection d’un découpage dont les résultats sont les plus différents des
données re-échantillonées aléatoirement (Figure 5).</p>
        <p>Il s’agit uniquement d’une analyse de sensibilité au problème spécifique qu’est le
MAUP, et plus particulièrement à son effet d’échelle (Figure 1). La question de
la qualité des données de départ n’est pas prise en compte dans cette méthode,
ni à proprement parler la proposition d’un modèle explicatif et reproductible
des feux de forêt.</p>
      </sec>
      <sec id="sec-3-2">
        <title>3. Données et méthode</title>
        <p>Nos données 1 (variables dépendantes et explicatives) ont d’abord été
obtenues par communes, puis ont été agrégées. Nous avons utilisés les découpages
territoriaux français sélectionnés dans la base de données Géofla 2014 de l’IGN
1. Les scripts et les données utilisées pour obtenir nos résultats sont accessibles à l’adresse
suivante : https://github.com/romain-louvet/sageo_rig2015.git
à partir de la zone couverte par la base Prométhée (régions Corse,
LanguedocRoussillon, Paca, et départements de l’Ardèche et de la Drôme, voir Figure
3). Les codes d’identification des niveaux de découpages proviennent de
Géofla, hormis les EPCI (établissement public de coopération intercommunale) de
2014 qui ont été extraits du site collectivites-locales.gouv.fr. Grace à ces codes,
nous avons généré six niveaux d’échelle, sous la forme de shapefiles distincts.
La zone d’étude a ainsi été découpée en 3571 communes (LAU2), 476 cantons
(LAU1), 244 EPCI, 43 arrondissements, 15 départements (NUTS3) et 4 régions
(NUTS1), dont les superficies moyennes calculées sont respectivement de 22,
169, 1 868, 5 356, et 20 084 km2.</p>
        <p>
          La base de données de départ est un extrait de Prométhée, base officielle
d’enregistrement des incendies dans la zone méditerranéenne française, pour la
période de 1997 à 2013. Cette base de données fut créée suite à la décision en
1973 de l’État français de se doter d’un outil de recensement des feux de forêts
du sud-est de la France. Chaque incendie y est enregistré individuellement.
Son point d’éclosion est localisé à l’échelle communale et au carreau DFCI
(carreaux de 2 km de côté). Ces données sont librement téléchargeables,
toutefois le carroyage DFCI n’est accessible que par demande 2. C’est à partir de
cette base que nous avons calculé nos variables dépendantes par unité spatiale :
nombre de feux, surfaces incendiées, taille moyenne des feux (surface divisée
par le nombre), densité du nombre des feux (nombre par km2), et densité des
surfaces incendiées (m2 de surfaces incendiées par km2). Enfin, les variables
dépendantes ont été log transformées afin de suivre un modèle paramétrique
          <xref ref-type="bibr" rid="ref7">(Ganteaume, Jappiot, 2013)</xref>
          . Nous avons utilisé 14 variables explicatives : la
densité de population par km2, la densité routière par km2, la densité ferroviaire
par km2, le taux de chômage, le nombre de lits touristiques par habitants, le
nombre de lits touristiques par km2, le taux d’évolution du cheptel et de la
surface agricole utile, et six variables d’occupation du sol (taux d’occupation sur
l’aire totale). Ces variables ont été choisies car elles sont souvent mentionnées
comme facteurs potentiellement déclenchant des feux de forêts pour la zone
d’étude
          <xref ref-type="bibr" rid="ref7">(Ganteaume, Jappiot, 2013)</xref>
          .
        </p>
        <p>La densité de population a été calculée à l’aide de la moyenne des données de
recensement de l’INSEE de 1999, 1997 et 2012. La densité routière et la densité
ferroviaire ont été obtenues par croisement des surfaces des unités spatiales avec
les tronçons routiers et ferroviaires de la base Route 500 de l’IGN de 2012. Le
taux de chômage est une moyenne des taux de 1999, 2066 et 2011, des données
INSEE. Les lits touristiques sont des données INSEE de 2013. Il s’agit d’une
capacité d’accueil d’hébergement touristique exprimée en lits selon la méthode
de calcul de l’INSEE. Le nombre de lits touristiques par habitants a été estimé
avec la moyenne de population de 1999 à 2012. L’évolution du cheptel et de la
surface agricole utile sont issues du recensement agricole. Il s’agit du taux de
2. Pour plus d’informations, voir http://www.promethee.com
variation entre 1988 et 2010. Enfin, les données d’occupation du sol sont issues
des statistiques de Corine Land Cover à la commune. Il s’agit de moyennes de
l’occupation du sol de 2000 révisée et de 2006. Les variables qui ont été utilisées
sont la part sur le total de la surface de l’unité spatiale : des terres arables ;
des cultures permanentes, cultures annuelles associées et agroforesterie ; des
friches agricoles ; des forêts ; des landes, broussailles, végétations sclérophylles
et végétations arbustives et/ou en mutation ; des prairies, pelouses et pâturages
naturels.</p>
        <p>
          Presque la totalité des traitements a été réalisée sous R, à l’exception du
calcul des densités routières et ferroviaires effectué avec le logiciel ArcGIS à l’aide
d’un script en Python. R a été choisi comme outil principal pour ses capacités
de traitements statistiques et son intégration de fonctions SIG au sein d’une
chaîne de traitements unique
          <xref ref-type="bibr" rid="ref4">(Commenges et al., 2014)</xref>
          . Ces traitements
incluent : l’utilisation de packages spécifiques pour les données spatiales (rgeos et
rgdal), le chargement et le pré-traitement des données à l’échelle des communes,
puis l’agrégation des variables, la création d’un nouveau shapefile par niveau
d’échelle, et d’une liste d’objets spatiaux correspondant aux différents niveaux
d’échelle. Ensuite, à partir de cette liste, des corrélations ont été calculées pour
l’ensemble des variables à chaque niveau d’échelle. Enfin, le ré-échantillonnage
aléatoire des données a été effectué pour les variables explicatives. Plus de 150
000 points aléatoires correspondant au nombre de feux dans la base Prométhée
ont été générés 100 fois à l’aide de la fonction spsample() et agrégé par unité
spatiale grâce à la fonction over(). Les corrélations ont ensuite été calculées
pour chacun des 100 ré-échantillonnages aléatoires et les résultats enregistrés
dans une liste afin d’en extraire le minimum, maximum, et la moyenne par
niveau d’échelle et par corrélation. Lorsque plusieurs niveaux d’échelle possèdent
un coéfficient de corrélation significatif, nous avons calculé la différence avec
le coefficient maximum calculé à partir des données aléatoires de deux
manières : une différence simple et une différence relative (différence divisée par
le coefficient de corrélation de l’échelle considérée).
        </p>
      </sec>
      <sec id="sec-3-3">
        <title>4. Résultats et discussion</title>
        <p>Si nous analysons la variation générale des résultats de la corrélation à
différents niveaux d’échelle, nous observons une relation forte entre le nombre
d’unités spatiales par niveau d’échelle, la part des corrélations significatives et
l’intensité de la corrélation. Plus le niveau d’échelle est haut (c’est-à-dire moins
il y a d’unités spatiales) et, en moyenne, moins les r2 sont significatifs et plus
ils sont grands. A partir des 5 variables dépendantes et des 14 variables
explicatives, nous avions 70 corrélations à calculer pour six niveaux d’échelle, soit
au total 420 corrélations. Sur 420, 173 corrélations sont significatives (p-value
inférieure à 0.05). Parmi les relations significatives, nous avons 44 relations à
la commune, 42 au canton, 39 à l’EPCI, 28 à l’arrondissement, 15 au
département, et 5 à la région. Ce qui fait respectivement sur le nombre de relation par
niveau d’échelle un pourcentage de 63 %, 60 %, 55 %, 40 %, 21.4 %, et 7 %.</p>
        <p>
          Seuls 37 r2 sont supérieurs ou égaux à 0.25, dont seulement 1 à la commune,
6 au niveau des EPCI, 10 des arrondissements, 15 des départements et 5 des
régions. Seuls 11 r2 sont supérieurs ou égaux à 0.5, dont 2 arrondissements, 4
départements, et 5 régions. Parmis eux, 5 sont des coefficients de détermination
très élevés, supérieurs ou égaux à 0.9, tous au niveau des régions. Le r2 moyen
significatif par échelle est de 0.047, 0.087, 0.135, 0.253, 0.410, et 0.931. Ainsi
nous observons que pour un même jeu de données, il y a environ 9 fois plus
de chance de trouver une relation à la commune qu’à la région, 3 fois plus de
chance à la commune qu’au département. Parallèlement, le r2 est
tendanciellement 20 fois plus grand à la région qu’à la commune et 9 fois plus grand au
département qu’à la commune. L’effet d’échelle sur la corrélation est
généralement une augmentation du coefficient de corrélation avec l’augmentation de la
taille des unités spatiales
          <xref ref-type="bibr" rid="ref2">(Blalock M, 1964)</xref>
          , ce que confirme nos résultats.
        </p>
        <p>
          Après cette vision globale, si nous prenons en compte uniquement les couples
de variables dépendantes et explicatives (sans tenir compte des niveaux d’échelle),
nous observons 59 relations significatives à au moins un niveau. En visualisant
la variation des résultats de la corrélation à différentes échelles (Figure 4), il est
possible de détecter des tendances, des anomalies et de sélectionner des
corrélations stables à plusieurs échelles. En effet, certaines relations seraient stables
alors que d’autres resteraient très sensibles à l’effet d’échelle
          <xref ref-type="bibr" rid="ref6">(Fotheringham,
Wong, 1991)</xref>
          . Commencer par sélectionner les corrélations significatives à
plusieurs niveaux d’échelles permet d’écarter un grand nombre de relations, aux
résultats variant trop. Les relations significatives à un seul niveau d’échelle sont
en effet les plus fréquentes, avec 18 cas, soit 30 %. Mais arrivent ensuite les
relations significatives à 5 niveaux d’échelles qui représentent tout de même 20
% et les relations significatives à deux niveaux d’échelle (19 %). Seulement 3
relations sont significatives à toutes les échelles.
        </p>
        <p>Nous avons retenus deux tendances de relations stables : des relations qui
augmentent fortement et des relations qui augmentent légèrement (Figure 4).
Parmi les relations qui augmentent fortement, la relation la plus forte est celle
entre l’occupation du sol des landes, broussailles (etc.) et les densités de
surfaces des feux de forêt : trois niveaux d’échelle dont le r2 est supérieur à 0.5.
La deuxième relation la plus intense qui augmente est celle entre le taux de
chômage et le nombre de feux de forêt, avec quatre niveaux d’échelle dont le r2
est supérieur à 0.25. Bien que ces relations puissent être fortes (r2 proche de 1
à l’échelle régionale, voir premier cas de la Figure 4), comme nous constatons
un accroissement important du coefficient de détermination avec les niveaux
d’échelle, nous pouvons conclure à une forte influence de l’effet d’échelle sur
ces résultats qu’il faudrait donc écarter au profit des relations n’augmentant
que faiblement. Parmi les relations à faible augmentation, nous avons retenu
trois relation qui possèdent trois niveaux d’échelles avec un r2 supérieur à 0.25 :
la densité routière et la densité du nombre de feux (Figure 4), les cultures
permanentes et la densité du nombre de feux, la part des forêts dans l’occupation
du sol et la densité du nombre de feux. Ces relations, bien que moins fortes,
devraient être privilégiées dans l’analyse car elles sont moins sensibles à l’effet
d’échelle.</p>
        <p>Enfin, pour compléter la sélection des résultats en fonction de leur
sensibilité au MAUP, nous proposons déterminer si une échelle est plus ou moins
pertinente en fonction de sa proximité avec des résultats aléatoires (Figure 5).
Ainsi, pour les deux relations que nous avons retenues de notre exemple, nous
pouvons nuancer ce que nous avons dit jusqu’à présent. En effet, dans les deux
cas, le ou les derniers niveaux d’échelle significatifs sont très proches ou inclus
dans l’intervalle gris représentant l’écart entre le maximum et le minimum des
coefficients de détermination calculés aléatoirement. Bien que stable, la relation
entre la densité routière et la densité du nombre des feux est donc
potentiellement similaire à un résultat aléatoire et uniquement le fait de l’échantillonnage
spatial à l’échelle des départements. Elle n’est en cela plus différente de la
relation augmentant fortement avec les échelles. A contrario, cette méthode permet
de sélectionner deux niveaux d’échelle (EPCI et arrondissements) pour la
relation augmentant fortement (relation entre les landes et la densité des surfaces
des feux) grâce au fait que les r2 de ces niveaux sont particulièrement différents
du résultat aléatoire (en différence absolue et relative).</p>
      </sec>
      <sec id="sec-3-4">
        <title>5. Conclusion</title>
        <p>Nos résultats mettent en évidence l’effet d’échelle du MAUP sur l’étude des
causes des feux de forêt. Ils montrent que la corrélation dépend en grande partie
du niveau d’échelle et donc que si une analyse est conduite à un seul niveau,
celle-ci prend le risque de trouver une relation significative qui ne le serait pas à
un autre niveau d’échelle et inversement, ou une relation plus ou moins intense.
L’intensité de la relation semble en grande partie dépendre du niveau d’échelle.
Toutefois, l’explication tient sans doute au fait que le nombre d’individus a
une forte influence sur la résultat de la corrélation. Pour pallier à ce problème
de variation du résultat, nous avons ainsi proposé, d’une part, de visualiser
la variation de la corrélation en fonction des niveaux échelles (Figure 4), et,
d’autre part, de visualiser la différence de ces résultats avec une corrélation
calculée à partir de données issues d’un re-échantillonnage aléatoire (Figure
5). Afin de poursuivre ce travail, cette approche pourrait être complétée par
un test appliqué à d’autres zones d’étude, afin d’observer si nous obtenons des
résultats équivalents avec des variables similaires ou avec d’autres variables. Il
serait également nécessaire d’étendre la méthode à l’étude de l’effet de zonage
et chercher à implémenter des solutions optimales fondées sur la délimitation
de nouveaux découpages en unités spatiales. Par ailleurs, le re-échantillonnage
aléatoire, ici effectué uniquement sur les variables dépendantes, pourraient être
amélioré en ajoutant les variables explicatives.</p>
      </sec>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <given-names>Arsenault J.</given-names>
            ,
            <surname>Michel</surname>
          </string-name>
          <string-name>
            <given-names>P.</given-names>
            ,
            <surname>Berke</surname>
          </string-name>
          <string-name>
            <given-names>O.</given-names>
            ,
            <surname>Ravel</surname>
          </string-name>
          <string-name>
            <given-names>A.</given-names>
            ,
            <surname>Gosselin</surname>
          </string-name>
          <string-name>
            <surname>P.</surname>
          </string-name>
          (
          <year>2013</year>
          ).
          <article-title>How to choose geographical units in ecological studies: Proposal and application to campylobacteriosis. Spatial and Spatio-temporal Epidemiology</article-title>
          , vol.
          <volume>7</volume>
          , p.
          <fpage>11</fpage>
          -
          <lpage>24</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <string-name>
            <surname>Blalock M H.</surname>
          </string-name>
          (
          <year>1964</year>
          ).
          <article-title>Causal inferences on nonexperimental research</article-title>
          .
          <source>Chapel Hill</source>
          , NC: University of North Carolina Press.
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <surname>Charleux L.</surname>
          </string-name>
          (
          <year>2005</year>
          ).
          <article-title>GWR, MAUP et lissage par potentiels</article-title>
          .
          <source>Revue Internationale de Géomatique</source>
          , vol.
          <volume>15</volume>
          -
          <issue>2</issue>
          , p.
          <fpage>195</fpage>
          -
          <lpage>209</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <string-name>
            <given-names>Commenges H.</given-names>
            ,
            <surname>Beauguitte</surname>
          </string-name>
          <string-name>
            <given-names>L.</given-names>
            ,
            <surname>Buard</surname>
          </string-name>
          <string-name>
            <given-names>E.</given-names>
            ,
            <surname>Cura</surname>
          </string-name>
          <string-name>
            <surname>R.</surname>
          </string-name>
          ,
          <string-name>
            <given-names>Le Néchet F.</given-names>
            ,
            <surname>Le Texier</surname>
          </string-name>
          <string-name>
            <surname>M.</surname>
          </string-name>
          et al. (
          <year>2014</year>
          ). R et espace : Traitement de l'information géographique.
          <source>Groupe ElementR</source>
          , Framabook, Paris.
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <given-names>Fotheringham A. S.</given-names>
            ,
            <surname>Brunsdon</surname>
          </string-name>
          ,
          <string-name>
            <surname>C. M.</surname>
          </string-name>
          ,
          <string-name>
            <surname>Charlton.</surname>
          </string-name>
          (
          <year>2000</year>
          ).
          <article-title>Quantitative geography: Perspectives on spatial data analysis</article-title>
          .
          <source>SAGE.</source>
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          <string-name>
            <given-names>Fotheringham A. S.</given-names>
            ,
            <surname>Wong</surname>
          </string-name>
          <string-name>
            <surname>D.</surname>
          </string-name>
          (
          <year>1991</year>
          ).
          <article-title>The modifiable areal unit problem in multivariate statistical analysis</article-title>
          .
          <source>Environment and Planning A</source>
          , vol.
          <volume>23</volume>
          , p.
          <fpage>1025</fpage>
          -
          <lpage>1044</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          <string-name>
            <given-names>Ganteaume A.</given-names>
            ,
            <surname>Jappiot</surname>
          </string-name>
          <string-name>
            <surname>M.</surname>
          </string-name>
          (
          <year>2013</year>
          ).
          <article-title>What causes large fires in southern france</article-title>
          .
          <source>Forest Ecology and Management</source>
          , vol.
          <volume>294</volume>
          , p.
          <fpage>76</fpage>
          -
          <lpage>85</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          <string-name>
            <given-names>Gehlke C.</given-names>
            ,
            <surname>Biehl</surname>
          </string-name>
          <string-name>
            <surname>H.</surname>
          </string-name>
          (
          <year>1934</year>
          ).
          <article-title>Certain effects of grouping upon the size of the correlation coefficient in census tract material</article-title>
          .
          <source>Journal of the American Statistical Association</source>
          , vol.
          <source>supplement 29</source>
          , p.
          <fpage>169</fpage>
          -
          <lpage>170</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          <string-name>
            <given-names>Holt D.</given-names>
            ,
            <surname>Steel</surname>
          </string-name>
          <string-name>
            <given-names>D.</given-names>
            ,
            <surname>Tranmer</surname>
          </string-name>
          <string-name>
            <given-names>M.</given-names>
            ,
            <surname>Wrigley</surname>
          </string-name>
          <string-name>
            <surname>N.</surname>
          </string-name>
          (
          <year>1996</year>
          ).
          <article-title>Aggregation and ecological effects in geographically based data</article-title>
          .
          <source>Geographical Analysis</source>
          , vol.
          <volume>28</volume>
          , p.
          <fpage>244</fpage>
          -
          <lpage>261</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          <string-name>
            <surname>Hui C.</surname>
          </string-name>
          (
          <year>2009</year>
          ).
          <article-title>Foundations of computational intelligence</article-title>
          . In A.-E. Hassanien,
          <string-name>
            <given-names>A.</given-names>
            <surname>Abraham</surname>
          </string-name>
          ,
          <string-name>
            <given-names>F.</given-names>
            <surname>Herrera</surname>
          </string-name>
          (Eds.),, vol.
          <volume>2</volume>
          , p.
          <fpage>175</fpage>
          -
          <lpage>196</lpage>
          . Springer Berlin Heidelberg.
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          <string-name>
            <given-names>Josselin D.</given-names>
            ,
            <surname>Mahfoud</surname>
          </string-name>
          <string-name>
            <given-names>I.</given-names>
            ,
            <surname>Fady</surname>
          </string-name>
          <string-name>
            <surname>B.</surname>
          </string-name>
          (
          <year>2008</year>
          ).
          <article-title>Impact of a change of support on the assessment of biodiversity with shannon entropy</article-title>
          .
          <source>In Spatial Data Handling, SDH'2008"</source>
          , p.
          <fpage>109</fpage>
          -
          <lpage>131</lpage>
          . Montpellier, June,
          <fpage>23</fpage>
          -
          <lpage>25</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          <string-name>
            <surname>King G.</surname>
          </string-name>
          (
          <year>1997</year>
          ).
          <article-title>A solution to the ecological inference problem. reconstructing individual behaviour from aggregate data</article-title>
          . Princeton University Press.
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          <string-name>
            <given-names>King G.</given-names>
            ,
            <surname>Rosen</surname>
          </string-name>
          <string-name>
            <given-names>O.</given-names>
            ,
            <surname>Tanner</surname>
          </string-name>
          <string-name>
            <surname>A</surname>
          </string-name>
          . M. (Eds.). (
          <year>2004</year>
          ).
          <article-title>Ecological inference. new methodological strategies</article-title>
          . Cambridge University Press.
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          <string-name>
            <surname>Mahfoud</surname>
            <given-names>I.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Josselin</surname>
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Fady</surname>
            <given-names>B.</given-names>
          </string-name>
          (
          <year>2007</year>
          ).
          <article-title>Sensibilité des indices de diversité à l'agré- gation</article-title>
          . Revue Internationale de Géomatique, vol.
          <volume>3</volume>
          -
          <issue>4</issue>
          , p.
          <fpage>293</fpage>
          -
          <lpage>308</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          <string-name>
            <surname>Mahfoud</surname>
            <given-names>I.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Josselin</surname>
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Fady</surname>
            <given-names>B.</given-names>
          </string-name>
          (
          <year>2009</year>
          ).
          <article-title>Analyse exploratoire des effets de support spatial et de robustesse statistique sur la fiabilité de la mesure de la (bio)diversité</article-title>
          . Photo-interprétation /
          <source>European Journal of Applied Remote Sensing</source>
          , vol.
          <volume>45</volume>
          , p.
          <fpage>3</fpage>
          -
          <lpage>11</lpage>
          ;
          <fpage>35</fpage>
          -
          <lpage>41</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          <string-name>
            <surname>Openshaw S.</surname>
          </string-name>
          (
          <year>1984</year>
          ).
          <article-title>The modifiable areal unit problem</article-title>
          .
          <source>Norwich: Geo Books, CATMOG</source>
          <volume>38</volume>
          .
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          <string-name>
            <surname>Openshaw S.</surname>
          </string-name>
          , Taylor P. (
          <year>1979</year>
          ).
          <article-title>A million or so correlation coefficients: Three experiments on the modifiable areal unit problem</article-title>
          . In N. Wrigley (Ed.),, p.
          <fpage>127</fpage>
          -
          <lpage>144</lpage>
          .
          <article-title>Statistical Applications in the Spatial Sciences</article-title>
          , London: Pion.
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          <string-name>
            <surname>Robinson A.</surname>
          </string-name>
          (
          <year>1956</year>
          ).
          <article-title>The necessity of weighting values in correlation analysis of areal data</article-title>
          .
          <source>Annals of the Association of American Geographers</source>
          , vol.
          <volume>46</volume>
          , p.
          <fpage>233</fpage>
          -
          <lpage>236</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref19">
        <mixed-citation>
          <string-name>
            <surname>Robinson W.</surname>
          </string-name>
          (
          <year>1950</year>
          ).
          <article-title>Ecological correlations and the behaviour of individuals</article-title>
          .
          <source>American Sociological Review</source>
          , vol.
          <volume>15</volume>
          , p.
          <fpage>351</fpage>
          -
          <lpage>357</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref20">
        <mixed-citation>
          <string-name>
            <surname>Simpson E.</surname>
          </string-name>
          (
          <year>1951</year>
          ).
          <article-title>The interpretation of interaction in contingency tables</article-title>
          .
          <source>Journal of the Royal Statistical Society - Series B (Methodological)</source>
          , vol.
          <volume>13</volume>
          -
          <issue>2</issue>
          , p.
          <fpage>238</fpage>
          -
          <lpage>241</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref21">
        <mixed-citation>
          <string-name>
            <given-names>Steel D.</given-names>
            ,
            <surname>Holt</surname>
          </string-name>
          <string-name>
            <surname>D.</surname>
          </string-name>
          (
          <year>1996</year>
          ).
          <article-title>Rules for random aggregation</article-title>
          .
          <source>Environment and Planning A</source>
          , vol.
          <volume>28</volume>
          , p.
          <fpage>957</fpage>
          -
          <lpage>978</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref22">
        <mixed-citation>
          <string-name>
            <given-names>Swift A.</given-names>
            ,
            <surname>Liu</surname>
          </string-name>
          <string-name>
            <given-names>L.</given-names>
            ,
            <surname>Uber</surname>
          </string-name>
          <string-name>
            <surname>J</surname>
          </string-name>
          . (
          <year>2008</year>
          ).
          <article-title>Reducing maup bias of correlation statistics between water quality and gi illness</article-title>
          .
          <source>Computers, Environment and Urban Systems</source>
          , vol.
          <volume>32</volume>
          , n°2, p.
          <fpage>134</fpage>
          -
          <lpage>148</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref23">
        <mixed-citation>
          <string-name>
            <surname>Tranmer</surname>
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Steel</surname>
            <given-names>D.</given-names>
          </string-name>
          (
          <year>1998</year>
          ).
          <article-title>Using census data to investigate the causes of the ecological fallacy</article-title>
          .
          <source>Environment and Planning A</source>
          , vol.
          <volume>30</volume>
          , p.
          <fpage>817</fpage>
          -
          <lpage>831</lpage>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>