Options
Discrete stochastic inversion: getting closer to hydrogeological applications
Maison d'édition
Neuchâtel
Date de parution
2022
Mots-clés
- Géostatistique
- problème inverse
- quantification de l’incertitude
- inversion stochastique
- posterior population expansion
- méthodes de Monte Carlo
- assimilation de données
- ensemble smoother
- apprentissage automatique
- classification binaire
- réseaux neuronaux
- statistique multipoints
- validation croisée
- écoulement des eaux souterraines et transport
- champs catégoriels
- geostatistics
- inverse problem
- uncertainty quantification
- stochastic inversion
- posterior population expansion
- Monte Carlo sampling
- data assimilation
- ensemble smoother
- machine learning
- binary classification
- deep learning
- multiple-point statistics
- cross-validation
- groundwater flow and transport
- categorical fields
Géostatistique
problème inverse
quantification de l’i...
inversion stochastiqu...
posterior population ...
méthodes de Monte Car...
assimilation de donné...
ensemble smoother
apprentissage automat...
classification binair...
réseaux neuronaux
statistique multipoin...
validation croisée
écoulement des eaux s...
champs catégoriels
geostatistics
inverse problem
uncertainty quantific...
stochastic inversion
posterior population ...
Monte Carlo sampling
data assimilation
ensemble smoother
machine learning
binary classification...
deep learning
multiple-point statis...
cross-validation
groundwater flow and ...
categorical fields
Résumé
Les méthodes d’inversion discrète stochastiques permettent de reproduire correctement la situation géologique et de quantifier l’incertitude. Ces deux aspects sont cruciaux pour la gestion des eaux souterraines et pour l’application des méthodes stochastiques en hydrogéologie. Cependant, dans la pratique ces méthodes présentent deux défis majeurs : le choix d’une représentation a priori correcte et un coût de calcul élevé. Cette thèse aborde ces problèmes afin de faciliter les applications futures de l’inversion stochastique discrète sur les données hydrogéologiques.
Des stratégies sont présentées pour la sélection de la représentation a priori dans le contexte des simulations géostatistiques, et en particulier des simulations multipoints. Lorsque des données de conditionnement sont disponibles, une méthode de validation croisée pour les variables catégorielles peut être utilisé. Cette méthode permet de régler n’importe quel paramètre des simulations géostatistiques, par exemple le choix de l’image d’entraînement pour les simulations multipoints. Un cas test avec un modèle simplifié de l’aquifère de la plaine du Roussillon a confirmé la validité de la méthode. Un autre outil présenté dans cette thèse est l’algorithme DSBC (Direct Sampling Best Candidate), qui possède moins de paramètres algorithmiques que l’algorithme DS (Direct Sampling). Il conserve néanmoins tous les avantages de DS, mais simplifie le choix des paramètres, qui est souvent effectué avant l’inversion. Pour les cas tests que nous avons étudiés, la qualité de simulation de DSBC était meilleure que celle de DS pour les simulations conditionnelles, et légèrement moins bonne, mais satisfaisante, pour les simulations non conditionnelles.
Quant à l’amélioration des performances computationnelles de l’inversion, des algorithmes d’apprentissage automatique sont proposés pour accélérer l’algorithme PoPEx (posterior population expansion). Avec le Random Forest et AdaBoost, des facteurs d’accélération de PoPEx d’environ deux fois ont été observés, lorsqu’ils ont été appliqués à un cas synthétique d’inversion des données d’essai de traçage. Ces techniques pourraient être utilisées pour d’autres algorithmes d’inversion Monte Carlo. Une autre solution pour améliorer la convergence (et la quantification de l’incertitude) PoPEx a également été développée : la vraisemblance tempérée (tempered likelihood ). Elle permet d’éviter de réduire la dimensionnalité des données avant l’inversion (comme suggéré par les études précédentes sur PoPEx) et atténue le problème d’une fonction de vraisemblance très pointue. Le point final de la thèse est une comparaison de trois méthodes récentes d’inversion discrète : PoPEx, ensemble smoother with multiple data assimilation (ESMDA), et DREAM-ZS. Un cas avec les données synthétiques (mais réalistes) d’un test de pompage a montré que les trois méthodes sont assez performantes, à condition d’utiliser la représentation du prior correcte. Cependant, le choix du prior est essentiel, et avec des représentations mauvaises, représentées par différentes images d’entraînement, les performances des méthodes sont fortement affectées. Les performances ont été mesurées à l’aide de scores probabilistes sur des données assimilées et sur la zone de protection des eaux souterraines de 10 jours.<br>
<b>Abstract</b>
Stochastic discrete inversion methods allow capturing geological realism and quantify uncertainty, the two aspects that are crucial for groundwater management and the application of stochastic methods in hydrogeology. However, these methods present two major practical challenges: the choice of a correct prior representation and a high computational cost. This thesis addresses these challenges to facilitate future applications of discrete stochastic inversion on hydrogeological data.
Strategies for prior selection in the context of geostatistical simulations, and in particular multiple-point statistics are presented. When prior conditioning data is available, a cross-validation framework for categorical variables can be used with scoring rules. The framework can be used for tuning every parameter of geostatistical simulations, for example, choosing the training image for multiple point-statistics. A test case representing a simplified model of the Roussillon plain aquifer confirms the validity of the framework. Another tool presented in this thesis is the Direct Sampling Best Candidate (DSBC) algorithm, which has fewer algorithmic features than the Direct Sampling (DS) algorithm. It retains, however, all the advantages of DS, but simplifies the choice of the parameters, which is often done before the inversion. For the test cases that we studied, the simulation quality of DSBC was better than DS for conditional simulations, and slightly worse, but satisfactory, for unconditional simulations.
As for improving the computational performance of the inversion, machine learning algorithms are proposed to speed-up posterior population expansion (PoPEx). With random forest and AdaBoost, speed-up factors of PoPEx of around two times were observed, when applied to a synthetic tracer test data. These machine learning techniques have the potential to be used for other Monte Carlo inversions. Another solution for improving PoPEx convergence was also developed: a tempered likelihood, allowing to improve the uncertainty quantification. It alleviates the need to reduce the dimensionality of the data before inversion (as suggested by previous studies on PoPEx) and mitigates the problem of a very sharp likelihood function. The final point of the thesis is a comparison of three recent discrete inversion methods: PoPEx, ensemble smoother with multiple data assimilation, and DREAM-ZS. A synthetic but realistic pumping test case showed that all three methods perform fairly well, provided that a correct prior is used. However, the choice of the prior is essential, and with wrong priors, represented by different training images, the performance of the methods is strongly affected. The performance was measured with probabilistic scores on assimilated data and the 10-day groundwater protection zone.
Des stratégies sont présentées pour la sélection de la représentation a priori dans le contexte des simulations géostatistiques, et en particulier des simulations multipoints. Lorsque des données de conditionnement sont disponibles, une méthode de validation croisée pour les variables catégorielles peut être utilisé. Cette méthode permet de régler n’importe quel paramètre des simulations géostatistiques, par exemple le choix de l’image d’entraînement pour les simulations multipoints. Un cas test avec un modèle simplifié de l’aquifère de la plaine du Roussillon a confirmé la validité de la méthode. Un autre outil présenté dans cette thèse est l’algorithme DSBC (Direct Sampling Best Candidate), qui possède moins de paramètres algorithmiques que l’algorithme DS (Direct Sampling). Il conserve néanmoins tous les avantages de DS, mais simplifie le choix des paramètres, qui est souvent effectué avant l’inversion. Pour les cas tests que nous avons étudiés, la qualité de simulation de DSBC était meilleure que celle de DS pour les simulations conditionnelles, et légèrement moins bonne, mais satisfaisante, pour les simulations non conditionnelles.
Quant à l’amélioration des performances computationnelles de l’inversion, des algorithmes d’apprentissage automatique sont proposés pour accélérer l’algorithme PoPEx (posterior population expansion). Avec le Random Forest et AdaBoost, des facteurs d’accélération de PoPEx d’environ deux fois ont été observés, lorsqu’ils ont été appliqués à un cas synthétique d’inversion des données d’essai de traçage. Ces techniques pourraient être utilisées pour d’autres algorithmes d’inversion Monte Carlo. Une autre solution pour améliorer la convergence (et la quantification de l’incertitude) PoPEx a également été développée : la vraisemblance tempérée (tempered likelihood ). Elle permet d’éviter de réduire la dimensionnalité des données avant l’inversion (comme suggéré par les études précédentes sur PoPEx) et atténue le problème d’une fonction de vraisemblance très pointue. Le point final de la thèse est une comparaison de trois méthodes récentes d’inversion discrète : PoPEx, ensemble smoother with multiple data assimilation (ESMDA), et DREAM-ZS. Un cas avec les données synthétiques (mais réalistes) d’un test de pompage a montré que les trois méthodes sont assez performantes, à condition d’utiliser la représentation du prior correcte. Cependant, le choix du prior est essentiel, et avec des représentations mauvaises, représentées par différentes images d’entraînement, les performances des méthodes sont fortement affectées. Les performances ont été mesurées à l’aide de scores probabilistes sur des données assimilées et sur la zone de protection des eaux souterraines de 10 jours.<br>
<b>Abstract</b>
Stochastic discrete inversion methods allow capturing geological realism and quantify uncertainty, the two aspects that are crucial for groundwater management and the application of stochastic methods in hydrogeology. However, these methods present two major practical challenges: the choice of a correct prior representation and a high computational cost. This thesis addresses these challenges to facilitate future applications of discrete stochastic inversion on hydrogeological data.
Strategies for prior selection in the context of geostatistical simulations, and in particular multiple-point statistics are presented. When prior conditioning data is available, a cross-validation framework for categorical variables can be used with scoring rules. The framework can be used for tuning every parameter of geostatistical simulations, for example, choosing the training image for multiple point-statistics. A test case representing a simplified model of the Roussillon plain aquifer confirms the validity of the framework. Another tool presented in this thesis is the Direct Sampling Best Candidate (DSBC) algorithm, which has fewer algorithmic features than the Direct Sampling (DS) algorithm. It retains, however, all the advantages of DS, but simplifies the choice of the parameters, which is often done before the inversion. For the test cases that we studied, the simulation quality of DSBC was better than DS for conditional simulations, and slightly worse, but satisfactory, for unconditional simulations.
As for improving the computational performance of the inversion, machine learning algorithms are proposed to speed-up posterior population expansion (PoPEx). With random forest and AdaBoost, speed-up factors of PoPEx of around two times were observed, when applied to a synthetic tracer test data. These machine learning techniques have the potential to be used for other Monte Carlo inversions. Another solution for improving PoPEx convergence was also developed: a tempered likelihood, allowing to improve the uncertainty quantification. It alleviates the need to reduce the dimensionality of the data before inversion (as suggested by previous studies on PoPEx) and mitigates the problem of a very sharp likelihood function. The final point of the thesis is a comparison of three recent discrete inversion methods: PoPEx, ensemble smoother with multiple data assimilation, and DREAM-ZS. A synthetic but realistic pumping test case showed that all three methods perform fairly well, provided that a correct prior is used. However, the choice of the prior is essential, and with wrong priors, represented by different training images, the performance of the methods is strongly affected. The performance was measured with probabilistic scores on assimilated data and the 10-day groundwater protection zone.
Notes
Doctorat, Université de Neuchâtel, Centre d'Hydrogéologie et de Géothermie
Identifiants
Type de publication
doctoral thesis
Dossier(s) à télécharger