Practical Machine Learning for Decentralized Finance and Smart Contract Security

Machine Learning Decentralized Finance Smart Contracts Model Serving Financial Forecasting Malware Detection Apprentissage Automatique Finance Décentralisée Contrats Intelligents Déploiement de Modèles Prévision Financière Détection de Logiciels Malveillants

Abstract

Cette thèse étudie la conception, l’implémentation et l’évaluation de systèmes d’Apprentissage Automatique (ML) reproductibles dans deux domaines distincts mais conceptuellement liés : la finance décentralisée (DeFi) et la sécurité des contrats intelligents (SCs). Dans ces deux contextes, la recherche vise à traduire des fondements théoriques en cadres opérationnels transparents, fondés sur les données et adaptés aux environnements réels.

La première partie analyse la dynamique des marchés de cryptomonnaies, marqués par une forte volatilité et de fortes interdépendances entre actifs. À partir de preuves empiriques de corrélations croisées persistantes, l’étude développe et valide des modèles de prévision exploitant les trajectoires de monnaies liées comme variables prédictives. Ces travaux conduisent à la conception de CryptoAnalytics, une boîte à outils Python open source automatisant l’ensemble de la chaîne de prévision, de la collecte et du prétraitement des données au déploiement des modèles. En intégrant des GBMs et des RNNs dans une architecture modulaire, CryptoAnalytics relie reproductibilité de la recherche et applicabilité opérationnelle, soutenant l’expérimentation académique comme les services de prévision en production.

La deuxième partie porte sur la sécurité des blockchains et la détection de contrats intelligents malveillants. Elle introduit PhishingHook, premier cadre reproductible de détection de contrats d’hameçonnage sur Ethereum par analyse statique au niveau opcode. PhishingHook unifie la construction de jeux de données, le désassemblage du bytecode et l’évaluation de seize modèles de ML et de DL de différentes familles au sein d’un environnement unique. Les résultats montrent que les représentations statiques des opcodes atteignent une précision élevée (environ 90%) sans dépendre des données utilisateurs ni des traces d’exécution, tout en restant robustes face à la dégradation temporelle. Une analyse statistique approfondie et des méthodes d’interprétabilité post hoc garantissent en outre la transparence et la fiabilité des évaluations.

En complément, cette thèse présente la première étude systématique de l’obfuscation du bytecode EVM et de son impact sur la détection de logiciels malveillants dans les contrats intelligents. À partir d’une évaluation de deux outils d’obfuscation couvrant 27 configurations, l’analyse montre comment la réécriture structurelle affecte la validité du bytecode, la préservation sémantique, le coût en gaz et la robustesse des modèles de détection. Les résultats révèlent les limites des techniques actuelles et indiquent que les classifieurs fondés sur des représentations visuelles restent particulièrement résilients face à des distorsions agressives du flot de contrôle.

Cette thèse montre comment des systèmes de ML reproductibles relient modélisation théorique et déploiement opérationnel, en permettant une prévision interprétable en finance et une détection proactive et transparente des menaces en sécurité des blockchains. En unifiant ces contributions sous une philosophie méthodologique commune, elle contribue au développement de systèmes intelligents ouverts, fiables et adaptatifs pour des environnements décentralisés et riches en données.

ABSTRACT

This dissertation examines the design, implementation, and evaluation of reproducible Machine Learning (ML) systems across two distinct yet conceptually connected domains: Decentralized Finance (DeFi) and Smart Contract (SC) security. In both areas, the research aims to translate theoretical insights into operational frameworks that are transparent, data-driven, and adaptable to real-world deployment.

The first part focuses on the dynamics of cryptocoin markets, characterized by high volatility and strong interdependencies among assets. Building on empirical evidence of persistent cross-correlations, the study develops and validates correlation-driven forecasting models that exploit related coin trajectories as predictive signals. These insights culminate in the design of CryptoAnalytics, an open-source Python toolkit that automates the entire forecasting pipeline, from data collection and preprocessing to model training, validation, and deployment. By integrating Gradient-Boosting Machines (GBMs) and Recurrent Neural Networks (RNNs) within a modular architecture, CryptoAnalytics bridges research reproducibility with operational applicability, supporting both academic experimentation and production-grade prediction services.

The second part turns to blockchain security and the detection of malicious SCs in decentralized ecosystems. Here, the dissertation introduces PhishingHook, the first reproducible framework for detecting phishing contracts on Ethereum through static opcode-level analysis. PhishingHook unifies dataset construction, bytecode disassembly, and model benchmarking within a single environment, evaluating sixteen ML and Deep Learning (DL) models across multiple families. Results demonstrate that static opcode representations achieve high accuracy (around 90%) without relying on user data or runtime traces, while remaining robust to temporal performance decay. Comprehensive statistical analysis and post hoc interpretability further ensure transparency and reliability in the evaluation.

In addition, this dissertation presents the first systematic study of Ethereum Virtual Machine (EVM) bytecode obfuscation and its impact on SC malware detection. Through an extensive evaluation of two obfuscation tools across 27 transformation configurations, the analysis reveals how structural rewriting affects bytecode validity, semantic preservation, gas cost, and the robustness of diverse detection models. The results highlight significant limitations in current obfuscation techniques and demonstrate that vision-based classifiers remain notably resilient under aggressive control-flow distortion.

Overall, this dissertation demonstrates how reproducible ML systems can bridge the gap between theoretical modeling and operational deployment. In the financial domain, they enable interpretable and data-driven forecasting; in blockchain security, they establish practical foundations for proactive and transparent threat detection. By unifying these contributions under a shared methodological philosophy, the work advances the broader goal of developing open, reliable, and adaptive intelligent systems for data-intensive, decentralized environments.

Notes

Approved by the dissertation committee :
Prof. tit. Valerio Schiavoni thesis co-director and reviewer • University of Neuchâtel, Switzerland
Prof. Pascal Felber thesis co-director • University of Neuchâtel, Switzerland
Prof. Miguel Matos reviewer • University of Lisbon, Portugal
Prof. Giuseppe Di Luna reviewer • University of Rome La Sapienza, Italy
Prof. Lydia Chen expert • University of Neuchâtel, Switzerland

Defended on December 11, 2025

No de thèse : 3240