Ida a republié ceci
Faire des prévisions probabilistes en maximisant la vraisemblance ? LA BLAGUE ! Baser l’estimation d’une loi de probabilité sur un unique point de donnée, c’est juste un non-sens statistique complet ! Prenons DeepAR. C’est un modèle de prévision de séries temporelles qui est probabiliste, c’est-à-dire qu’il prédit une distribution de probabilité à chaque pas de temps plutôt qu’une unique valeur. Et il apprend en maximisant la vraisemblance des données. Le problème ? Un modèle avec peu de paramètres prédit une variance énorme. Pourquoi ? Parce qu'il est moins capable de prédire la valeur exacte. Plus il est approximatif, plus il augmente la variance. À l’inverse, le même modèle avec beaucoup de paramètres va overfitter la série temporelle. Il s’accroche à chaque petite fluctuation, même aux bruits aléatoires, et prédit une variance quasi-nulle. Bingo, la vraisemblance est maximisée, mais pour une seule donnée, ce qui n’a juste aucun sens. Ces modèles ne généralisent donc pas bien, conduisant à des prévisions trompeuses et in fine à des décisions erronées. Alors que faire ? Utiliser des loss comme la CRPS, des méthodes de recalibration ou, mieux, des méthodes mathématiquement solides comme la prédiction conforme. Ces techniques produisent des intervalles de confiance valides, reflétant réellement l’incertitude des prévisions, au lieu de donner une fausse impression de précision.