Foresportia Technical Note I : probabilités, IA et incertitude appliquées à la prédiction football
🧠

Cadre

Cet article ouvre une série de six notes techniques sur Foresportia. L’objectif n’est pas de présenter une promesse de résultat, mais de décrire comment un match de football peut être modélisé comme un problème probabiliste incertain, puis évalué sur des données historiques.

📌

En bref

Foresportia ne cherche pas à “deviner” le futur. Le modèle estime une distribution de probabilités sur les issues possibles d’un match, puis mesure si cette distribution contient un signal exploitable. Sur le snapshot étudié de 14 623 matchs terminés, l’accuracy globale 1X2 est d’environ 54,0 %, mais les matchs classés Stable + Correct atteignent 78,5 % d’accuracy observée sur 21,9 % du volume.

Pourquoi cette série technique ?

Beaucoup de contenus de prédiction football réduisent un match à une réponse fermée : une équipe favorite, un score probable, un pourcentage affiché. Cette présentation est lisible, mais elle masque souvent le point central : un match de football est un événement probabiliste, bruité et fortement contextualisé.

Foresportia adopte une lecture différente. Le modèle ne cherche pas à transformer le football en système déterministe. Il cherche à estimer une distribution de probabilités, à mesurer la lisibilité de cette distribution, puis à vérifier sur les matchs terminés si cette lecture est cohérente avec les fréquences observées.

Cette première note pose donc le socle de toute la série. Elle ne détaille pas encore chaque module, mais elle explique le problème mathématique, la nature des données historiques, les premières métriques empiriques et la raison pour laquelle une probabilité doit toujours être accompagnée d’une mesure d’incertitude.

Cette note dans la série Foresportia Technical Notes

Cette page est le point d’entrée de la série. Elle introduit le problème global : passer d’un match réel à une distribution probabiliste exploitable. Les notes suivantes détaillent ensuite chaque brique du système.

1. Le football : un problème difficile à trois issues

En football, le résultat final d’un match peut être représenté par une variable aléatoire à trois classes :

Y ∈ {H, D, A} H = victoire domicile · D = match nul · A = victoire extérieure

Cette écriture paraît simple, mais elle change déjà la nature du problème. Le football n’est pas une classification binaire “gagne / perd”. Le match nul est une issue structurelle, fréquente, qui absorbe une partie importante de la masse de probabilité. Il ne suffit donc pas de mesurer quelle équipe est “meilleure” : il faut aussi estimer la probabilité que cette supériorité ne se traduise pas par une victoire.

  • Faible nombre de buts : un seul événement peut changer totalement l’issue finale.
  • Variance élevée : penalty, carton rouge, erreur individuelle ou but tardif peuvent dominer le signal statistique.
  • Match nul structurel : une équipe peut être favorite sans que la probabilité de victoire dépasse fortement les alternatives.
  • Contexte mouvant : forme récente, calendrier, fatigue, classement, enjeu, rotations et dynamique de saison.
  • Hétérogénéité des ligues : les compétitions n’ont pas toutes le même rythme, la même fréquence de nuls ou la même stabilité.

Le problème mathématique n’est donc pas “qui va gagner ?”, mais plutôt :

P(Y | X)

Cette notation signifie : quelle est la probabilité de chaque issue Y, sachant l’information disponible avant le match X ? Dans Foresportia, X peut contenir des signaux d’équipes, des signaux de ligue, des informations de forme, des éléments de classement, des estimations ELO, des priors de buts, des données historiques et des variables contextuelles.

Lecture de l’équation

Le point important est le conditionnement. Le modèle ne cherche pas une vérité absolue sur le match ; il cherche une distribution conditionnelle à l’information disponible. Si X est pauvre, bruité ou incomplet, la probabilité doit rester prudente. Si plusieurs signaux convergent, la distribution peut devenir plus concentrée.

2. Une base empirique de 14 623 matchs terminés

Cette note s’appuie sur un snapshot historique de 14 623 matchs terminés suivis par Foresportia. Chaque ligne ne représente pas seulement un résultat final : elle relie une prédiction pré-match à un résultat observé. C’est cette structure qui permet de vérifier le modèle.

Pour chaque match, l’historique contient notamment les probabilités 1X2 publiées avant match, le score final, l’issue observée, la probabilité maximale, l’entropie, la marge de décision, la ligue, le badge de stabilité et, lorsque disponible, des signaux dérivés sur les buts ou le contexte.

14 623matchs terminés analysés
54,0 %accuracy globale 1X2
78,5 %accuracy Stable + Correct
21,9 %couverture Stable + Correct
Distribution des issues réelles sur l'historique Foresportia : victoire domicile, nul, victoire extérieure
Figure 1 — Distribution des issues réelles dans l’historique Foresportia.
Issue réelleMatchsFréquence
Victoire domicile6 38443,7 %
Match nul3 81226,1 %
Victoire extérieure4 42730,3 %
Ce que ces données montrent

La victoire domicile est l’issue la plus fréquente, mais elle ne représente que 43,7 % des matchs. Cela signifie qu’un modèle qui prédirait systématiquement le domicile échouerait encore plus d’une fois sur deux. Le match nul, à 26,1 %, est trop fréquent pour être traité comme une anomalie. Il doit être modélisé comme une issue à part entière.

Cette base sert donc à deux choses : mesurer la performance globale, mais aussi analyser où le modèle est bon, où il est fragile, et dans quels segments les probabilités deviennent réellement informatives.

3. Prédire une distribution, pas une certitude

Foresportia estime une distribution de probabilité :

p̂ = (p̂H, p̂D, p̂A) H + p̂D + p̂A = 1

Cette contrainte de somme à 1 est essentielle. Elle signifie que le modèle répartit une masse de probabilité entre plusieurs scénarios concurrents. Augmenter la probabilité d’une issue implique nécessairement de réduire la masse disponible pour les autres.

La prédiction principale est l’issue dont la probabilité est maximale :

ŷ = argmaxc ∈ {H,D,A}c

L’opérateur argmax transforme une distribution en un choix unique. C’est utile pour calculer une accuracy, mais cela détruit une partie de l’information. Un top pick à 38 % et un top pick à 72 % sont tous les deux des prédictions au sens classification, mais ils ne portent pas le même niveau de confiance.

Exemple de lecture

Une distribution (0.52, 0.25, 0.23) indique un favori plus lisible qu’une distribution (0.38, 0.31, 0.31). Dans les deux cas, il existe une issue la plus probable, mais dans le second cas les alternatives restent très proches. C’est précisément ce que les notes suivantes formaliseront avec la marge, l’entropie et les badges.

Une probabilité n’est donc pas une promesse. Une probabilité de 60 % échoue encore environ 4 fois sur 10. Le modèle doit être jugé sur des groupes de matchs comparables, pas sur un match isolé.

4. Baselines simples : pourquoi le modèle doit faire mieux qu’une règle naïve

Avant de parler d’IA, il faut comparer le modèle à des règles simples. Une baseline n’est pas un concurrent sophistiqué : c’est un garde-fou méthodologique. Elle répond à une question simple : le modèle apporte-t-il plus qu’une heuristique évidente ?

MéthodeCouvertureAccuracy
Toujours domicile14 623 matchs43,7 %
Favori au classement14 457 matchs47,4 %
Favori ELO simple3 729 matchs42,8 %
Foresportia 1X214 623 matchs54,0 %
+10,3 pts vs toujours domicile +6,6 pts vs favori classement +26,1 % relatif vs domicile
Interprétation

Dépasser la baseline “toujours domicile” est important, car cette règle exploite déjà une asymétrie réelle du football : les équipes à domicile gagnent plus souvent. Le gain de Foresportia signifie que le modèle ne se contente pas de reproduire l’avantage domicile ; il utilise des signaux supplémentaires pour déplacer la probabilité vers le nul ou l’extérieur lorsque les données le justifient.

Le vrai enjeu n’est cependant pas seulement l’accuracy globale. Une accuracy de 54,0 % mélange des matchs très lisibles, des matchs équilibrés et des matchs instables. La suite de l’article montre pourquoi il faut analyser la distribution elle-même.

5. Une architecture hybride : statistiques, probabilités et machine learning

Foresportia n’est pas uniquement un modèle de Poisson. Ce n’est pas non plus une boîte noire de machine learning. L’approche est hybride : des blocs statistiques structurent le problème, puis des couches de calibration et d’ajustement apprennent à rendre les probabilités plus cohérentes avec l’historique.

p̂ = fθ(Xteam, Xleague, Xcontext, Xhistorical)

Dans cette écriture, fθ représente la fonction qui transforme les variables pré-match en probabilités. Les paramètres θ ne doivent pas être compris comme une seule formule magique : ils peuvent regrouper des pondérations, des calibrations, des seuils, des paramètres par ligue et des ajustements appris à partir de l’historique.

  • Données d’équipes : attaque, défense, buts marqués, buts encaissés, forme récente.
  • Données de ligue : rythme moyen, fréquence des nuls, priors Over/BTTS, niveau de dispersion.
  • Contexte : domicile/extérieur, classement, progression de saison, fiabilité ELO.
  • Historique : performances passées, calibration par ligue, erreurs observées, stabilité des segments.
Pourquoi c’est important

Un modèle uniquement basé sur les buts attendus risque d’être trop mécanique. Un modèle uniquement machine learning risque d’être peu interprétable et sensible au bruit. L’hybridation permet de garder une structure probabiliste lisible tout en utilisant les données historiques pour corriger les biais, ajuster les niveaux de confiance et calibrer les sorties.

⚙️

Point important

L’IA n’est pas utilisée comme argument magique. Dans Foresportia, elle sert à combiner les signaux, détecter les zones de mauvaise calibration, ajuster les probabilités et construire des niveaux de confiance. La Technical Note II détaille précisément cette couche machine learning.

6. Des forces d’équipe aux buts attendus

Une étape importante consiste à estimer les buts attendus pour chaque équipe :

λH = buts attendus domicile λA = buts attendus extérieur

Un lambda n’est pas une prédiction de score. λH=1.6 ne signifie pas que l’équipe à domicile va marquer exactement 1,6 but. Cela signifie que, dans un modèle de comptage, l’intensité offensive attendue se situe autour de ce niveau. Cette intensité sert ensuite à répartir la probabilité entre les scores possibles.

Ces valeurs ne sont pas de simples moyennes historiques. Elles doivent tenir compte de la force offensive de l’équipe, de la solidité défensive adverse, du domicile/extérieur, du rythme de la ligue, de la forme récente, du classement, de l’ELO et de garde-fous lorsque les données disponibles sont faibles.

λH = AttackH × DefenseA × ContextH λA = AttackA × DefenseH × ContextA
Lecture de l’équation

Cette formule simplifiée montre que les buts attendus sont une interaction entre deux équipes, pas une propriété isolée. Une attaque forte ne produit pas le même lambda contre une défense faible ou une défense dominante. Le contexte modifie ensuite l’intensité : domicile, rythme de compétition, forme et fiabilité de l’historique.

7. De la grille de scores aux probabilités 1X2

À partir des lambdas, le modèle construit une distribution sur les scores possibles :

P(GH = i, GA = j)

Cette expression désigne la probabilité du score exact i-j. En pratique, le modèle ne s’intéresse pas à un seul score : il construit une grille de scores et répartit une masse de probabilité sur cette grille.

Dans le cas le plus simple, on peut utiliser une loi de Poisson :

GH ~ Poisson(λH) GA ~ Poisson(λA) P(G = k) = e λkk!

Cette loi est utile parce qu’elle modélise des événements de comptage rares : 0, 1, 2, 3 buts, etc. Elle n’est toutefois qu’un point de départ. Dans le football réel, les buts peuvent être corrélés, certaines ligues sont plus ouvertes, certains petits scores sont surreprésentés, et les données peuvent être trop rares pour certaines équipes.

Le moteur Foresportia peut donc intégrer de la surdispersion, des corrections sur les petits scores, des effets de ligue, des garde-fous sur les données faibles et des mécanismes de calibration.

P(H) = Σi>j P(GH=i, GA=j) P(D) = Σi=j P(GH=i, GA=j) P(A) = Σi<j P(GH=i, GA=j)
Pourquoi sommer la grille ?

Le 1X2 est une agrégation de scénarios de score. Tous les scores où le domicile marque plus que l’extérieur contribuent à P(H). Tous les scores égaux contribuent à P(D). Tous les scores où l’extérieur marque plus contribuent à P(A). Cela relie directement le modèle des buts à la distribution 1X2.

8. Calibration : transformer une probabilité brute en probabilité exploitable

Une probabilité brute peut être mal calibrée. Un modèle peut annoncer beaucoup de matchs à 70 % alors que ces événements ne se réalisent que 60 % du temps. Dans ce cas, il est trop confiant. À l’inverse, un modèle peut être trop prudent et sous-estimer ses propres signaux.

c = exp(zc/T)Σk exp(zk/T)

Ici, zc représente un score interne associé à l’issue c, et T une température de calibration. Lorsque T augmente, la distribution devient plus prudente : les probabilités extrêmes sont ramenées vers le centre. Lorsque T diminue, la distribution devient plus tranchée.

Pourquoi la calibration est centrale

La calibration est le pont entre un score de modèle et une probabilité interprétable. Un classement correct des matchs ne suffit pas : si le modèle affiche 70 %, cette zone doit tendre vers environ 70 % de réussite observée sur un volume suffisant. C’est l’un des endroits où l’IA et le machine learning apportent une valeur concrète : apprendre où le modèle doit être corrigé.

9. Quand la probabilité maximale devient informative

La probabilité maximale est définie par :

pmax = max(p̂H, p̂D, p̂A)

Si le modèle est utile, les matchs avec une probabilité maximale plus élevée doivent réussir plus souvent. C’est exactement ce qui apparaît dans l’historique Foresportia.

p_max mesure l’intensité du signal dominant. Il ne dit pas encore tout sur la qualité du match, mais il donne une première information : le modèle voit-il une issue clairement plus probable que les autres ?

Accuracy observée selon la probabilité maximale Foresportia
Figure 2 — Plus la probabilité maximale augmente, plus la réussite observée augmente.
pmaxMatchsAccuracy observée
35–40 %3 65740,5 %
40–45 %3 19346,4 %
45–50 %2 33354,2 %
50–55 %1 65760,5 %
55–60 %1 19966,0 %
60–65 %83271,5 %
65–70 %52479,6 %
70–75 %37083,8 %
75–80 %23090,4 %
80 % +19990,5 %
Ce que montre la courbe p_max

Le passage de la zone 35–40 % à la zone 70–75 % fait passer l’accuracy observée de 40,5 % à 83,8 %. Cela confirme que p_max n’est pas décoratif : il contient une information réelle sur la concentration du signal. Mais ce n’est pas suffisant : une probabilité élevée peut encore être fragilisée par une entropie élevée, une mauvaise calibration ou un contexte sportif instable.

10. Entropie : mesurer la lisibilité de la distribution

La probabilité maximale ne décrit pas toute la distribution. Pour mesurer son degré de dispersion, on utilise l’entropie :

H(p̂) = - Σc ∈ {H,D,A}c log2(p̂c) Hmax = log2(3) ≈ 1.585
Accuracy observée selon l'entropie de la distribution 1X2
Figure 3 — L’accuracy observée diminue lorsque l’entropie de la distribution augmente.
Entropie 1X2MatchsAccuracy observée
< 1.1057991,0 %
1.10–1.2566082,1 %
1.25–1.3583774,6 %
1.35–1.451 68867,0 %
1.45–1.501 53360,1 %
1.50–1.553 08252,4 %
1.55–1.5856 24440,6 %
Interprétation statistique

L’écart entre les distributions très peu entropiques (< 1.10) et les distributions très entropiques (1.55–1.585) est massif : 91,0 % contre 40,6 %. Cela montre que la qualité d’un pronostic dépend de la forme complète de la distribution, pas seulement de l’issue arrivée en tête.

L’entropie agit donc comme une mesure de lisibilité. Elle ne remplace pas la probabilité, mais elle dit si la probabilité dominante est isolée ou noyée dans une distribution presque uniforme.

11. Des probabilités aux badges de stabilité

Foresportia ne publie pas seulement une probabilité brute. Le modèle associe aussi un niveau de stabilité :

B ∈ {Stable, Correct, Risk}

Une formulation simplifiée du score de confiance peut s’écrire :

C = w1pmax + w2m + w3(1 - HHmax) + w4Sleague + w5Scontext
Performance observée par badge de stabilité Foresportia
Figure 4 — Les badges de stabilité séparent les zones de signal exploitable et les zones incertaines.
SegmentMatchsCouvertureAccuracy
Stable1 3719,4 %85,3 %
Correct1 83812,6 %73,5 %
Stable + Correct3 20921,9 %78,5 %
Risk11 41478,1 %47,1 %
Tous matchs14 623100 %54,0 %
+24,5 pts Stable+Correct vs global 21,9 % de couverture Risk : 78,1 % du volume
Ce que les badges apportent

L’accuracy globale de 54,0 % masque deux régimes statistiques. Le segment Stable + Correct couvre seulement 21,9 % des matchs, mais atteint 78,5 % d’accuracy observée. Le segment Risk couvre la majorité du volume, mais tombe à 47,1 %. La segmentation ne sert donc pas à embellir le modèle : elle sépare les zones où le signal est exploitable des zones où l’incertitude reste dominante.

12. Première lecture de calibration : probabilité prédite vs fréquence observée

Un modèle probabiliste doit être évalué autrement qu’un simple classifieur. Il faut comparer les probabilités annoncées aux fréquences réellement observées.

Courbe de fiabilité simplifiée des probabilités Foresportia
Figure 5 — Probabilité moyenne prédite vs fréquence observée de réussite.

Cette figure est volontairement présentée comme une première lecture. Elle ne remplace pas une validation complète, mais elle illustre le principe : une probabilité utile doit pouvoir être confrontée aux fréquences observées.

Ce que la calibration vérifie

Si une zone de probabilité moyenne à 60 % réussit seulement 48 % du temps, le modèle est trop confiant dans cette zone. Si elle réussit 72 % du temps, il est trop prudent. La Technical Note VI reviendra sur cette question avec Brier score, log loss, Expected Calibration Error et drift temporel.

13. Toutes les ligues ne se comportent pas de la même façon

Les performances ne sont pas homogènes d’une ligue à l’autre. Cela justifie l’utilisation de paramètres par ligue, de priors spécifiques, de garde-fous et de mécanismes de calibration. Une compétition plus ouverte, plus instable ou moins bien couverte historiquement peut dégrader la fiabilité du signal.

LigueMatchsAccuracy globale
Champions League50263,9 %
Norvège30361,4 %
Ligue 160159,4 %
Portugal60058,5 %
Serie A73958,3 %
Bundesliga60258,1 %
Japon48348,9 %
Corée30247,7 %
Suisse21746,1 %
Interprétation

Un modèle global peut masquer des réalités locales. Certaines ligues dépassent nettement la moyenne globale, tandis que d’autres restent plus difficiles. Ce point est important pour un produit réel : il faut surveiller les performances par compétition, ajuster les calibrations et éviter d’appliquer le même niveau de confiance partout.

14. Ouverture vers les marchés de buts

Foresportia ne se limite pas au 1X2. Le modèle produit aussi des lectures sur les buts : scores probables, BTTS, Over/Under, clean sheet, double chance et draw no bet.

MarchéMatchsAccuracy seuil 50 %Probabilité moyenneFréquence observée
BTTS3 71458,1 %55,8 %56,4 %
Over 2.53 71459,1 %55,1 %54,6 %
Under 2.53 71459,1 %45,0 %45,4 %

Ces chiffres suggèrent une calibration globale raisonnable, mais une discrimination plus limitée que sur les meilleurs segments 1X2. La cinquième note expliquera plus précisément les lambdas de buts, les scores probables, le BTTS et les marchés Over/Under.

15. Limites : ce qu’un modèle ne peut pas savoir

Même un modèle bien calibré reste limité. Certaines informations sont absentes, retardées ou impossibles à connaître parfaitement : composition réelle, blessure de dernière minute, météo locale, fatigue individuelle, choix tactique, penalty, carton rouge, décision arbitrale ou événement rare.

Une bonne probabilité peut donc échouer sur un match isolé. L’objectif n’est pas de faire monter artificiellement les probabilités, mais de rendre chaque pourcentage plus honnête, plus interprétable et plus vérifiable.

Conclusion : la valeur est dans la mesure du signal

Foresportia modélise un match de football comme un problème probabiliste incertain :

Estimer P(Y | X), puis mesurer si la distribution contient un signal exploitable.

Les résultats historiques montrent que l’accuracy augmente avec la probabilité maximale, diminue lorsque l’entropie augmente, et que les badges Stable/Correct isolent des zones de meilleure performance observée.

🎯

Thèse centrale

La valeur d’un modèle de prédiction football ne réside pas seulement dans son taux de réussite global, mais dans sa capacité à mesurer l’incertitude et à identifier les zones où le signal est réellement exploitable.

Continuer la série Technical Notes

Cette première note définit le cadre général : une prédiction football doit être lue comme une distribution probabiliste. Les articles suivants approfondissent chaque brique du système.

FAQ rapide

Foresportia prédit-il le futur ?

Non. Foresportia estime des probabilités à partir des données disponibles. Une probabilité élevée signifie une fréquence attendue plus forte, pas une certitude.

Pourquoi parler d’IA si le modèle utilise aussi des statistiques ?

Parce que l’IA intervient dans la combinaison, l’ajustement et la calibration des signaux. Le système est hybride : statistiques explicables, modèle probabiliste, calibration et apprentissage sur historique.

Pourquoi l’accuracy globale ne suffit-elle pas ?

Parce qu’elle mélange des matchs très lisibles et des matchs très incertains. Les segments Stable, Correct et Risk mesurent où le signal est réellement exploitable.

Les marchés de buts sont-ils calculés comme le 1X2 ?

Non. Ils utilisent une logique dédiée autour des lambdas de buts, des grilles de scores et de calibrations spécifiques. Le détail sera présenté dans la Technical Note V.

Passer de la théorie aux matchs du jour

Cette note décrit les fondations du modèle. Pour consulter les sorties concrètes du moteur Foresportia, explorez les pages de résultats, les top pronostics IA et l’historique des performances.

Voir les meilleurs signaux IA du jour