Cadre
Ici, “malédiction” désigne une série très longue et statistiquement rare. L’objectif n’est pas le folklore : c’est de comprendre ce que la data explique, et surtout ce qu’un modèle IA ne doit pas apprendre.
Une série réelle… et un piège pour l’analyse
Pendant plus de quatre décennies, l’Olympique de Marseille n’a pas gagné à Bordeaux en championnat. C’est l’archétype du cas qui déclenche une lecture “irrationnelle” : superstition, destin, pression…
Pourtant, la bonne question est plus simple : est-ce un signal stable (donc apprenable par un modèle) ou un artefact (variance + contexte, donc dangereux à surpondérer) ?
Le phénomène : une série intergénérationnelle
Une série longue n’est pas juste une suite de résultats : c’est une accumulation de contextes. Elle traverse plusieurs périodes sportives, plusieurs styles et plusieurs effectifs.
- Matchs espacés dans le temps (non-stationnarité forte)
- Changements d’entraîneurs et de dynamiques d’équipes
- Effet “narration” : plus la série est connue, plus elle pèse
Statistiquement, la série est rare. Mais rare ne veut pas dire “loi”.
Pourquoi c’est statistiquement troublant (sans devenir mystique)
Dans un modèle simplifié (forces comparables, avantage domicile stable, matchs quasi-indépendants), une série aussi longue se situe loin dans la queue de distribution.
Mais ce type de modèle est précisément ce qui casse sur des phénomènes réels :
- le football change vite (style, intensité, arbitrage, préparation),
- la perception modifie la stratégie (conservatisme, peur de “casser” la série),
- la pression médiatique devient un facteur contextuel non mesuré.
Autrement dit : une série peut émerger par variance, puis se renforcer par contexte.
Les fausses pistes : ce que les variables simples n’expliquent pas
Le réflexe data sain consiste à tester des explications “faciles” : météo, affluence, âge moyen, internationaux, discipline… Dans ce cas, ces variables ne donnent pas d’explication robuste et stable.
C’est un point important : si les causes mécaniques classiques ne ressortent pas, alors l’explication (si elle existe) est probablement contextuelle ou cognitive.
Le point clé : l’asymétrie (qui “dévisse” vraiment ?)
Le signal le plus intéressant n’est pas “Bordeaux surperforme”, mais plutôt : Marseille sous-performe face à Bordeaux, comparé à sa moyenne saisonnière et à ses performances contre des équipes de référence.
Cette lecture change tout :
- On ne cherche plus une “magie” bordelaise.
- On mesure une contre-performance relative de Marseille.
- On se rapproche d’un mécanisme plausible : pression, narration, stratégie plus prudente, etc.
Graphique 1 — Performance offensive de l’OM à Bordeaux replacée dans son contexte saisonnier
Ce graphique compare, pour chaque saison, le nombre de buts marqués par l’Olympique de Marseille lors de son déplacement à Bordeaux à son niveau offensif moyen à l’extérieur sur la même saison.
Lecture : lorsque les performances réalisées à Bordeaux se situent durablement sous le niveau offensif extérieur habituel de l’OM, cela indique une sous-performance contextuelle récurrente, sans faire appel à un historique face-à-face cumulatif.
Le piège classique : confondre répétition et explication
Face à une série longue, le réflexe naturel consiste à chercher une cause “forte” : un style qui ne convient pas, un stade maudit, une pression particulière. Pourtant, la répétition d’un événement ne suffit pas à en faire une loi.
En data, ce biais est bien connu : plus une série est longue, plus on a tendance à surinterpréter son existence, même lorsque les mécanismes sous-jacents restent faibles ou instables.
C’est précisément ce piège que peut créer un historique face-à-face brut lorsqu’il est injecté sans précaution dans un modèle prédictif.
La fin de la série : un test grandeur nature
Le 7 janvier 2022, Marseille gagne enfin à Bordeaux. Le plus instructif n’est pas “le match”, mais ce que la rupture suggère :
- la pression symbolique chute,
- l’événement rare cesse de structurer la narration,
- les confrontations redeviennent plus proches d’une distribution banale.
Un signal structurel disparaît rarement aussi proprement. Un signal contextuel, si.
Graphique 2 — Cumul “matchs sans victoire” (rupture en 2022)
Un graphe volontairement simple : un compteur qui monte match après match, puis une rupture nette quand la série se brise.
Lecture : ce graphe est l’illustration la plus “grand public”, mais il doit être accompagné du graphe d’asymétrie (sinon on retombe dans le piège du H2H brut).
Ce que ça change pour les modèles IA (et pourquoi le H2H brut est dangereux)
Le piège classique : faire du face-à-face (H2H) un “feature” dominant, alors qu’il mélange des époques incomparables et amplifie des artefacts.
Un modèle robuste fait l’inverse :
- Pondération temporelle : le football change, les époques ne s’additionnent pas.
- Régularisation : une série rare ne doit pas produire une surconfiance.
- Baisse de confiance : si le signal n’est pas stable ou explicable, on affiche plus d’incertitude.
C’est exactement le type de cas où l’objectif n’est pas de “prédire la série”, mais d’éviter que la série trompe l’interprétation des probabilités.
Conclusion
Les “malédictions” existent dans les données : des séries rares se produisent, parfois sur des décennies. Mais leur existence ne suffit pas à en faire un signal exploitable.
Bordeaux–Marseille illustre parfaitement ce danger : une série réelle, impressionnante, mais fragile dès qu’on la replace dans son contexte saisonnier et qu’on évite le piège du face-à-face brut.
Pour les modèles de prédiction, la leçon est claire : ce qui marque les esprits n’est pas toujours ce qui doit influencer les probabilités. La robustesse passe par la régularisation, la contextualisation… et parfois, par le fait d’accepter de ne pas “expliquer” une série.