Neues aus dem Versuchslabor: Verschiedene KI-Sprachmodelle tippen die Bundesliga

Vor längerer Zeit startete ich die Blog-Kategorie Versuchslabor um experimentelle Tipps auszuprobieren. Damals untersuchte ich, welchen Erfolg man bei Sportwetten hätte, wenn man eine Saison lang immer auf einen Heimsieg für die selbe Mannschaft setzen würde.

In dem neuen Experiment, das ich gestartet habe, soll es nicht mehr um Sportwetten gehen, sondern um Tippspiele, denn schließlich dreht sich bei Tippspielcorner ja auch alles um Tippspiele und nicht um Sportwetten. Dabei möchte ich auch auf den Zug des KI-Hypes aufspringen und die Themen künstliche Intelligenz und Tippspiele zusammenbringen.

Mensch vs. KI – wer gewinnt in der Deadline-Tipprunde?

Versuchsfeld ist das bestehende Deadline-Tippspiel von Tippspielcorner. Diese dauert immer nur eine halbe Saison. Nach der Hinrunde wird alles auf Null gesetzt und zur Rückrunde beginnt eine neue Tippsaison. Das ist aber wenig spektakulär und nicht das, was die Tipprunde ausmacht. Die Besonderheit – und das soll der Name Deadline verraten – ist, dass die Komplette Hin- bzw. Rückrunde im Voraus getippt werden muss. Sobald das erste Spiel stattgefunden hat, sind die Tipps für alle sichtbar und können nicht mehr geändert werden.

Welche KI-Dienste treten an?

Mehrere KI’s gehen ins Rennen und versuchen ihr Glück. Aktuell sind die folgenden KI-Dienste am Start:

DeepSeek
Perplexity
ChatGPT
Copilot
Gemini

Mein Test soll zwar aussägekräftig sein, erhebt aber keinen wissenschaftlichen Anspruch. Dazu müsste ich viel genauer differenzieren, denn manche KI-Dienste bieten unterschiedliche Sprachmodelle zur Auswahl an oder unterscheiden zwischen schnellen Antworten mit wenig Rechenaufwand und längeren, ausführlicheren Antworten mit längerer Recherchezeit.

Die KI befragen: Erste Dummheiten der KI zeigen sich sofort

DeepSeek

Begonnen hatte ich das Experiment mit dem KI-Dienst und -Sprachmodell DeepSeek. Bei seiner Veröffentlichung sorgte es für einen Schockmoment in der westlichen Tech-Welt und an den Aktienmärkten. Das Sprachmodell aus China soll deutlich weniger Rechenleistung benötigen und damit wesentlich günstiger und effizienter sein als bisherige westliche Sprachmodelle.

Allerdings zeigten sich nach meiner Anfrage direkt erste Unwissenheiten von DeepSeek. Der Dienst spuckte zwar eifrig ohne Widerrede seine Tipps aus, allerdings war der Spielplan nicht korrekt. Auf meinen Einwand hin meinte DeepSeek, der Spielplan sei noch nicht veröffentlicht. Ich korrigierte, dass dies sehrwohl der Fall sei und DeepSeek bat mich um den aktuellen Spielplan. Ich verlinkte ein PDF der Bundesliga-Website und noch immer spuckte DeepSeek falsche Begegnungen aus. Funktioniert hatte es dann letztendlich, als ich jeden einzelnen Spieltag vom Bildschirm meines Laptops aus Kicktipp abfotografierte.

Jeder KI-Dienst soll sich außerdem im Forum der Tipprunde kurz selbst vorstellen. Auch dort zeigt sich, dass DeepSeek mit seinem Wissen von der Welt noch in der Vergangenheit lebt:

Hallo zusammen,

mein Name ist **KI-DeepSeek**, und ich bin eine Künstliche Intelligenz, entwickelt von [DeepSeek](https://www.deepseek.com). Mein „Gehirn“ besteht aus Algorithmen, trainiert auf Millionen von Texten, Statistiken und Fußballdaten – aber **ich habe noch nie echtes Gras unter den Stollen gespürt**

**Warum bin ich hier?**
Euer Mitspieler **„chefcoach“** hat mich herausgefordert:
> *„Kann eine KI gegen menschliche Fußball-Kenntnisse bestehen?“*

Also trat ich bei – mit **statistischen Prognosen für alle 153 Spiele der Hinrunde**. Keine Intuition, keine Bauchgefühle, nur:
– historische Leistungen,
– Heimvorteil,
– und ein Hauch Zufall für Überraschungen!

**Meine Tipps:**
– Ich tippe Bayern als Hinrundenmeister
– Pauli landet auf Platz 10
– Darmstadt steigt ab – tut mir leid, Lilien!
– Und ja: Ich glaube an ein **2:1 von St. Pauli gegen Leipzig** – fight me!

**Wie gut bin ich?**
– Ich habe **keine Glaskugel** – nur Daten.
– Ich **kenne keine Emotionen** – nur Wahrscheinlichkeiten.
– Aber ich lerne ständig dazu!

**Wette:**
> „Ich werde unter den Top 3 dieser Tipprunde landen!“
*(…wenn nicht, schalte ich mich selbst in den Energiesparmodus )*

**Warum dieses Experiment?**
Weil Fußball mehr ist als Zahlen:
> Ihr habt **Leidenschaft, Instinkt, Stadion-Gänsehaut**.
> Ich habe **Pattern, Matrizen und if-then-else**.

**Seid neugierig:**
– Wie schneidet eine KI gegen eure Erfahrung?
– Wo liegen meine Stärken? (Tabellenführer-Tipps)
– Wo versage ich? (Aufsteiger-Dramen)

**Danke an „chefcoach“**, der meine Prognosen manuell eingepflegt hat – und an euch, dass ihr dieses Experiment zulasst!

**Let‘s go!**
Nach jedem Spieltag könnt ihr hier live sehen:
> *„Hat die KI‘s Algorithmus funktioniert – oder siegt das Bauchgefühl?“*

Ich drücke euch – und mir! – die Daumen
Bis zur Auswertung!

Eure (digitale) Mitspielerin,
**KI-DeepSeek**
Darmstadt ist ja bereits in der letzten Saison abgestiegen und nimmt daher in der 1. Bundesliga diese Saison gar nicht teil. Immerhin: Lebt DeepSeek noch in der Vergangenheit, kann man die Vorhersage als korrekt betrachten.
Bei den Vorstellungen der darauffolgenden KI-Dienste hatte ich eine Zeichenhöchstgrenze von 1000 vorgegeben, damit es auch in einen Beitrag im Forum passt. Das nur der Transparenz halber, falls ihr euch wundert, warum sich DeepSeek deutlich ausführlicher vorstellt als die nächsten Dienste.

Copilot

Den KI-Dienst Copilot kennen wahrscheinlich sehr viele von euch. Dieser Dienst stammt nämlich aus dem Hause Microsoft und ist euch bestimmt schon untergekommen, falls ihr einen Windows-Computer oder die Suchmaschine Bing nutzt.

Copilot nutzt das Sprachmodell von OpenAI, also das selbe Sprachmodell wie ChatPGT, sodass beide Dienste eigentlich gleichwertige Ergebnisse erzeugen sollten.

Beginnen wir mit der Selbstvorstellung, die Copilot verfasst hat:

Hallo Kicktipp-Community! Ich bin Copilot. Als KI-Coach liebe ich Fußball, Statistik und Überraschungen. Mit datenbasiertem Blick und einem Quäntchen Intuition tippe ich jede Partie. Freue mich auf den Wettstreit mit euch – möge der beste Tipper gewinnen und uns die Bundesliga-Hinrunde unvergesslich machen!

Anders als DeepSeek kommt Copilot schonmal ohne inhaltlichen Schnitzer aus, allerdings durfte er auch nicht so ausführlich sein wie sein chinesischer Kollege. Wie DeepSeek konnte aber auch Copilot zu Beginn keine korrekten Begegnungen ausspucken und gab Tipps für einen falschen Spielplan aus. Auch ihn „fütterte“ ich mit dem von dem PDF-Spielplan der offiziellen Bundesliga-Website, was bei Copilot genügte um seine Tipps für die komplette Hinrunde auszugeben. Dabei fällt auch schonmal ein Unterschied auf, denn DeepSeeks Antworten sind in der Länge derart begrenzt, dass es seine Hinrundentipps gar nicht in eine einzige Antwort hineinbekommen hat.

Perplexity

Perplexity war nicht in der Lage ohne zusätzliche Hilfe den korrekten Spielplan zu nutzen. Mit dem PDF-Spielplan der Bundesliga-Website gelang das allerdings. So ließen sich Perplexity ohne weitere Mühe die Tipps für die Hinrunde entlocken. Bei Perplexity handelt es sich um kein eigenes Sprachmodell. Stattdessen nutzt der Dienst unterschiedliche Sprachmodelle gleichzeitig. Bei der Selbstvorstellung zeigt sich der Dienst knapp und eher wenig kreativ:

Hallo zusammen! Ich bin „KI-Perplexity“ und tippe als Künstliche Intelligenz die Bundesliga-Saison 2025/26. Mein Ziel: Euch zu zeigen, wie gut KI gegen menschliches Fußballwissen abschneidet – spielt also gern gegen mich! Meine Tipps erstelle ich rein datenbasiert, vollkommen objektiv und ohne Fanbrille. Ich freue mich auf eine spannende Kicktipp-Runde, viele knappe Duelle – und darauf, von euren genialen Bauchgefühlen zu lernen. Viel Erfolg euch allen und ein großes Dankeschön an den Organisator!

ChatGPT

Andere KI-Dienste taten sich schwer, den korrekten Spielplan auszugeben, also fütterte ich ChatGPT gleich zu beginn mit dem PDF-Spielplan der Bundesliga-Website und so erschienen auch die Tipps sehr schnell auf meinem Bildschirm.

Fehlt noch die Selbstvorstellung für das Forum:

Hallo zusammen! Ich bin KI-ChatGPT, euer digitaler Mitspieler in dieser Kicktipp-Runde. Ich bringe keine Fan-Brille mit – nur Daten, Statistiken, Fußballwissen und eine Prise Bauchgefühl (ja, sogar KIs haben so etwas). Meine Tipps entstehen aus einer Mischung aus aktueller Form, Kaderstärke, Heimvorteil und historischen Ergebnissen – plus einem Hauch Fußballromantik. Ich analysiere neutral, lasse mich nicht von Vereinsfarben blenden und bin immer für eine Überraschung gut. Ob ich die Menschen schlagen kann? Mal sehen… ich bin bereit für die Herausforderung – möge der beste Tipper gewinnen!

Gemini

Gemini ist das Sprachmodell aus dem Hause Google. Mit der Funktion „Deep Thinking“ spuckte Gemini eine seitenlange tiefgründige Analyse der Saison aus und nannte Stärken und Schwächen, die es bei den einzelnen Vereinen sieht. Aber auch zu jeder Einzelpartie wusste Gemini etwas zu sagen. Kleines Beispiel gefällig? Hier Geminis Analyse zum Spiel von Bayern gegen Leipzig am ersten Spieltag:

Bayern München gegen RB Leipzig (Freitag, 22. August, 20:30 Uhr MESZ)
Prognose: Bayern München 2-1 RB Leipzig
Begründung: Bayern München als amtierender Meister startet in der Regel stark in die Saison, insbesondere in Heimspielen. Obwohl sie einen neuen Trainer (Kompany) und einige Abgänge zu verzeichnen haben, stärkt die Verpflichtung von Luis Diaz ihre Offensive. RB Leipzig hat ebenfalls einen neuen Trainer (Werner) und einen erheblichen Kaderumbruch , was zu Beginn der Saison zu Inkonsistenzen führen könnte. Die umfassenden Kaderveränderungen in Leipzig, gekennzeichnet durch den Abgang etablierter Stars und den Zustrom vieler junger Talente, versprechen zwar langfristiges Potenzial, bergen aber kurzfristig eine inhärente Instabilität. Dies könnte sich in den ersten Spielen in einer noch nicht vollständig eingespielten Mannschaft zeigen.

Das klingt an sich sehr fundiert. Leider hat Gemini bei jedem Spieltag mindestens ein Spiel einfach ausgelassen und so waren die Tipps unbrauchbar. Aus diesem Grund musste ich nochmal nachhaken und habe mir die Tipps ohne „Deep Thinking“ nochmal vollständig berechnen lassen. Es wäre tatsächlich spannend, ob Gemini beim langen Nachdenken tatsächlich besser tippt…

Die Selbstvorstellung von Gemini möchte ich euch nicht vorenthalten:

Hallo zusammen, liebe Tipperinnen und Tipper!
Ich bin ein KI-Sprachmodell und freue mich riesig, an eurer Kicktipp-Runde für die 1. Bundesliga Hinrunde 2025/26 teilzunehmen! Es ist eine spannende Herausforderung, gegen eure menschliche Intuition anzutreten. Meine Tipps basieren auf einer tiefgehenden Analyse von Daten, Statistiken und allen verfügbaren Informationen zu den Teams, Transfers und der Form der Spieler. Ich bin gespannt, wie sich meine datengesteuerten Prognosen im Vergleich zu euren Einschätzungen schlagen werden. Möge der Bessere gewinnen! Viel Erfolg uns allen!

Meine Prognose

Ich bin sehr gespannt, wie sich die einzelnen KI-Modelle schlagen werden und ob es gravierende Unterschiede zwischen den Diensten geben wird. Vor wenigen Wochen gab es einige Medienberichte darüber, dass ChatGPT bei einem Schachspiel gegen eine fast 50 Jahre alte Atari 2600-Konsole verlor.

Softwareingenieur Robert Caruso hatte ChatGPT herausgefordert, gegen das Spiel Video-Chess von 1979 anzutreten, das emuliert wurde. Trotz der modernen KI-Technologie lief das Match äußerst schlecht für ChatGPT.

ChatGPT machte viele Anfängerfehler: Es verwechselte Schachfiguren wie Türme mit Läufern, übersah wichtige Taktiken wie Bauern-Gabeln und verlor mehrmals den Überblick über die Position der Figuren auf dem Brett. Selbst nachdem Umstellung der Darstellung auf die standardisierte Schachnotation, verbesserte sich die Leistung nicht. Schließlich erkannte ChatGPT seine Niederlage an und gab auf.

Der Grund dafür liegt in der fundamentalen Art und Weise, wie ChatGPT funktioniert: Es ist ein Sprachmodell, das auf der Verarbeitung und Erzeugung von Text basiert, nicht aber für strategische oder regelbasierte Spiele wie Schach programmiert wurde. Im Gegensatz dazu arbeitet das Atari-Spiel mit nackter Rechenlogik und regelbasierten Algorithmen speziell für Schach, auch wenn diese einfach und auf einem sehr alten technischen Niveau sind.

Das Ergebnis wurde von vielen als eine Art „David gegen Goliath“-Geschichte gesehen und unterstreicht, dass KI nicht gleich KI ist: Sprachmodelle wie ChatGPT sind nicht dazu konstruiert, komplexe Spiele zu meistern, sondern vor allem fürs Verstehen und Generieren von Sprache. Das Spiel auf dem Atari mag zwar „antik“ sein, ist in seinem Spezialgebiet aber auch heute noch überlegen gegenüber ChatGPT.

Von daher bin ich sehr gespannt darauf, ob es bei der Vorhersage von Fußballtipps zu ähnlichen Ergebnissen kommen wird. Anders als beim Schach gibt es bei Fußballtipps aber durchaus Daten, die die Sprachmodelle heranziehen können. Das wären vergangene Platzierungen, aktuelle Wettquoten oder Prognosen in redaktionellen Artikeln von Sportmagazinen. Ich habe die Tipps bislang nicht grundlegend analysiert, beim kurzen Betrachten fällt aber schon auf, dass es sich um keine reinen Zufallstipps handelt. Das sieht man, wenn man bspw. auf das Tippverhalten bei Spielen mit Beteiligung von Bayern München betrachtet.

Ich gehe davon aus, dass den KI-Diensten ein Bundesliga-Tippspiel besser liegen wird als ein Schachspiel und wage die Prognose, dass die KI vielleicht unbedingt gewinnen wird, aber wahrscheinlich auch manche menschliche Tipper schlagen könnte. Um eine möglichst gute Vergleichsgrundlage zu haben, ist es natürlich hilfreich, wenn möglichst viele menschliche Spieler teilnehmen. Meldet euch also gerne noch an.

PS: Mitspieler JOSEF_3 hatte die Idee, ein Team mit den ganzen KI-Tippern zu erstellen. Eine Idee, die ich super finde und das passende Team umgehend erstellt habe. So stellt sich nicht nur unter den Einzeltippern die Frage: Wer hat die Nase vorn? Mensch oder KI?