Leitfaden zur KI-Modellauswahl für strukturierte Daten: Tabellarische & Zeitreihen-Modelle für industrielle Anwendungen

Ein Entscheidungsleitfaden für die Auswahl und den Einsatz von KI-Modellen für tabellarische Daten und Zeitreihen im industriellen Umfeld. Behandelt Foundation-Modelle (TabPFN-2.5, TabICLv2), Zeitreihenmodelle (NHITS, TimesFM, Chronos), Datentyp-Identifikation, Deployment-Phasen und eine Readiness-Checkliste. Für Anlagenüberwachung, Bedarfsprognose, Qualitätsbewertung & Ressourcenoptimierung.

Überblick

Dieser Leitfaden zeigt Ihnen, wie Sie in drei Schritten vom operativen Problem zum produktiven Modell gelangen:

Problem identifizieren
Datenlage prüfen
Mit einer bewährten Baseline starten, dann moderne Alternativen evaluieren

Er deckt die gängigen industriellen Anwendungsfälle ab — Bedarfsprognose, Ausfallvorhersage, Defektklassifikation, Energieoptimierung und Risikobewertung — und bietet Optionen für datenreiche, datenarme und datenlose Szenarien.

Das beste Modell ist wertlos bei schlechten Features oder einer falsch formulierten Problemstellung. Dieser Leitfaden setzt voraus, dass die Datenarbeit erledigt ist. Er macht den Schritt der Modellauswahl systematisch, damit Sie schneller vorankommen und weniger diskutieren müssen.

Sobald Sie ein Modell ausgewählt haben, verwenden Sie die Readiness-Checkliste weiter unten, um sicherzustellen, dass das Modell zu Ihren betrieblichen Randbedingungen passt.

Bevor Sie Budget freigeben → Springen Sie zur Readiness-Checkliste, um zu prüfen, ob Ihr Kandidatenmodell zu Problem, Daten, Infrastruktur und Team passt. Das ist der schnellste Weg, Fehlentscheidungen zu vermeiden, bevor sie teuer werden.

Inhaltsverzeichnis

Überblick
Verstehen Sie Ihre Daten, bevor Sie ein Modell wählen
Entscheidungsbaum: Vom Problem zum Modell
Zuordnung von Modellen zu operativen Problemen
Deployment-Beispiele
Einschränkungen und Kostenfallen
Umsetzungsfahrplan
Readiness-Checkliste
Was sich geändert hat (und was nicht)
Referenzen

Verstehen Sie Ihre Daten, bevor Sie ein Modell wählen

Bevor Sie ein Modell auswählen, identifizieren Sie den Typ Ihrer strukturierten Daten. Dieser bestimmt, welche Modelle in Frage kommen und welche Fragen die Daten tatsächlich beantworten können.

Tabellarische Datentypen

Typ	Was es ist	Industrielles Beispiel	Welche Fragen es beantworten kann
Querschnittsdaten	Viele Einheiten, zu einem Zeitpunkt beobachtet. Jede Zeile ist eine andere Einheit (Maschine, Kunde, Werk).	Eine Momentaufnahme aller Maschinen in einem Werk mit Alter, Betriebsstunden und Fehleranzahl — erhoben heute.	Fragen zu Niveaus und Unterschieden: „Welche Maschinen haben aktuell das höchste Risiko?"
Wiederholte Querschnitte	Dieselbe Erhebung oder Messung, durchgeführt an unterschiedlichen Stichproben zu aufeinanderfolgenden Zeitpunkten.	Jährliche Lieferanten-Qualitätsaudits, bei denen jedes Jahr andere Lieferanten befragt werden.	Fragen zu Trends: „Verbessert oder verschlechtert sich die Lieferantenqualität über das gesamte Portfolio?"
Zeitreihen	Eine Einheit, gemessen an mehreren Zeitpunkten, typischerweise in regelmässigen Intervallen (stündlich, täglich, monatlich).	Stündlicher Stromverbrauch eines einzelnen Werks über zwei Jahre.	Fragen zu Mustern und Prognosen: „Gibt es eine saisonale Komponente in unseren Energiekosten?"
Paneldaten	Dieselben Einheiten, über die Zeit beobachtet. Jede Zeile ist eine Einheit-Zeit-Kombination (z. B. Maschine-Monat).	Monatliche Sensordaten für jede Turbine Ihrer Flotte, erhoben über drei Jahre.	Fragen zu Veränderung und Kausalität: „Welche Turbinen degradieren schneller, und warum?"

Warum das für die Modellauswahl wichtig ist

Querschnittsdaten → Tabellarische Modelle. Starten Sie mit XGBoost/LightGBM/CatBoost ¹, ²; evaluieren Sie TabPFN-2.5 oder TabICLv2 als Alternativen, insbesondere bei kleinen Datensätzen. Eine Zeile pro Einheit, Vorhersage eines Labels oder Scores.
Zeitreihendaten → Zeitreihenmodelle (NHITS, TimesFM, Chronos). Die Reihenfolge zählt; das Modell lernt zeitliche Muster.
Paneldaten → Beide Ansätze möglich, je nach Fragestellung. Vorhersage pro Einheit mit tabellarischen Modellen oder Prognose von Verläufen pro Einheit mit Zeitreihenmodellen.
Wiederholte Querschnitte → Tabellarische Modelle mit Drift-Handling (Drift-Resilient TabPFN ³), wenn sich die Verteilung zwischen Messperioden verschiebt.

Wenn Sie unsicher sind, welchen Datentyp Sie haben, fragen Sie: „Sind meine Zeilen verschiedene Einheiten zu einem Zeitpunkt oder dieselbe Einheit zu verschiedenen Zeitpunkten?" Diese eine Frage bestimmt Ihren Weg durch den Entscheidungsbaum.

Auch die Datenfrequenz zählt

Bei Zeitreihendaten grenzt die Abtastfrequenz das Feld weiter ein:

Frequenz	Beispiele	Beste Wahl
Hoch (< 1 Minute)	Vibrationssensoren, Tick-Daten, IoT-Streams	Neuronale Modelle: NHITS ⁴, PatchTST ⁵
Mittel (stündlich–täglich)	Energiezähler, Produktionszahlen, Wetter	Foundation- oder neuronale Modelle: TimesFM ⁶, NHITS ⁴
Niedrig (wöchentlich–monatlich)	Absatz, Finanzberichte, Inspektionen	Foundation- oder statistische Modelle: TimeGPT ⁷, Prophet ⁸
Unregelmässig (ereignisgesteuert)	Wartungsprotokolle, Störungsereignisse	Chronos ⁹ (verarbeitet unregelmässige Abtastung)
Mehrere korrelierte Reihen	Multi-Sensor-Arrays, flottenweite Daten	MOMENT ¹⁰, TimeGPT ⁷

Entscheidungsbaum: Vom Problem zum Modell

Erst die Daten, dann das Modell. Kein Modell kompensiert falsch formulierte Probleme, schlechte Features oder unsaubere Daten. Bevor Sie diesen Baum betreten, stellen Sie sicher, dass Sie ein klar definiertes Vorhersageziel haben, dass Ihre Daten tatsächlich messen, was Sie denken, und dass jemand im Team den operativen Kontext gut genug versteht, um Modellausgaben in Entscheidungen zu übersetzen.

Schritt 1 — Welchen Datentyp haben Sie?

Datentyp	Beschreibung	Weiter zu
Tabellen	Zeilen und Spalten — ERP-Exporte, Inspektionsprotokolle, Kundendaten, Finanzdaten	Schritt 2A
Zeitreihen	Zeitliche Sequenzen — Sensordatenströme, Nachfragehistorie, Energieverbrauch, Preisdaten	Schritt 2B

Schritt 2A — Tabellarische Daten: Wie viele haben Sie?

Starten Sie mit einer Gradient-Boosting-Baseline. Für jeden tabellarischen Datensatz über ca. 1'000 Zeilen sollten XGBoost, LightGBM oder CatBoost ¹, ² Ihr erstes Experiment sein. Sie sind schnell auf CPU trainierbar, verarbeiten gemischte Daten und fehlende Werte nativ und bleiben der dominierende Ansatz in Produktion und Benchmarks. Die Foundation-Modelle unten sind wertvolle Alternativen und Ergänzungen — kein Ersatz.

Datensatzgrösse	Robuste Baseline	Erweiterte Alternative	Zeit bis zum ersten Ergebnis*
Klein (< 10K Zeilen)	XGBoost / LightGBM ¹	TabPFN-2.5 ¹¹ oder TabICLv2 ¹² (Zero-Shot, oft konkurrenzfähig ohne Tuning)	Tage
Mittel (10K–50K Zeilen)	XGBoost / LightGBM ¹	TabICLv2 ¹² oder TabPFN-2.5 ¹¹	Tage
Gross (50K–500K Zeilen)	XGBoost / LightGBM ¹	TabICLv2 ¹² oder Chunked-TabPFN ¹³	Tage–Wochen
Sehr gross (500K–10M Zeilen)	XGBoost / LightGBM ¹	Chunked-TabPFN ¹³	Wochen
Massiv (> 10M Zeilen)	XGBoost / LightGBM ¹	—	Wochen
Gemischt numerisch + Text	CatBoost ² oder Embeddings + XGBoost	FT-TabPFN ¹⁴	Tage
Hochkardinalige Kategorien	CatBoost ²	—	Tage–Wochen

*„Zeit bis zum ersten Ergebnis" bezieht sich auf den gesamten Projektzyklus (Datenbereinigung, Validierung, Deployment) — nicht auf die Modellinferenz. Foundation-Modelle wie TabPFN liefern Vorhersagen in Sekunden bis Minuten; die umgebende Arbeit dauert länger.

Wo Foundation-Modelle glänzen: TabPFN-2.5 erreicht eine 100%-Gewinnrate gegenüber unkonfiguriertem XGBoost auf Klassifikationsdatensätzen bis 10'000 Zeilen und 500 Features, und eine 87%-Gewinnrate auf grösseren Datensätzen bis 100'000 Zeilen — ganz ohne Hyperparameter-Tuning ¹¹. Ihr Vorteil ist am grössten, wenn Sie ein schnelles, belastbares Ergebnis ohne Tuning-Zyklus benötigen.

Wo Gradient Boosting standhält: Mit sorgfältigem Hyperparameter-Tuning schliessen XGBoost und LightGBM einen Grossteil dieser Lücke und gewinnen oft auf mittleren bis grossen Datensätzen ¹. In den meisten Kaggle-Wettbewerben und offenen ML-Benchmarks bleibt getuntes Gradient Boosting die dominierende Methode für Standard-Supervised-Probleme.

Wichtiger Vorbehalt: Sowohl die TabPFN- als auch die TabICLv2-Benchmarks wurden unter spezifischen Bedingungen durchgeführt. TabPFNs Hauptergebnisse vergleichen gegen ungetunte XGBoost-Baselines ¹¹. TabICLv2s SOTA-Behauptungen (Februar 2026) stammen aus den Benchmarks der Autoren selbst und wurden noch nicht unabhängig reproduziert; die Vergleichs-Baseline verwendete TabPFN-2.5 mit zusätzlichem Tuning und Ensembling ¹². Evaluieren Sie beide gegen eine sorgfältig getunte Gradient-Boosting-Baseline auf Ihren Daten.

Hinweis: TabICLv2 unterstützt auch Zero-Shot-Zeitreihenprognosen über TabICLForecaster ¹². Wenn Sie es für tabellarische Aufgaben einsetzen, erhalten Sie eine Prognoseoption aus demselben Tool, ohne eine zweite Abhängigkeit hinzuzufügen.

Schritt 2B — Zeitreihen: Haben Sie Trainingsdaten?

Datensituation	Priorität	Empfohlenes Modell	Zentraler Vorteil
Keine Trainingsdaten	Geschwindigkeit	TimesFM ⁶	Bis zu 179× schneller als vergleichbar grosse Chronos-Modelle; nahe SOTA im Zero-Shot ⁶, ¹⁵
Keine Trainingsdaten	Unsicherheitsschätzungen	Chronos ⁹	19–60% CRPS-Reduktion bei Lastprognosen ¹⁶
Keine Trainingsdaten	Keine Infrastruktur	TimeGPT ⁷	API-basiert, keine GPU erforderlich ⁷
Keine Trainingsdaten	Lange multivariate Sensordaten	MOMENT ¹⁰	Kompressiver Speicher für erweiterten kanalübergreifenden Kontext ¹⁰
Trainingsdaten vorhanden	Langer Horizont + Geschwindigkeit	NHITS ⁴	~20% Genauigkeitsgewinn, ~50× Speedup vs. Transformer ⁴
Trainingsdaten vorhanden	Interpretierbarkeit	N-BEATS ¹⁷	Explizite Trend-/Saisonalitätszerlegung ¹⁷
Trainingsdaten vorhanden	Langer Rückblick	PatchTST ⁵	21% MSE-Reduktion, 22× schneller auf grossen Datensätzen ⁵
Trainingsdaten vorhanden	Mehrere Eingabevariablen	TFT ¹⁸	Eingebaute Variablenwichtigkeitsbewertung ¹⁸
Trainingsdaten vorhanden	Einfache Baseline	Prophet ⁸	Schnell, interpretierbar, geringer Rechenaufwand ⁸

Zuordnung von Modellen zu operativen Problemen

Wählen Sie Ihr Problem. Berücksichtigen Sie Ihre Randbedingungen. Wählen Sie aus der Tabelle.

Operatives Problem	Daten vorhanden?	Baseline-Ansatz	Erweiterte Alternative	Dediziertes ML-Team nötig?
Vorhersage von Anlagenausfällen	Ja (Sensor-/Inspektionsprotokolle)	XGBoost auf konstruierten Features	NHITS ⁴ oder PatchTST ⁵	Gering–Mittel
Restnutzungsdauer-Schätzung (RUL)	Ja (Run-to-Failure-Historie)	Überlebensanalyse oder XGBoost	NHITS ⁴ mit Multi-Horizont-Ausgabe	Mittel
Anomalieerkennung in Sensordatenströmen	Ja (Normalbetriebsdaten)	Statistische Prozesskontrolle	MOMENT ¹⁰ oder Chronos ⁹	Mittel
Bedarfsprognose (bestehende Linie)	Ja (ERP-Historie)	Prophet ⁸ oder ARIMA	NHITS ⁴	Gering–Mittel
Bedarfsprognose (neues Geschäft / neue Domäne)	Nein	—	TimesFM ⁶ oder TimeGPT ⁷	Gering
Defektklassifikation	Begrenzt (wenige Beispiele)	XGBoost / LightGBM ¹	TabPFN-2.5 ¹¹ oder TabICLv2 ¹²	Gering
Qualitätsbewertung (kontinuierlich)	Ja (Inspektionsdaten)	XGBoost / LightGBM ¹	TabICLv2 ¹² oder TabPFN-2.5 ¹¹	Gering
Kosten- / Risikobewertung	Ja (strukturierte Tabellen)	XGBoost / LightGBM ¹	TabICLv2 ¹² oder TabPFN-2.5 ¹¹	Gering
Energieverbrauchsoptimierung	Ja (Zähler-/Sensordaten)	Prophet ⁸	N-BEATS + TFT ¹⁹	Mittel
Langfristige Ressourcenplanung	Ja (historische Reihen)	ARIMA / Prophet ⁸	PatchTST ⁵	Mittel
Multi-Sensor-Überwachung (Vibration, Temperatur, Druck)	Ja (Mehrkanal-Datenströme)	Statistische Prozesskontrolle	MOMENT ¹⁰	Mittel
Klassifikation mit Textfeldern	Ja (gemischte Tabellen)	Embeddings + XGBoost, oder CatBoost ²	FT-TabPFN ¹⁴	Gering–Mittel
Qualitätskontrolle (neue Produktlinie)	Begrenzt	XGBoost ¹	TabPFN-2.5 ¹¹	Gering

Deployment-Beispiele

1. Vorhersage von Komponentenausfällen — Bahnbetrieb

Hitachi setzte TabPFN ein, um Komponentenausfälle im Bahnnetz vorherzusagen ²⁰. Das Problem: Spezifische Ausfallmodi (z. B. Bremsbelagverschleiss, Signalrelais-Fehler) treten selten auf — manchmal nur 10–20 Mal pro Jahr über Tausende von Komponenten. Herkömmliche Modelle haben mit dieser Klassenungleichverteilung Schwierigkeiten. TabPFN zeichnet sich in Small-Data-Szenarien aus, bei denen ein spezifischer Ausfallmodus nur wenige historische Beispiele aufweist ²¹. Das Ergebnis: Reduzierung ungeplanter Ausfallzeiten durch Identifikation gefährdeter Komponenten vor dem Ausfall, ohne jahrelang Trainingsdaten ansammeln zu müssen.

2. Energieprognose — Interpretierbar für Stakeholder

Eine Studie zur Traktionsenergieprognose kombinierte N-BEATS mit Temporal Fusion Transformers und erreichte einen RMSE von 0.06 mit quantifizierter Bedeutung externer Faktoren ¹⁹. N-BEATS zeigt, warum die Prognose so ausfällt ¹⁷. TFT identifiziert, welche externen Faktoren den Verbrauch treiben ¹⁸. Ein Prognosemodell, dem Ihr Betriebsteam tatsächlich vertraut — weil es die Zerlegung sehen kann — wird angenommen. Eine Black Box wird ignoriert.

3. Bedarfsprognose — Keine einheitliche Datenbasis

Foundation-Modelle adressieren ein häufiges Integrationsproblem: fragmentierte Altsysteme, keine einheitliche Historie und ein Planungszyklus, der nicht warten kann.

TimeGPT zeigte wettbewerbsfähige Zero-Shot-Genauigkeit bei der Bodenfeuchteprognose unter ausschliesslicher Verwendung historischer Messdaten ²². TimesFM wurde auf 100 Millionen Finanzzeitreihen-Datenpunkten feingetunt, um die Preisvorhersagegenauigkeit zu verbessern ²³. Beide illustrieren dasselbe Prinzip: Vortrainierte Modelle liefern Ihnen einen belastbaren Ausgangspunkt, ohne monatelang auf Datenbereinigung warten zu müssen.

Einschränkungen und Kostenfallen

Prüfen Sie diese Einschränkungen, bevor Sie Budget freigeben.

Einschränkung	Worauf Sie achten sollten	Quelle
Echtzeit-Latenz erforderlich	Setzen Sie Chronos oder Lag-Llama nicht ein — beide sind >600× langsamer als LSTM-Baselines. Verwenden Sie TimesFM (bis zu 179× schneller als vergleichbar grosses Chronos) oder NHITS.	¹⁵, ⁴
Sehr grosse Datensätze (>10M Zeilen)	XGBoost/LightGBM gewinnen weiterhin bei Skalierbarkeit und Kosten. Zahlen Sie keine GPU-Kosten für ein Problem, das Standard-Hardware löst.	¹
Fehlende Daten	TabPFN erfordert vollständige Daten — fehlende Werte müssen vor der Inferenz imputiert werden. Hochkardinalige Kategorien erfordern Vorverarbeitung.	²¹
Ungeprüfte Herstellerangaben	TabICLv2s SOTA-Behauptungen wurden noch nicht unabhängig reproduziert. Die Vergleichs-Baseline verwendete TabPFN-2.5 mit zusätzlichem Tuning und Ensembling.	¹²
Keine Baseline etabliert	Überspringen Sie nicht Phase 1 (Assessment) und Phase 2 (Baseline). Wenn jemand vorschlägt, direkt zu Foundation- oder neuronalen Modellen zu springen, ohne zu etablieren, was Prophet/ARIMA (Zeitreihen) oder getuntes XGBoost (tabellarisch) leisten können — dann verkauft er Ihnen Stunden, keine Ergebnisse.	¹, ⁸

Umsetzungsfahrplan

Überspringen Sie keine Phase. Jede dauert ungefähr eine Woche.

Phase	Was Sie tun	Warum es wichtig ist
1. Assessment	Daten charakterisieren (Typ, Grösse, Frequenz, Qualität). Anforderungen an Genauigkeit, Geschwindigkeit und Interpretierbarkeit definieren.	Verhindert, dass ein Modell gewählt wird, das auf Ihren Daten oder Ihrer Infrastruktur nicht laufen kann.
2. Baseline	Prophet oder ARIMA für Zeitreihen implementieren ⁸; XGBoost oder LightGBM für tabellarische Daten ¹. Performance-Metriken etablieren.	Gibt Ihnen eine Zahl, die es zu schlagen gilt. Wenn jemand vorschlägt, diesen Schritt zu überspringen, widersprechen Sie.
3. Foundation-Modelle	Zero-Shot mit TimesFM, Chronos oder TimeGPT (Zeitreihen) ⁶, ⁹, ⁷ oder TabPFN-2.5 / TabICLv2 (tabellarisch) ¹¹, ¹² ausprobieren.	Der schnellste Weg, das Erreichbare ohne Training zu sehen.
4. Neuronale Modelle	NHITS, PatchTST oder TFT trainieren, wenn ausreichend Daten vorhanden ⁴, ⁵, ¹⁸. Mit Phase 2 und 3 vergleichen.	Oft die Genauigkeitsobergrenze — aber nur, wenn Datenqualität und -menge es rechtfertigen.
5. Produktion	Bestes Modell auswählen. Monitoring- und Retraining-Pipeline aufbauen. Deployen.	Ein Modell ohne Drift-Monitoring und Retraining-Zeitplan ist eine Verbindlichkeit, kein Asset.

Kombinieren Sie Modelle, wo es sinnvoll ist. Ensembles übertreffen oft Einzelmodelle. Die Quellenanalyse dokumentiert, dass N-BEATS + TFT einen RMSE von 0.06 bei der Energieprognose erreichen ¹⁹ — besser als jedes Modell allein. Ein gängiges Muster: Ein Foundation-Modell für die erste Schätzung verwenden, dann mit einem trainierten neuronalen Modell feintunen oder ensemblen, sobald Daten anfallen.

Readiness-Checkliste

Verwenden Sie diese Checkliste, um zu bestätigen, dass ein Kandidatenmodell zu Ihrem Problem und Ihrer Umgebung passt, bevor Sie Budget freigeben.

Eigenschaft	Beschreibung	✓
Problempassung	Modell unterstützt die geforderte Aufgabe (Prognose, Klassifikation, Scoring)	☐
Datenbereitschaft	Daten sind sauber, vollständig und zugänglich — oder ein Zero-Shot-Modell ist gewählt	☐
Genauigkeit	Modell erreicht die geforderte Genauigkeit auf Ihren Validierungsdaten oder publizierten Benchmarks	☐
Latenz	Modell ist schnell genug für Ihren operativen Takt (Echtzeit vs. Batch)	☐
Hardware-Passung	Modell passt in den Speicher der Ziel-Hardware (GPU, CPU, Edge)	☐
Interpretierbarkeit	Ausgaben sind für die Stakeholder erklärbar, die darauf basierend handeln müssen	☐
Baseline-Vergleich	Performance wurde mit einer einfachen Baseline verglichen (Prophet, XGBoost)	☐
Wartungsplan	Retraining-Kadenz definiert (Foundation-Modelle: keine; neuronale Modelle: monatlich/quartalsweise)	☐
Drift-Monitoring	Plan existiert, um zu erkennen, wann die Modellleistung über die Zeit abnimmt	☐
Lizenz	Code- und Gewichtslizenz erlaubt kommerzielle Nutzung	☐
Teamfähigkeit	Team kann deployen und warten, oder ein qualifizierter Partner ist identifiziert	☐

Was sich geändert hat (und was nicht)

Foundation-Modelle haben den grössten Engpass in der industriellen KI dramatisch reduziert: die monatelange, datensatzspezifische Hyperparameter-Suche, die früher jedes Projekt zum Glücksspiel machte ²¹, ⁶. Der Engpass ist nicht verschwunden — er hat sich von der Hyperparameter-Suche zu Datenaufbereitung, Prompt-Design und Inferenz-Konfiguration verschoben — aber die Hürde bis zu einem ersten belastbaren Ergebnis ist deutlich niedriger.

Vier Dinge sind heute anders:

Prognosen und Klassifikation sind in Wochen deploybar, nicht in Quartalen, wenn Sie saubere historische Daten haben ⁴, ⁶.
Datenarme Szenarien erfordern nicht mehr das Warten auf Datenerhebung — Zero-Shot-Modelle liefern sofort belastbare erste Schätzungen ⁶, ⁷.
Small-Data-Probleme (seltene Defekte, wenige gelabelte Beispiele, neue Produktlinien), die zuvor ohne massive Datensätze unlösbar waren, sind jetzt handhabbar ²¹, ²⁴.
Die Kostenstruktur des Experimentierens hat sich verändert. Foundation-Modelle sind vortrainiert — Sie zahlen nur für Inferenz, nicht für Training ²¹, ⁶, ⁹. Aber Inferenzkosten für grosse Modelle (insbesondere auf GPU) können die Trainingskosten einfacherer Methoden übersteigen. Bewerten Sie die Gesamtkosten, nicht nur die Modelltrainingskosten.

Zwei Dinge haben sich nicht geändert: Sie brauchen immer noch jemanden, der das Problem versteht, die Datenqualität beurteilen kann und Modellausgaben in Entscheidungen übersetzen kann. Und Gradient Boosting auf gut konstruierten Features bleibt der zuverlässigste Standard für tabellarische Supervised-Probleme ¹. Die neuen Modelle erweitern das Mögliche. Sie machen das Bewährte nicht obsolet.

Referenzen

T. Chen and C. Guestrin, "XGBoost: A scalable tree boosting system," in Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 785-794, 2016. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹ ↩¹² ↩¹³ ↩¹⁴ ↩¹⁵ ↩¹⁶
L. Prokhorenkova, G. Gusev, A. Vorobev, A. V. Dorogush, and A. Gulin, "CatBoost: unbiased boosting with categorical features," in Advances in Neural Information Processing Systems, vol. 31, 2018. ↩ ↩² ↩³ ↩⁴ ↩⁵
B. Helli, S. Müller, N. Hollmann, and F. Hutter, "Drift-Resilient TabPFN: In-Context Learning Temporal Distribution Shifts on Tabular Data," arXiv:2411.10634, 2024. ↩
C. Challu, K. G. Olivares, B. N. Oreshkin, F. Garza, M. Mergenthaler-Canseco, and A. Dubrawski, "NHITS: Neural Hierarchical Interpolation for Time Series Forecasting," Proceedings of the AAAI Conference on Artificial Intelligence, vol. 37, no. 6, pp. 6989-6997, 2023. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰
Y. Nie, N. H. Nguyen, P. Sinthong, and J. Kalagnanam, "A Time Series is Worth 64 Words: Long-term Forecasting with Transformers," International Conference on Learning Representations, 2022. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
A. Das, W. Kong, A. Leach, S. Mathur, R. Sen, and Y. Yu, "A decoder-only foundation model for time-series forecasting," arXiv:2310.10688, 2023. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹
A. Garza and M. Mergenthaler-Canseco, "TimeGPT-1," arXiv:2310.03589, 2023. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷
S. J. Taylor and B. Letham, "Forecasting at scale," The American Statistician, vol. 72, no. 1, pp. 37-45, 2018. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸
A. Ansari, L. Stella, C. Turkmen, X. Zhang, et al., "Chronos: Learning the Language of Time Series," arXiv:2403.07815, 2024. ↩ ↩² ↩³ ↩⁴ ↩⁵
M. Zukowska, O. Melnyk, M. Moor, and T. Palpanas, "Towards Long-Context Time Series Foundation Models," arXiv:2409.13530, 2024. ↩ ↩² ↩³ ↩⁴ ↩⁵
N. Hollmann, S. Müller, and F. Hutter, "TabPFN: Accurate Predictions on Small Data with a Tabular Foundation Model," arXiv:2511.08667, November 2025. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹
J. Qu, D. Holzmüller, G. Varoquaux, and M. Le Morvan, "TabICLv2: A better, faster, scalable, and open tabular foundation model," arXiv:2602.11139, February 2026. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰
R. Sergazinov, A. Shen, S. Müller, F. Hutter, and A. Dubrawski, "Chunked TabPFN: Exact Training-Free In-Context Learning for Long-Context Tabular Data," 2025. ↩ ↩²
Y. Liu, S. Müller, and F. Hutter, "Tokenize features, enhancing tables: the FT-TABPFN model for tabular classification," arXiv:2406.06891, 2024. ↩ ↩²
S. Ali, A. Alvi, S. Raza, and M. Yousuf, "Zero-shot forecasting for ECG time series data using generative foundation models," in 2024 IEEE International Conference on Body Sensor Networks (BSN), pp. 1-4, 2024. ↩ ↩²
Z. Liao, K. Liang, K. Xu, and B. Cui, "Zero-Shot Load Forecasting with Large Language Models," arXiv:2411.11350, 2024. ↩
B. N. Oreshkin, D. Carpov, N. Chapados, and Y. Bengio, "N-BEATS: Neural basis expansion analysis for interpretable time series forecasting," in International Conference on Learning Representations, 2020. ↩ ↩² ↩³
B. Lim, S. Ö. Arık, N. Loeff, and T. Pfister, "Temporal Fusion Transformers for interpretable multi-horizon time series forecasting," International Journal of Forecasting, vol. 37, no. 4, pp. 1748-1764, 2021. ↩ ↩² ↩³ ↩⁴
Y. Jiang, Y. Zhao, Y. Guo, and Y. Jiang, "Interpretable Forecasting of Traction Energy Consumption Based on Nbeats and Temporal Fusion Transformers," in 2024 IEEE 7th International Conference on Industrial Cyber-Physical Systems (ICPS), pp. 1-6, 2024. ↩ ↩² ↩³
"How Hitachi Uses TabPFN for Equipment Failure Prediction," Prior Labs Case Studies / Hitachi partnership announcement. ↩
N. Hollmann, S. Müller, K. Eggensperger, and F. Hutter, "Accurate predictions on small data with a tabular foundation model," Nature, vol. 635, pp. 115-121, January 2024. ↩ ↩² ↩³ ↩⁴ ↩⁵
L. Deforce, B. Masseran, T. Voisin, and A. Bozzon, "Leveraging Time-Series Foundation Models in Smart Agriculture for Soil Moisture Forecasting," arXiv:2405.18913, 2024. ↩
Y. Fu, Y. Xiong, Y. Tian, S. Zhang, et al., "Financial Fine-tuning a Large Time Series Model," arXiv:2412.09880, 2024. ↩
"How BostonGene Utilized TabPFN to Identify Immune System Profiles," Prior Labs Case Studies. ↩