Automatisierte Textklassifizierung Wie man Dokumente, Tickets und Nachrichten mit überwachtem Lernen automatisch kategorisiert
by Sloane Garrett
Du sitzt vor einem Berg unklassifizierter Support-Tickets. Dein Team hat aufgegeben. Der Feierabend ist um 22 Uhr vorbei. Das war 2019 — und genau dort begann die Reise, die zu diesem Buch führte.
Automatisierte Textklassifizierung ist keine theoretische Abhandlung. Es ist die Essenz dessen, was funktioniert, wenn echte Daten auf den Tisch kommen: chaotisch, unvollständig, mit Tippfehlern in den Labels. Kein Proof-of-Concept, kein Spielzeug — sondern ein System, das in Produktion läuft und deine Nächte rettet.
Die meisten Tutorials sagen: „Nimm BERT, fertig." Die Papers behaupten, Textklassifizierung sei ein gelöstes Problem. In der Praxis scheitern Projekte an der Encoding-Frage, verlieren sich in Hyperparameter-Optimierung mit dreißig handgelabelten Beispielen oder bauen neuronale Netze, die ein simpler linearer Klassifikator mit TF-IDF auf einem Raspberry Pi schlägt.
Dieses Buch zeigt den direkten Weg von rohen Textdaten zu einer produktionsreifen Klassifizierung. Du lernst, wie du Texte lädst und bereinigst — auch wenn sie aus 17 Quellen kommen und in drei Encoding-Formaten vorliegen. Du extrahierst Merkmale von einfachen Wortzählungen bis zu TF-IDF-Vektorisierung, ohne dass dir jemand erklären muss, was eine Sparse-Matrix ist. Du trainierst Klassifikationsmodelle mit Methoden, die auf realen Datensätzen funktionieren — nicht auf „Iris" oder „MNIST". Du evaluierst und vergleichst Modelle mit Metriken, die deinem Chef zeigen, warum dein System besser ist als der Praktikant, der bisher die Tickets sortiert hat. Und du bringst das Ganze in Produktion — als API, Batch-Job oder integriertes Feature in deiner bestehenden Anwendung.
Jedes Kapitel enthält ausführbaren Code, echte Beispiele und Übungen, die du in 20–30 Minuten lösen kannst. Wir arbeiten mit Python, scikit-learn, spaCy und Hugging Face Transformers — Tools, die sich in tausenden Produktionssystemen bewährt haben.
Du brauchst keine Mathematik jenseits von Schulniveau. Kein tiefes Verständnis von linearer Algebra. Kein GPU-Cluster. Nur Python-Grundlagen, einen Rechner mit 8 GB RAM und ein konkretes Problem, das automatisch gelöst werden muss.
$10.11