Blog on Handy Intelligence

Komponenten als Wissensobjekte: RAG statt Prompt-Monolith

Mon, 09 Feb 2026 00:00:00 +0000

Wer schon mal versucht hat, ein komplexes UI- oder System-Setup in einen Agenten-Workflow zu pressen, kennt das Problem: Entweder du packst riesige Komponenten-Textsammlungen in den Kontext — oder der Agent rät. Beides endet selten gut.

Ein praktischer Ausweg: Komponenten (Frontend-Komponenten, Services, Module, sogar ganze Feature-Slices) nicht als “Textwüste” in Prompts zu tragen, sondern als Wissensobjekte in eine RAG-Datenbank zu legen — und sie gezielt per Tool abzurufen.

Der Trick ist die Granularität: Statt “hier ist unser gesamtes Design System”, speicherst du pro Komponente das, was wirklich gebraucht wird: Zweck, Props/Inputs, Zustände, Events, Abhängigkeiten, API-Verträge, Beispiele, Do’s/Don’ts. Zusätzlich Metadaten wie Version, Ownership, Pfade, Tags (z. B. “checkout”, “accessibility”, “mobile”).

0,5 ExaFLOPS: Was die Telekom-Anlage wirklich für KI-Training bedeutet

Thu, 05 Feb 2026 00:00:00 +0000

0,5 ExaFLOPS sind eine starke Zahl – aber erst die Präzision dahinter entscheidet, ob daraus „KI-Autonomie in Monaten" oder „in Jahren" wird.

Die Telekom Industrial AI Cloud

Die Telekom hat in München (Tucherpark) ihre Industrial AI Cloud gestartet: ~10.000 NVIDIA Blackwell GPUs (DGX B200 + RTX PRO Server) und „bis zu 0,5 ExaFLOPS", betrieben unter deutschen Anforderungen an Datenschutz, Sicherheit und Verfügbarkeit.

Die entscheidende Deutung

Diese 0,5 ExaFLOPS sind sehr plausibel FP64 (HPC-Metrik). Für eine B200 werden grob ~37–40 TFLOPS FP64 angegeben; mal 10.000 landet man genau in der Größenordnung 0,4–0,5 EFLOPS.

AWS vs. Hetzner in 60 Sekunden: Compute ist selten das Problem

Thu, 05 Feb 2026 00:00:00 +0000

AWS vs. Hetzner in 60 Sekunden: Compute ist selten das Problem – Egress schon.

Setup

Für Vergleichbarkeit: 24/7 (~730 h/Monat), Small/Medium/Large (2/4/8 vCPU mit 4/16/32 GB RAM).

AWS-Beispiele: t3.medium, m6i.xlarge, m6i.2xlarge
Hetzner: CX22, CCX23, CCX33

🔹 Nur Compute (1 VM/Node, 24/7)

Größe	AWS EC2/ECS	AWS EKS (inkl. Cluster-Fee)	Hetzner
Small	~$30/Monat	~$103	€3,79
Medium	~$140	~$213	€24,49
Large	~$280	~$353	€39,90

🔹 „Mini-K8s" (1 Cluster + 2 Worker, Medium)

AWS EKS: 2×$140 + $73 ≈ $353/Monat (compute-only)
Hetzner: 2×€24,49 ≈ €48,98/Monat

🔹 Der echte Punch: Traffic/Egress

AWS: grob $0,09/GB → 1 TB ≈ $92, 10 TB ≈ $922, 25 TB ≈ $2.304
Hetzner EU: 20 TB inkl., danach ~€1/TB → bei 25 TB: ~€5 extra

Kubernetes ist nicht nur „EKS oder nichts"

Und ja: Auf günstigen VMs ist es oft erstaunlich schnell aufgesetzt – z. B. mit k3s oder RKE2. Und wenn man gar kein „Full-K8s" braucht, kann man mit der Cloud API viele einfache Lösungen sogar direkter bauen (Provisioning, Scaling, Automatisierung) – ohne direkt den ganzen Kubernetes-Overhead mitzunehmen.

Der Browser als sichere Compute-Sandbox für IoT-Geräte

Thu, 05 Feb 2026 00:00:00 +0000

Man kann den Browser auch als „sichere Compute-Sandbox" für ein IoT-Gerät sehen, das selbst keine KI stemmen kann.

Die Idee

Das Device spricht nur per HTTP mit einer lokalen Web-App. Die KI läuft per WebGPU auf dem PC des Users im Browser – und übernimmt dort alles, was auf dem Gerät zu schwer wäre.

Der Browser als „Embedded Extension"

Damit wird der Browser quasi zur „Embedded Extension" des Geräts:

🔹 Device liefert Logs/Status/Config an die lokale Web-App (HTTP)
🔹 KI analysiert das direkt am PC (WebGPU)
🔹 Ergebnis geht als Config/Commands wieder zurück ans Device (HTTP)
🔹 Nach außen idealerweise nur Modell-Download/Updates – kein Log-Upload

Warum das spannend ist

Das ist ein spannender Architektur-Trick: Man bekommt „smarte" Diagnose und Konfiguration, ohne das IoT-Gerät aufzublähen und ohne ein Backend bauen zu müssen, das sensible Betriebsdaten sieht.

n8n Lizenz-Risiko: Warum „Open Source" nicht „frei für alles" heißt

Thu, 05 Feb 2026 00:00:00 +0000

Viele Teams behandeln n8n wie „Open Source = frei für alles". Genau da beginnt das Lizenz-Risiko.

Die Sustainable Use License

n8n steht (für die freie Self-Hosted Community Edition) unter der Sustainable Use License. Die ist bewusst so gebaut, dass man n8n intern nutzen, anpassen und betreiben kann – aber nicht einfach als eigenes Produkt/Service weiterverkaufen. „White-labeln", „hosten und Kunden dafür bezahlen lassen" oder ein Angebot, dessen Kernwert aus n8n besteht, ist damit ausdrücklich ausgeschlossen.

Tokens vs. Embeddings: Zwei komplett verschiedene Dinge

Wed, 04 Feb 2026 00:00:00 +0000

Tokens vs. Embeddings: Zwei komplett verschiedene Dinge

Viele sprechen über Tokens und Embeddings – und meinen dabei oft „irgendwas mit KI". Dabei sind es zwei komplett unterschiedliche Dinge.

🔢 Tokens: Die Text-Bausteine

Tokens sind die Text-Bausteine, mit denen ein Modell arbeitet. Ein Satz wird in kleine Einheiten zerlegt (Wortteile, Wörter, Zeichen). Je mehr Text, desto mehr Tokens. Tokens sind also eine Zählgröße für Input/Output.

🧭 Embeddings: Die Bedeutungs-Repräsentation

Embeddings sind dagegen eine Bedeutungs-Repräsentation von Text als Zahlenvektor. Stell dir vor: Aus „Hund" wird nicht „4 Tokens", sondern ein Pfeil im Bedeutungsraum, der „Hund" nah an „Welpe", „Tier" und weiter weg von „Steuerbescheid" platziert.

🔐 KI-Sicherheit: Wenn aus 5% Fehler plötzlich 40% Müll wird

Tue, 03 Feb 2026 00:00:00 +0000

🔐 KI-Sicherheit: Wenn aus 5% Fehler plötzlich 40% Müll wird…

Künstliche Intelligenz ist beeindruckend. Sie schreibt Texte, generiert Bilder, hilft beim Coden. Aber was passiert, wenn die KI sich selbst trainiert, evaluiert – und am Ende auch noch ihren eigenen Workflow baut?

💡 Spoiler: Dann hast du bald keinen Workflow mehr. Sondern ein Kartenhaus.

👉 Das Problem: KI baut auf ihren eigenen Fehlern auf

Viele Tools wie Clawdbot versprechen, deine komplette Content- oder Datenpipeline per KI zu automatisieren. Klingt effizient – aber wer prüft eigentlich, ob die KI nicht mit ihren eigenen Fehlern arbeitet?

Digitale Souveränität: Was passiert, wenn jemand den Stecker zieht?

Tue, 03 Feb 2026 00:00:00 +0000

⚡️ Was passiert, wenn morgen jemand den Stecker zieht?

Nicht metaphorisch. Sondern ganz real: Identität, Kollaboration, Cloud-Services, Security-Stack – weg oder eingeschränkt.

Die Grafik bringt’s brutal auf den Punkt: Digitale Abhängigkeit ist inzwischen ein Betriebsrisiko.

Kein „IT-Thema". Sondern: Lieferfähigkeit, Cashflow, Reputation. 💥

Und das Gemeine: Viele Unternehmen spüren das Risiko – aber es bleibt diffus. „Wir sind halt in der Cloud… wird schon…" 😬

K3s vs. K8s: Die unbequeme Wahrheit (ohne Hype)

Tue, 03 Feb 2026 00:00:00 +0000

K3s vs. K8s: Die unbequeme Wahrheit (ohne Hype)

Es gibt eine Diskussion, die sich in vielen Teams erstaunlich hartnäckig hält:

„K3s ist doch nur Kubernetes light."

Die unbequeme Antwort ist viel simpler:

K3s IST Kubernetes. Punkt.

Nicht „für Anfänger". Nicht „für Edge". Nicht „light". Es ist ein Kubernetes-Distribution-Setup, das dir den Schmerz abnimmt – nicht die Fähigkeiten.

Was K3s wirklich ist

Wenn man es zugespitzt formuliert:

K8s (DIY): „Hier sind die Teile. Viel Spaß beim Zusammenbauen."
K3s: „Hier ist ein fertiger Cluster. Mach was damit."

Und das Entscheidende:

Transformers: Beeindruckend, aber wirklich die Zukunft?

Wed, 10 Dec 2025 00:00:00 +0000

🧠 Transformers sind beeindruckend – aber sind sie wirklich die Zukunft?

Das untenstehende Diagramm (aus der mechanistic interpretability Forschung) ist eines der besten Beispiele dafür, warum die Transformer-Architektur an ihre Grenzen stößt.

👉 Die Aufgabe: 36 + 59

Was für uns trivial ist, wird im Transformer zu einem labyrinthischen Prozess mit zwei parallelen Pfaden – einer schätzt grob, der andere versucht das letzte Ziffernbit korrekt zu bekommen.

Best of: Claude Code – Agenten, Hooks & Git-Magie

Fri, 26 Sep 2025 00:00:00 +0000

🚀 Best of: Claude Code – Agenten, Hooks & Git-Magie

Die knackigsten Learnings aus Community-Projekten, Blogs & Docs – für eine robuste, reproduzierbare AI-Dev-Pipeline. 👇

🧭 Agentische Workflows (Plan → Build → Verify)

Mehr-Agenten-Pipelines: o3 plant detailliert, Sonnet baut, striktes Modell verifiziert.
Jede Aufgabe = eigener Commit; parallel mit Git-Worktrees.

🧩 Sub-Agenten & Meta-Agenten

Sub-Agenten als Markdown mit YAML (Reviewer, Test-Engineer, Doku, Security, Perf, Architekt).
Meta-Agent erzeugt neue Sub-Agenten inkl. Tooling & Prompts – konsistentes Format by design.

🛠️ Best Practices

Phase 1: Lesen & Planen (strukturierte Schritte).
Phase 2: Implementieren & Validieren (Tests zuerst, dann Commit). ✅

🪝 Hook-System (8 Events)

UserPromptSubmit, Pre/PostToolUse, Notification, Stop, SubagentStop, PreCompact, SessionStart.

Common Crawl: Gold für die Datenwelt

Fri, 05 Sep 2025 00:00:00 +0000

🌐 Was ist Common Crawl und warum ist es Gold für die Datenwelt? 💡

Common Crawl ist ein offenes Web-Archiv, das seit 2008 monatlich große Teile des öffentlichen Internets speichert. 💾💻

Und das Beste? Es ist frei verfügbar! Für Forschende, Entwickler:innen, Startups – für alle, die mit großen Textmengen arbeiten wollen. 🙌

📦 Was steckt in Common Crawl?

👉 Webseiten-Inhalte (HTML, Text)
👉 Metadaten (Zeitstempel, URLs, Sprache, etc.)
👉 Link-Strukturen (Wer verlinkt auf wen?)
👉 Textdaten zur Sprachmodellierung
👉 Crawl-Volumen? Mehrere Milliarden Webseiten pro Monat! 😮

Ein typischer Crawl enthält Daten aus zig Millionen Domains – z.B. News-Seiten, Blogs, Wikipedia, Stack Overflow, Produktbeschreibungen, Foren… der bunte Mix des Internets eben. 🌍

Excel ist nicht das Futter für KI – es ist die Verpackung

Fri, 29 Aug 2025 00:00:00 +0000

Excel ist nicht das Futter für KI – es ist die Verpackung. 🧮📦

Der effektivste Weg: Einen MCP-Server um das Excel bauen und die KI per Funktionsaufrufen genau die Datenscheiben anfordern lassen, die sie wirklich braucht.

Warum das wirkt

🎯 Präzise Slices: list_sheets → describe → select(columns, where, limit, cursor) – nur Relevantes landet im Kontext.
💸 Kosten im Griff: Projektion/Filter/Aggregation laufen serverseitig (Pushdown).
🧪 Reproduzierbar: Typen, Validierung, Constraints & Idempotenz im Tool, nicht im Prompt.
🔒 Governance: PII-Masking, Audit-Logs, Rate-Limits, Row-Level-Security.
🔁 Rückschreiben: write_back(mapping, validate=true) mit Checks & sauberem Report.

So läuft es ab

Excel am MCP registrieren (unter der Haube: Power Query, pandas oder SQL).
KI nutzt describe() für Struktur & Datentypen.
KI zieht gezielte Slices via select() und arbeitet dort, wo Sprache & Urteil zählen: Klassifizieren, Normalisieren, Dubletten mergen, Zusammenfassen.
Ergebnisse validieren und mit write_back() in neue Spalten/Sheets/DB zurückspielen.

Mini-Case

Produktkatalog mit 20.000 Zeilen. MCP liefert nur name, description, brand bei fehlender/unsicherer category. Die KI klassifiziert diese 6–10 %. Danach write_back() mit Validierung → neue category-Spalte. Schnell, günstig, auditierbar – und skalierbar.

MoE ≠ weniger RAM – sondern mehr Tempo ⚡️

Thu, 28 Aug 2025 00:00:00 +0000

MoE ≠ weniger RAM – sondern mehr Tempo ⚡️

Es hält sich das Missverständnis, dass Mixture-of-Experts (MoE) die Speichernutzung am Endgerät senkt. In Wirklichkeit werden beim Inferenz-Serving alle Experten-Gewichte geladen. Der Trick von MoE: Pro Token werden nur wenige Experten (z. B. Top-2) gerechnet. Das spart FLOPs und steigert Durchsatz – vor allem bei großen Providern mit vielen GPUs – aber spart nicht die Gewichte ein. 💾

📊 Zahlen für ein Gefühl

Modell	FP16	4-bit
Dense 7B	≈ 14 GB	≈ 4–5 GB (+ KV-Cache)
Dense 70B	≈ 140 GB	≈ 35–45 GB
MoE 8x7B (Top-2)	≈ 112 GB (gesamt ≈ 56 B Param)	≈ 28–35 GB
MoE 16x8B (Top-2)	≈ ~256 GB (gesamt ≈ 128 B)	≈ 64–80 GB

Beim MoE 8x7B sind pro Token nur ≈ 14 B Parameter aktiv – aber geladen bleiben ~56 B.

🔍 Transformer Explainer: Verstehe LLMs – ohne sie zu mystifizieren

Wed, 27 Aug 2025 00:00:00 +0000

🔍 Transformer Explainer: Verstehe LLMs – ohne sie zu mystifizieren

Wer verstehen will, wie große Sprachmodelle (LLMs) funktionieren, findet im Transformer Explainer von Polo Club einen genialen Startpunkt:

👉 https://poloclub.github.io/transformer-explainer/

Er zeigt interaktiv, wie Token durch Schichten fließen, worauf Attention-Heads “schauen” und wie am Ende das nächste Wort vorhergesagt wird. 🎛️✨

Warum das wichtig ist

➡️ LLMs ≠ Denken. Sie sind hochskalierte Nächstes-Token-Prädiktoren.
➡️ Weniger Anthropomorphismus. Kein Bewusstsein, keine Intention – nur Statistik.
➡️ Bessere Praxis. Wer versteht, was im Modell passiert, schreibt bessere Prompts, evaluiert realistischer und setzt Grenzen sinnvoller.

🛠️ Kurzer Technik-Überblick (ohne Mathe-Overkill)

Der Text wird in Token zerlegt und in Vektoren (Embeddings) verwandelt.
Self-Attention gewichtet, welche früheren Token wichtig sind (mehr “Aufmerksamkeit” = mehr Einfluss).
MLP/Feedforward & Residual-Verbindungen mischen Signale, Layer-Norm stabilisiert.
Am Ende entstehen Logits → Softmax → das wahrscheinlichste nächste Token. Dann geht’s von vorn los. 🔁

💡 Was man daraus mitnehmen sollte

“Halluzinationen” sind keine Lügen – nur selbstsichere, aber falsche Vorhersagen aus unzureichendem Kontext.
Guter Kontext + klare Instruktionen → bessere Token-Sequenzen.
Evaluation > Bauchgefühl: Messt Qualität, Robustheit und Risiken, statt Intelligenz zu unterstellen.

👉 Tipp

Öffne den Transformer Explainer und beobachte, wie sich die Attention-Muster ändern, wenn du den Eingabetext variierst. Du siehst sofort, warum Worte an unterschiedlichen Stellen unterschiedlich stark “zählen”. Das entzaubert – und macht dich besser im Umgang mit LLMs. 💡

🔥 Claude Code in der Praxis: Hooks, Subagents & Multi-Agent-Power

Tue, 26 Aug 2025 00:00:00 +0000

🔥 Claude Code in der Praxis: Hooks, Subagents & Multi-Agent-Power

Claude Code bringt echte Workflow-Features für Dev-Teams – nicht nur “Chat + Code”, sondern strukturierte Automatisierung. Hier die Highlights, kurz & knackig:

🪝 Hooks (Automations-Trigger)

Definiere Ereignisse wie on-plan, on-edit, on-test oder on-commit. Bei jedem Schritt laufen Linting, Type-Checks, Tests oder dein CLI-Script. Die Ergebnisse fließen direkt zurück – Claude iteriert, bis es grün ist.

🧩 Subagents (Spezialisten)

Erstelle fokussierte Helfer mit klaren Rollen: Implementer, Test Writer, Docs Scribe, Security Reviewer. Jeder Subagent bekommt eigenes Briefing, Zugriffsräume und Qualitätskriterien.

🚀 Leichtgewichtig, leistungsstark und vielseitig: Das neue Gemma 3 270M Modell

Tue, 26 Aug 2025 00:00:00 +0000

🚀 Leichtgewichtig, leistungsstark und vielseitig: Das neue Gemma 3 270M Modell ist da! 🧠💡

Wer denkt, man braucht riesige Serverfarmen, um mit KI zu arbeiten – sollte nochmal nachdenken! 😎 Das neue Gemma 3 270M Modell von Google zeigt, dass klein auch smart sein kann:

🧩 Kompakt & effizient

Mit nur 270 Millionen Parametern ist es extrem ressourcenschonend und läuft sogar problemlos auf einer CPU! 💻 Kein teures Setup nötig – ideal für lokale Anwendungen, Edge-Devices oder zum schnellen Prototypen.

🚀 Sora ist beeindruckend – aber (noch) nichts für Präzisionsarbeit!

Thu, 13 Mar 2025 00:00:00 +0000

KI-generierte Videos haben mit Sora, dem neuesten Videomodell von OpenAI, einen riesigen Sprung gemacht. Aber hier kommt der Haken: Obwohl es atemberaubende, filmreife Bilder liefert, ist es noch nicht geeignet für Aufgaben, bei denen es auf Präzision und Kontrolle ankommt.

📸 Wo Sora an seine Grenzen stößt

Trotz seiner kreativen Stärke hat Sora Probleme mit kleinen Details und Konsistenz – zwei Schlüsselkriterien in der professionellen visuellen Arbeit.

Im Vergleich dazu spezialisierte KI-Modelle:

KI bauen: Straßen, Netzwerke und Kreativität 🚧🤖

Fri, 31 Jan 2025 00:00:00 +0000

KI bauen: Straßen, Netzwerke und Kreativität 🚧🤖

KI-Lösungen zu entwickeln – ob einfach oder komplex – ist ein bisschen wie das Entwerfen eines Straßennetzes. Manchmal reicht eine einzige, direkte Straße. In anderen Fällen braucht man:

🏗 Weichen, um die Richtung zu ändern,
🏘 Wege, die durch ganze Stadtviertel führen, oder
🌐 Netzwerke aus miteinander verbundenen Pfaden, um komplexe Routen zu bewältigen.

Jedes Szenario ist einzigartig, mit eigenen Herausforderungen und Zielen.

Warum Local AI 2025 der klügste Tech-Move sein könnte

Wed, 15 Jan 2025 00:00:00 +0000

🔒✨ Warum Local AI 2025 der klügste Tech-Move sein könnte

Cloud-AI ist bequem – bis die API-Rechnung kommt. 💸

Aber was wäre, wenn KI-Modelle lokal betrieben werden könnten – auf eigenen Geräten, ohne Daten in die Cloud zu schicken, ohne pro Anfrage zu zahlen, und mit voller Datenkontrolle?

🌐 Willkommen in der Welt der Local AI

🚀 Riesenmengen an Daten direkt vor Ort verarbeiten
🧠 Keine ständige Internetverbindung nötig
💼 Sensible Geschäftsdaten bleiben, wo sie hingehören – im eigenen Unternehmen
💰 Schluss mit unvorhersehbaren API-Kosten

🔧 Was heute schon möglich ist

Ob große Sprachmodelle am eigenen Arbeitsplatz oder feinjustierte Vision-Modelle, die Terabytes an Bildern analysieren – lokale KI sprengt die bisherigen Grenzen von Performance und Kosten.

⚠️ Kritisches Problem: Strukturierte Ausgabefelder von OpenAI können überschrieben werden

Thu, 17 Oct 2024 00:00:00 +0000

⚠️ Kritisches Problem: Strukturierte Ausgabefelder von OpenAI können überschrieben werden 🚨

In den Modellen von OpenAI sollen strukturierte Ausgabefelder das Format und den Inhalt der Antworten steuern. Allerdings werden die Beschreibungen dieser Felder lediglich als Teil des Kontexts der Eingabe behandelt. Das bedeutet: Wenn man den Feldnamen kennt, kann man dessen Bedeutung im Prompt neu definieren.

🔴 Dieses Verhalten ist nicht beabsichtigt und kann zu Problemen führen, wie zum Beispiel:

KI & Docker: Maximale Effizienz durch Containerisierung

Thu, 26 Sep 2024 00:00:00 +0000

🚀 KI & Docker: Maximale Effizienz durch Containerisierung! 🧠

Im rasant wachsenden Bereich der Künstlichen Intelligenz (KI) spielt Docker eine entscheidende Rolle. Es ermöglicht Entwicklern und Unternehmen, KI-Anwendungen isoliert und plattformunabhängig zu betreiben. Doch warum ist Docker so wichtig für KI? 🤔

🔑 Vorteile von Docker für KI

Einfachheit: Mit Docker lassen sich KI-Umgebungen in wenigen Minuten erstellen und konfigurieren.
Skalierbarkeit: Docker-Container können leicht auf verschiedene Systeme skaliert werden – lokal, in der Cloud oder in hybriden Umgebungen.
Wiederholbarkeit: Docker sorgt dafür, dass KI-Projekte überall gleich funktionieren – unabhängig von der zugrunde liegenden Infrastruktur.
Open-Source-Power: Viele der besten Open-Source-KI-Tools sind dank Docker sofort einsatzbereit! 🌍

🧰 Bekannte Open-Source-KI-Lösungen, die mit Docker funktionieren

TensorFlow 🧠 – Eine umfassende Plattform für maschinelles Lernen von Google.
PyTorch 🔥 – Flexibles Deep-Learning-Framework von Facebook AI.
Hugging Face Transformers 🤗 – NLP-Bibliothek für modernste Sprachmodelle.
OpenCV 👁 – Open-Source-Computer-Vision-Bibliothek zur Bildverarbeitung.
Ray ⚡ – Framework für verteiltes maschinelles Lernen und Parallelisierung.
MLflow 📊 – Open-Source-Tool zur Verwaltung des Machine-Learning-Lebenszyklus.
KubeFlow 🛠 – Plattform für maschinelles Lernen auf Kubernetes.

Mit Docker können diese Lösungen nicht nur schnell eingesetzt, sondern auch einfach in verschiedene Umgebungen integriert werden. Egal ob du an kleinen Experimenten arbeitest oder KI-Modelle in großem Maßstab trainierst – Docker sorgt für Effizienz und Flexibilität.