Edge AI & Ultra Low Power: Die Hardware-Architektur der On-Device Intelligence

Nahaufnahme eines modernen Computerchips mit der Aufschrift „AI“ auf einer elektronischen Leiterplatte. Leuchtende blaue und orangefarbene Schaltkreise und Lichteffekte symbolisieren künstliche Intelligenz, Datenverarbeitung und digitale Technologie.

Edge AI verlagert KI-Inferenz weg von verteilten Cloud-Lösungen direkt an den Entstehungsort der Daten in Mikrocontroller, Sensoren und Maschinen vor Ort. Hiermit sinkt die Latenz der Datenverarbeitung und das zu übertragende Datenvolumen reduziert sich. Zugleich steigen jedoch die Anforderungen an die Hardwarearchitektur, die Speicherhierarchie sowie das Energiemanagement in den Geräten. NPU-Mikrocontroller, RISC-V-Coprozessoren und Model Compression schaffen die technische Basis um den Anforderungen gerecht zu werden.

Warum KI-Inferenzen von der Cloud an das Edge wandern

Edge AI verschiebt KI-Inferenzen aus der Cloud direkt in Geräte vor Ort, zum Beispiel Sensoren, Mikrocontroller Units (MCUs) oder Maschinen – als „On-Device Intelligence“ bezeichnet. Edge AI verringert die Latenzen der Datenübertragung, weil die Daten keine langen Wege in verteilte Cloud-Infrastrukturen zurücklegen müssen. Gleichzeitig müssen insgesamt weniger Rohdaten übertragen werden, da das Gerät die Daten bereits vor Ort vorfiltert und nicht erst in die Cloud schickt.

Außerdem sind Entscheidungen auch bei instabiler Konnektivität möglich. Beispielsweise kann eine Anomalie direkt im Gerät erkannt und die entsprechende Aktion ausgelöst werden. Außerdem lassen sich sensible Daten lokal verarbeiten, was Datenschutzanforderungen erleichtert und die Angriffsfläche beim Übertragen von Daten reduziert.

Wie spezielle NPU-MCUs die Leistungsdichte erhöhen

Ein wichtiger Treiber von Edge AI Hardware sind NPU-MCUs: Microcontroller Units, die klassische Steuerfunktionen mit dedizierten Neural Processing Units (NPUs) kombinieren und damit die Leistungsdichte erhöhen. So positioniert beispielsweise Arm die Ethos-U55 NPU explizit für Machine Learning (ML)-Inferenz in flächen- und energiebegrenzten Embedded- und IoT-Geräten, um kosten- und leistungseffiziente KI-Applikationen umzusetzen. In Kombination mit Cortex-M55-Kernen nennt Arm eine bis zu 480-fache ML-Leistungssteigerung gegenüber bisherigen Cortex-M-Systemen.

Renesas zeigt mit der RA8P1-Familie, wie man die Arm-Architekturen in konkrete MCU-Produkte übersetzt. Ein Cortex-M85-Kern mit 250 MHz, eine Ethos-U55 NPU mit 256 Giga Operations per Second (GOPS) bei 500 MHz, mehrere MB Flash/SRAM-Speicher sowie Kamera-, Audio- und Video-Schnittstellen adressieren Vision- und Voice-AI-Applikationen direkt auf Mikrocontroller-Ebene.

Der Vorteil einer NPU-MCU liegt nicht nur darin, mehr Rechenoperationen pro Sekunde auszuführen. Ebenso wichtig ist, wie effizient Daten verarbeitet werden. Denn in kleinen Embedded-Systemen kostet es oft mehr Energie, Daten zwischen Speicher, Prozessor und Beschleuniger zu verschieben, als die eigentliche KI-Berechnung auszuführen. Aus diesem Grund müssen Modell, Speicher und NPU möglichst eng zusammenspielen. Entscheidend sind hierbei unter anderem:

Kurze Datenwege zwischen Speicher und Beschleuniger
Direkter Speicherzugriff, um Daten effizient zu übertragen
Tiling, d.h. Verarbeiten in kleinen Datenblöcken
Kompakte Zahlenformate wie INT8
Lokales Zwischenspeichern häufig benötigter Modellgewichte, für eine geringe Latenz und Leistungsaufnahme

Was sind RISC-V-Coprozessoren und welchen Vorteil haben sie?

Parallel zu NPU-MCUs gewinnen RISC-V-Coprozessoren an Bedeutung, da sie eine hohe architektonische Freiheit in Embedded-KI-Designs bringen. Während Standard-MCUs feste Befehlssätze und Peripherieblöcke vorgeben, erlaubt RISC-V die Kombination aus einem Basiskern, Vektor-Erweiterungen und domänenspezifischen KI-Beschleunigern.

Für KI-Workloads zählt jedoch nicht nur die Matrixmultiplikation. Auch Aktivierungen, Normalisierungen, Reduktionen, Datenumordnung und Fallback-Operatoren beeinflussen den Durchsatz. Ein aktuelles Paper zu Embedded-RISC-V-SoCs mit Vektorunterstützung hebt deshalb hervor, dass RISC-V Vector Extension und geeignete Auto-Vektorisierungstools wesentlich für die Integration in Deep Learning (DL)-Deployments sind.

Die offene Architektur ist jedoch kein Selbstläufer. Für Entwickler und Systemarchitekten verschiebt sich die Komplexität schlicht hin zu Toolchain, Compiler, Runtime und Verifikation. Ein RISC-V-Coprozessor kann anwendungsnaher sein als ein generischer KI-Beschleuniger, ist allerdings sauber in Speicherzugriffe, Interrupt-Modelle, Power-Domänen und Software-Abstraktion einzubinden. Entwickler sollten sich deshalb nicht nur auf Tera Operations per Second (TOPS)- oder GOPS-Werte verlassen, sondern ebenfalls Benchmarks für Latenz, Energiebedarf und Genauigkeit im Auge behalten.

Wie Model Compression TinyML ermöglicht

Damit kommt die Technik der „Model Compression“ ins Spiel. Sie ist eine entscheidende Technik für TinyML, um große DL-Modelle auf ressourcenbeschränkten MCUs und Edge-Geräten lauffähig zu machen. Hierbei komprimiert man Modelle so, dass sie mit begrenztem Speicher- und Energiebudget einsetzbar sind.

Mithilfe von Quantisierung reduziert man dabei die numerische Präzision von Modellparametern, typischerweise von 32-Bit-Fließkomma auf kleinere Integer-Formate, was die Modellgröße und den Rechenaufwand senkt. So adressiert beispielsweise das TensorFlow Model Optimization Toolkit genau diesen Deployment-Pfad und nutzt Quantisierung sowie Pruning für Sparse Weights als unterstützte Techniken.

Wie Sleep Modes die Energieeffizienz verbessern

Ein weiterer Hebel liegt im Power Management. Ultra-Low-Power-Edge-Geräte arbeiten nicht permanent, sondern ereignisgetrieben: Sensor-Frontend oder Always-on-Domänen bleiben aktiv, während CPU-Hauptkern und NPU im Sleep Mode bleiben. Erst wenn ein Sensor ein relevantes Ereignis erkennt – etwa Bewegung, Schall, Vibration oder einen Schwellenwert – werden Prozessor, NPU oder andere Recheneinheiten aktiviert. Hierfür braucht die Hardware:

Kurze Aufwachzeiten
Speicherbereiche mit Datenerhalt im Sleep Mode
Die Möglichkeit, ungenutzte Schaltungsteile abzuschalten
Always-on-Domänen für eine einfache Sensorüberwachung

Espressif beschreibt zum Beispiel für ESP32-Systeme, dass im Light-Sleep-Modus CPUs, RAM und digitale Peripherie in ihrem Takt beziehungsweise ihrer Leistungsaufnahme reduziert werden und nach dem Aufwachen ihren Zustand behalten. Im Deep-Sleep-Modus werden CPUs, große Teile des RAM und digitale Peripherie abgeschaltet, lediglich ausgewählte Low-Power-Blöcke bleiben aktiv.

Welche Entscheidungen sind jetzt nötig, damit Edge AI nicht am Energiebudget scheitert?

Edge AI bringt KI-Funktionen direkt auf Sensoren, Mikrocontroller und Embedded-Systeme. Entscheidend ist dabei nicht nur, dass die Modelle funktionieren. Sie müssen auch mit wenig Speicher, wenig Rechenleistung und sehr wenig Energie auskommen. Hiermit wird Energieeffizienz zur zentralen Voraussetzung für erfolgreiche On-Device Intelligence.

Wer Edge AI früh mit dem passenden Hardwaredesign, komprimierten Modellen und intelligenten Sleep Modes plant, kann Batterielaufzeiten verlängern und den Wartungsaufwand senken. Entwickler, die diese Fragen erst spät klären, riskieren eine kürzere Produktlebensdauer, höhere Kosten und aufwendige Re-Designs.

Edge AI auf der electronica live erleben

Wie Edge AI und Ultra-Low-Power-Architekturen in der Praxis umzusetzen sind und welche Hardware-, Software- und Systemlösungen dafür bereits verfügbar sind, zeigen führende Unternehmen der Branche auf der electronica 2026. Von NPU-Mikrocontrollern über RISC-V-Coprozessoren bis hin zu energieeffizienten Sensor- und Embedded-Plattformen können Besucher auf der Messe erleben, welche Ansätze sich für Real-World-Applikationen eignen und welche Entscheidungen Entwickler jetzt treffen müssen.

>> Alle Aussteller der electronica 2026

Wer tiefer in Themen wie RISC-V, NPU-MCUs oder TinyML einsteigen möchte, kann sich auf der electronica bei Fachvorträgen, Panel-Diskussionen und Experten-Foren – etwa dem Embedded Developer Forum oder dem IIoT Forum – umfassend informieren und sich mit den führenden Experten der Branche austauschen.

>> Zu den Foren

Auf der Sonderfläche edge lab LIVE können Besucher mit Ausstellern und Experten der Embedded-Branche unter anderem diskutieren, welche Architekturentscheidungen für Edge AI, lokale Datenverarbeitung, Energiemanagement und Lifecycle-Extension in konkreten Applikationen relevant sind.

>> Zur Sonderfläche edge lab LIVE

Quellen

https://www.arm.com/products/silicon-ip-cpu/ethos/ethos-u55

https://www.renesas.com/en/products/ra8p1

https://arxiv.org/html/2507.17771v1

https://github.com/tensorflow/model-optimization

https://docs.espressif.com/projects/esp-idf/en/stable/esp32/api-reference/system/sleep_modes.html