AI begon groot – net als het mainframe.
English version: scroll down
Dat is eigenlijk geen verrassing. Veel baanbrekende technologieën starten met massiviteit en complexiteit. De eerste stoommachines vulden hele fabrieken, de eerste elektriciteitscentrales waren kathedralen van staal en koper en de eerste computers vulden complete kantoren. Radio’s, televisies en mobiele telefoons begonnen als logge monumenten van techniek, totdat miniaturisering de sprong naar massaal gebruik mogelijk maakte.
Bij AI zien we dezelfde cyclus. De eerste taalmodellen moesten gigantisch zijn: enorme datacenters, miljarden parameters, astronomische kosten. Maar nu die eerste brute sprong is gemaakt, dringt de echte vraag zich op: moet een taalmodel eigenlijk wel álles weten? Of worden juist kleinere, gespecialiseerde modellen de nieuwe norm? Die verschuiving is al volop gaande – en het voelt als een oude les die terugkomt.
De terugkeer van specialisatie
In de jaren negentig waren kennissystemen hip. Strak afgebakend, rule-based en domeinspecifiek. Niet uit schoonheidsoverwegingen, maar uit pure noodzaak: hardware was schaars, rekenkracht duur, een alleskunner was (nog) ondenkbaar. Achteraf bleek die beperking een zegen: specialisatie maakte systemen overzichtelijk, uitlegbaar en betaalbaar.
Vandaag gebeurt hetzelfde, maar nu met neurale netwerken in plaats van regels. Wat vroeger een gespecialiseerd kennissysteem was, is nu een compact AI-model van een paar honderd megabyte dat verrassend veel kan, een alleskunner. Omdat de rekenkracht er eindelijk wél is.
De ontwikkeling lijkt op de luchtvaart toen de gebroeders Wright een lichtgewicht 10 pk-motor in hun Flyer schroefden. Het liftprincipe van vleugels was door van Bernoulli decennia eerder beschreven. Maar pas toen er voldoende compacte power beschikbaar kwam, kon het echt vliegen.
De massieve AI en taal modellen van 2023–2025 waren onze Wright Flyer: het bewijs dat het kán. Omdat we de compacte energie eindelijk in onze datacenters hadden. Die fase ligt intussen achter ons en nu pas begint de echte evolutie: miniaturisering, specialisatie en decentralisatie.
De opmars van het kleine
Kleine modellen worden krachtig genoeg om op een smartphone of zelfs een IoT-sensor te draaien en leveren voor de meeste praktische taken resultaten die nauwelijks onderdoen voor de allergrootste reuzen. Het datacenter verdwijnt niet, maar het is niet langer het centrum van de intelligentie. Kunstmatige intelligentie is zich decentraal aan het ontwikkelen en verspreiden.
Net zoals wifi ooit een luxe-extra was – alleen in de lobby van het hotel – wordt het nu simpelweg overal verwacht. Op dezelfde wijze nestelt AI zich nu daar waar de data ontstaat: in auto’s voor predictive safety en in drones voor navigatie. Of in beveiligingscamera’s voor intrusion detection, in fabrieksmachines voor predictive maintenance en in routers voor anomaly detection.
Het wordt embedded intelligence – net zo onzichtbaar en vanzelfsprekend als de tientallen algoritmes die vandaag al je auto stabiliseren. Neem branddetectie in moderne gebouwen: een piepklein model analyseert rook, hitte en geluid lokaal, reageert binnen milliseconden en verbruikt amper energie. Geen cloud-latency, geen datarisico. Maar ook geen mee-kijkers en data-dieven.
De opkomst van modulaire AI
Tegelijkertijd ontstaat er een modulaire AI-architectuur. In plaats van één generalistische alleskunner komt er een ecosysteem van specialistische modellen, bijvoorbeeld voor juridische naleving of medische triage. Of voor industriële procescontrole, specifieke cybersecurity of voor energie-optimalisatie. Ze doen per model minder, maar wat ze doen, doen ze véél beter.
Rond 2030 zit een Neural Processing Unit (NPU) standaard in elk apparaat. Richting 2040 heeft vrijwel elk stuk hardware zijn eigen micro-AI van enkele miljoenen parameters: specifiek getraind op één taak, zuinig met energie en volledig autonoom. Net zoals GPU’s ooit niche waren en nu overal in zitten, wordt embedded AI de nieuwe normaal. Stel je een netwerk voor waarin autonome mini-AI’s op switch-niveau verdacht verkeer herkennen zonder dat er ook maar één pakketje de cloud raakt. Sneller, veiliger, goedkoper.
Apple’s Apple Intelligence in de iPhone 16-serie (2024–2025) en de nieuwe MacBooks met M4 draaien vrijwel alle on-device features – van schrijven en beeldbewerking tot Siri-begrip – met modellen van 3 tot 30 miljard parameters lokaal, waarbij alleen de allermoeilijkste taken nog naar Private Cloud Compute gaan.
In 2040 zal AI onder de motorkap wonen
In 2040 praat niemand meer over “een AI-applicatie”, net zomin als we nu zeggen: “dit apparaat heeft internet”. AI zit er gewoon in – altijd aan, vrijwel altijd onzichtbaar. Miljoenen kleine, autonome modellen werken lokaal, wisselen alleen noodzakelijke informatie uit en verbeteren zichzelf binnen hun eigen domein. Iedereen heeft tegen die tijd een device-gebaseerde persoonlijke assistent die heel vertrouwelijk slechts jouw data gebruikt en aanvult. Jouw denkproces en workflow door en door kent. Jou volledige privacy garandeert en alleen bij uitzondering een extern model raadpleegt.
Het is de digitale evolutie van de persoonlijke router: klein, lokaal, volledig in eigen beheer. De grote modellen blijven als clouds en datalakes bestaan, maar ze worden infrastructuur – net als elektriciteitscentrales. De echte innovatie gebeurt van onder de motorkap: van de miljoenen kleine AI’s die op miljarden devices overal draaien. Intelligentie verspreidt zich, wordt kleinschaliger en versterkt daardoor het geheel. Decentralisatie wordt de nieuwe macht.
In slimme thermostaten en beveiligingscamera’s van fabrikanten als Nest en Arlo, die sinds begin 2025 een compact 200 MB-model aan boord hebben, wordt gezichtsherkenning en abnormaal gedrag lokaal verwerkt om bijvoorbeeld valpartijen bij ouderen te detecteren of ongeautoriseerde toegang te blokkeren, allemaal zonder directe internetverbinding en met minimale batterijbelasting.
Slot
AI begon zijn zegetocht groots en gigantisch omdat die eerste technische sprong brute kracht vereiste. Maar nu die stap gezet is, volgt de natuurlijke evolutie: miniaturisering, specialisatie en decentralisatie. Wat ooit alleen in kathedraalachtige datacenters paste, past straks op een chip kleiner dan een postzegel. En zoals bij elke grote technologische transformatie geldt: de echte massa-adoptie begint pas wanneer het grootse uiteenvalt in het kleine.
Niet in de cloud, maar onder de motorkap – daar woont de toekomst van AI.
Photo by Markus Winkler
AI started big — just like the mainframe.
That shouldn’t surprise anyone. Many breakthrough technologies begin as massive, unwieldy systems. The first steam engines filled entire factories, the first power stations were cathedrals of steel and copper, and the earliest computers devoured whole rooms. Radios, televisions, and mobile phones all started out as bulky monuments of engineering, until miniaturization opened the door to widespread adoption.
We’re seeing the same cycle with AI. The first language models had to be gigantic: huge data centers, billions of parameters, astronomical costs. But now that the initial brute-force leap has been made, the real question emerges: does a language model actually need to know everything? Or will smaller, specialized models become the new standard? That shift is already well underway — and it feels like an old lesson returning.
The return of specializationIn the 1990s, knowledge systems were all the rage. Strictly scoped, rule-based, domain-specific. Not out of elegance, but out of necessity: hardware was scarce, compute was expensive, and a general-purpose system was still unthinkable. In hindsight, that limitation turned out to be a blessing: specialization made systems understandable, explainable, and affordable.
Today the same thing is happening, but now with neural networks instead of rules. What used to be a specialized knowledge system is now a compact AI model of only a few hundred megabytes that can do surprisingly much — almost a generalist. Because now the compute is available.
The development mirrors aviation when the Wright brothers bolted a lightweight 10 hp engine onto their Flyer. Bernoulli had described the lift principle decades earlier, but real flight only became possible once enough compact power existed.The massive AI and language models of 2023–2025 were our Wright Flyer: proof that it can be done — because we finally had compact energy in our data centers. That phase is now behind us, and the real evolution is beginning: miniaturization, specialization, and decentralization.
The rise of the small
Small models are becoming powerful enough to run on a smartphone or even an IoT sensor, delivering results for most practical tasks that barely lag behind the giant models. The data center won’t disappear, but it’s no longer the center of intelligence.Just as Wi-Fi shifted from luxury feature to basic expectation, AI is embedding itself right where data is born: in cars for predictive safety, in drones for navigation. Or in security cameras for intrusion detection, factory machines for predictive maintenance, and routers for anomaly detection.
This becomes embedded intelligence — as invisible and self-evident as the dozens of algorithms that already keep your car stable today. Consider fire detection in modern buildings: a tiny model analyzes smoke, heat, and sound locally, responds within milliseconds, and consumes almost no power. No cloud latency, no data risk. And no eavesdroppers or data thieves.
The rise of modular AI
At the same time, a modular AI architecture is emerging. Instead of one generalist system, we’ll have an ecosystem of specialist models — for legal compliance, medical triage, industrial process control, targeted cybersecurity, or energy optimization. Each model does less, but what it does, it does far better.By around 2030, a Neural Processing Unit (NPU) will be standard in every device.
By 2040, virtually every piece of hardware will host its own micro-AI with a few million parameters: trained for a single task, extremely energy-efficient, and fully autonomous. Just as GPUs went from niche to ubiquitous, embedded AI will become the new normal.Imagine a network where autonomous mini-AIs detect suspicious traffic directly at the switch level, without a single packet ever touching the cloud. Faster, safer, cheaper.
Apple’s Apple Intelligence on the iPhone 16 series (2024–2025) and the new M4-based MacBooks already run nearly all on-device features — from writing assistance and image editing to Siri understanding — using local models ranging from 3 to 30 billion parameters, with only the most complex tasks sent to Private Cloud Compute.
By 2040, AI will live under the hood
By 2040, no one will talk about “an AI application,” just as no one today says, “this device has internet.” AI will simply be there — always on, almost always invisible. Millions of small, autonomous models will work locally, sharing only essential information, improving themselves within their own domain.Everyone will have a device-based personal assistant that uses only your data, knows your thinking and workflow in detail, guards your privacy completely, and consults an external model only when absolutely necessary.It will be the digital evolution of the personal router: small, local, fully under your control.
The big models will remain as clouds and data lakes, but they will become infrastructure — like power plants. The real innovation will happen under the hood, in the millions of tiny AIs running on billions of devices. Intelligence will disperse, become smaller, and strengthen the whole system. Decentralization will become the new power structure.
In smart thermostats and security cameras from manufacturers like Nest and Arlo — which since early 2025 have included a compact 200 MB model — facial recognition and abnormal-behavior detection run entirely on-device, enabling fall detection for elderly users or blocking unauthorized access without any internet connection and with minimal battery use.
Conclusion
AI began its triumph with grand, gigantic systems because that initial technological leap demanded raw power. But now that the leap is behind us, the natural evolution follows: miniaturization, specialization, and decentralization.What once required cathedral-sized data centers will soon fit on a chip smaller than a postage stamp. And as with every major technological shift, mass adoption begins only when the monumental breaks down into the miniature. Not in the cloud, but under the hood — that’s where the future of AI will live.