Innovatie in AI: Efficiëntere Modellen Zonder Matrixvermenigvuldiging

Een team van onderzoekers heeft een baanbrekende methode ontwikkeld om de efficiëntie van AI-taalmodellen te verbeteren door matrixvermenigvuldiging te elimineren. Deze innovatie markeert een belangrijke verschuiving in de manier waarop neurale netwerken opereren, wat aanzienlijke gevolgen kan hebben voor zowel de milieu-impact als de operationele kosten van AI-systemen.

Matrixvermenigvuldiging is een cruciaal onderdeel van de meeste neurale netwerkberekeningen en wordt doorgaans versneld door GPU-chips. Deze chips zijn in staat om een groot aantal vermenigvuldigingsoperaties parallel uit te voeren, wat Nvidia tijdelijk de meest waardevolle onderneming ter wereld maakte. Nvidia heeft momenteel een geschat marktaandeel van 98 procent in datacenter-GPU’s, die vaak worden gebruikt om AI-systemen zoals ChatGPT en Google Gemini aan te drijven.

In hun recente paper, “Scalable MatMul-free Language Modeling,” beschrijven de onderzoekers de ontwikkeling van een op maat gemaakt model met 2,7 miljard parameters dat zonder MatMul werkt en prestaties levert die vergelijkbaar zijn met traditionele grote taalmodellen (LLM’s). Ze demonstreerden ook de werking van een model met 1,3 miljard parameters dat 23,8 tokens per seconde verwerkt op een GPU, ondersteund door een speciaal geprogrammeerde FPGA-chip die ongeveer 13 watt verbruikt.

Deze vooruitgang suggereert dat een efficiëntere FPGA de weg kan vrijmaken voor de ontwikkeling van hardwarevriendelijke en effectievere architecturen. Hoewel de techniek nog niet door vakgenoten is beoordeeld, stellen de onderzoekers dat hun werk de heersende opvatting uitdaagt dat matrixvermenigvuldiging onmisbaar is voor het bouwen van hoogpresterende taalmodellen. Ze beweren dat hun benadering de toegankelijkheid, efficiëntie en duurzaamheid van grote taalmodellen kan verbeteren, vooral voor gebruik op hardware met beperkte middelen zoals smartphones.

De onderzoekers erkennen BitNet, een transformertechniek die bekend staat als “1-bit,” als een belangrijke voorloper van hun werk. BitNet toonde met succes het gebruik van binaire en ternary gewichten in taalmodellen aan, maar bleef afhankelijk van matrixvermenigvuldiging in zijn zelfaandachtsmechanisme. De beperkingen van BitNet inspireerden de huidige studie, wat leidde tot de ontwikkeling van een volledig “MatMul-vrije” architectuur die prestaties behoudt zonder matrixvermenigvuldiging, zelfs in het aandachtsmechanisme.

Deze doorbraak kan de toekomst van AI-modellen drastisch veranderen, met een focus op energie-efficiëntie en bredere toepasbaarheid op verschillende hardwareplatforms.