Federated learning: AI trainen zonder data te centraliseren

Expert • Les 24

Federated learning: AI trainen zonder data te centraliseren

In klassieke machine learning verzamel je alle trainingsdata op een centrale server. Federated learning draait dit om: het model gaat naar de data, niet andersom. Dit maakt training mogelijk op gevoelige gegevens die om juridische of privacyredenen nooit gecentraliseerd mogen worden — denk aan medische dossiers, bankgegevens of berichten op smartphones.

Hoe het werkt: lokaal trainen, globaal aggregeren

Een centrale server verstuurt een globaal model naar deelnemende clients (apparaten of organisaties). Elke client traint het model lokaal op zijn eigen data en stuurt alleen de gewichtsupdates (gradiënten of gewichtsdeltas) terug. De server aggregeert deze updates — typisch via FedAvg (Federated Averaging) — tot een verbeterd globaal model. Dit proces herhaalt zich over meerdere rondes totdat het model convergeert.

Privacy-uitdagingen en oplossingen

Het sturen van gewichtsupdates is veiliger dan het sturen van ruwe data, maar niet risicovrij. Via gradient inversion attacks kan een kwaadwillende server soms de originele trainingsdata reconstrueren uit de updates. Oplossingen zijn: differential privacy (ruis toevoegen aan updates), secure aggregation (cryptografische protocollen zodat de server individuele updates niet kan lezen), en homomorphic encryption (optellen in versleutelde ruimte). Elke maatregel heeft een trade-off met modelkwaliteit en rekentijd.

Heterogeniteit: de praktische uitdaging

In de praktijk zijn clients niet gelijk: ze hebben verschillende hoeveelheden data (statistical heterogeneity), verschillende hardwarecapaciteiten (system heterogeneity), en zijn niet altijd beschikbaar. Dit leidt tot problemen zoals client drift — waarbij lokale updates in uiteenlopende richtingen trekken. Varianten als FedProx en SCAFFOLD voegen regularisatietermen toe om drift te beperken.

Toepassingen in productie

Google gebruikt federated learning voor de Gboard-toetsenbord-autocorrectie op Android. Ziekenhuisnetwerken trainen gezamenlijk diagnostische modellen zonder patientdata te delen. Financiële instellingen detecteren fraude op basis van gedistribueerde transactiepatronen. Naarmate privacywetgeving strenger wordt, wint federated learning aan belang als architecturale keuze.

Terug