Door Jeroen Horters
Een half jaar van tevoren al weten dat een lid zijn of haar abonnement wilt gaan opzeggen. In sommige gevallen, zoals bijvoorbeeld zeventienjarigen, lijkt het triviaal. Maar ook buiten deze groep is voorspelling van opzegging echt mogelijk. Zo geven de eerste resultaten van mijn afstudeeronderzoek over machine learning op bibliotheekdata aan.

Bij machine learning geef je een computermodel zo veel mogelijk eigenschappen over de invoer, in ons geval leden. Denk hierbij aan gegevens als leeftijd, inschrijfdatum, aantal geleende boeken, uitschrijfdatum, enzovoorts. Vervolgens probeert het model van deze data te “leren” om vervolgens voor nieuwe leden een zo goed mogelijke voorspelling te doen.

Modellen
Er zijn veel verschillende soorten modellen en elk model heeft een hoeveelheid opties die ingesteld moet worden. Ook dienen de beschikbare data op een slimme manier te worden ingericht, bewerkt, gecontroleerd en opgeschoond. Het maken van een goed machine learning model is veel werk. Ik ben nu ongeveer op de helft van mijn afstudeeronderzoek en heb net de eerste modellen getest op een klein deel van de data. De resultaten zijn veelbelovend, te zien in dit voorbeeld:

klik op afbeelding om te vergroten

 

 

 

In dit voorbeeld van een model dat tot stand kwam door het Extreme Gradient Boosting algoritme zien we dat van de 1254 leden die af gingen haken in het volgende half jaar, we er 972 konden voorspellen. Dit geeft een zogenaamde “recall” van 77.5%. Aan de andere kant, van de 2222 keer dat er een JA voorspeld werd, was dat 1250 keer incorrect. Deze ratio van 43.8% wordt ook wel de “precision” van het model genoemd.
Deze maatstaven zijn natuurlijk leuk op zichzelf, maar bij welke waarden is een model echt goed? In het perfecte geval zijn beiden natuurlijk 100%, maar dat is een vrijwel onmogelijk streven. Eén manier om te zien hoe goed een model is, is door de prestaties te vergelijken met zogenaamde “benchmarks”. Dit zijn andere, simpelere voorspelstrategieën waarmee het model vergeleken kan worden. Denk bij benchmarks bijvoorbeeld aan strategieën als “Voorspel altijd JA”, of “Werp een munt, voorspel JA bij kop en NEE bij munt”. Kijken we met dezelfde data naar deze tweede strategie, dan zien we een recall van 75% en een precision van 25%; ons model is dus duidelijk beter.

Zoals hierboven beschreven wil ik aan de hand van data voorspellen of huidige leden op het punt staan om het lidmaatschap op te zeggen. Als we deze mensen identificeren voordat ze de bibliotheek de rug toekeren, kunnen we door allerlei vormen van promotie proberen om ze vast te houden. Als we daarmee de krimp kunnen tegenhouden is dat al de eerste stap op weg naar groei! Dit is uiteraard niet een werk dat met de hand gedaan kan worden. Niet alleen is de hoeveelheid data veel te groot. Er is ook nog een grote kans dat er verbanden in de data besloten liggen die met menselijke intuïtie alleen nooit gevonden zullen worden. Om deze voorspellingsmodellen te maken wordt dus machine learning gebruikt.
Zoals we zien zijn er absoluut nuttige toepassingen te bedenken voor de beschikbare data. Ik ga de komende tijd verschillende modellen op de volledige data testen en de uitkomsten analyseren, Vervolgens wordt in samenwerking met BiSC bedacht wat het beste plan van aanpak is voor leden met een hoog opzeggingsrisico. Hopelijk kan het uiteindelijke model ook daadwerkelijk helpen om de krimp van leden om te zetten naar groei.

Terug naar de nieuwsbrief