Een machine learning forecast is een (aantoonbare) voorspelling op basis van data en kunstmatige intelligentie. Dit is veel toegankelijker dan het klinkt. Je hebt géén additionele software nodig, die gebruiken wij al voor je. Je hebt alleen iemand nodig die met je meedenkt, begrijpt wat je wil en weet hoe de slimste machine learning modellen toepast. De data hiervoor die heb je al en vaak is die heel eenvoudig op tafel te krijgen. In die data zit bruikbare informatie, het is zonde om het er niet uit te halen. 

Voor Dataright begint forecasting vanuit passie. Hoe gaaf is het om van data waar je nauwelijks iets aan kunt zien om te kunnen zetten naar waardevolle informatie? Aantoonbaar waardevolle informatie.

Of het nou gaat om een voorspelling van te produceren stuks, aantal bezoekers, in te plannen uren, aantal te bestellen producten, aanvragen, claims, kosten of omzet. Welke aantallen wil jij voorspellen per uur/ per dag/ per week of per maand? Leg het aan ons voor en we denken graag mee. Een kosteloze quickscan behoort tot de mogelijkheden.

We kunnen twee manieren van forecasten onderscheiden. Een kwalitatieve forecast, dat is een voorspelling maken op basis van kennis en ervaring van mensen, en een kwantitatieve forecast. Dat is forecasten op basis van data en daar houdt Dataright zich graag mee bezig. Je zet daarbij data voor je aan het werk. Er zit namelijk hele bruikbare informatie in jouw data. Historische data gebruiken om een 'model te trainen' en dit getrainde (voorspel)model vervolgens te gebruiken om een toekomstige voorspelling te doen. Dit heet supervised machine learning.

Data kan seizoensinvloeden, trends, cyclussen, uitschieters, een verschuivend gemiddelde en nog meer karakteristieken en patronen bevatten. Denk aan een lijngrafiek die er op veel verschillende manieren uit zien. Met de juiste kennis weten intelligente voorspelmodellen deze te ontleden en hier een voorspelling op te baseren.  

Data omzetten naar informatie. Uit welke bron de data ook moet komen en wat het onderwerp ook is. Maar hoe doe je dat zonder enige kennis van het proces? Samen kunnen we dit. Vaak is de data die we als input nodig hebben eenvoudig en zonder veel moeite voorhanden. 

Voordat we je vertellen hoe we te werk gaan laten we eerst wat moeilijke termen wegstrepen. Data science is een vakgebied, machine learning is een toepassing daarvan, predictive analytics is een vorm van analyse die éérst achteruit kijkt en vervolgens vooruit (bijvoorbeeld forecasting) en daarvoor gebruikt Dataright data én een programmeertaal. R om precies te zijn.

rstudio-logo-flat_1.png

R is een softwarepakket én programmeertaal ontwikkeld voor statistiek en data-analyse, sinds 1997. Je kunt R zien als een digitale bibliotheek vol statistiekboeken met formules die je gewoon mag gebruiken. Geweldig toch? 

Als we uw eenmaal jouw proces begrijpen, inventariseren we wat je graag wil voorspellen. Wat wil je precies inzichtelijk maken en hoe zou je dat willen zien? Vaak kun je wel aangeven wat je wil, maar we moeten samen achterhalen wat je bedoelt. Pas dan weten we welke data we moeten hebben. Die input-data is heel belangrijk, want garbage in = garbage out. Input-data klinkt misschien als moeilijk en lastig, maar voor forecasting is de benodigde data gelukkig vaak beknopt en binnen handbereik. We leggen dit graag uit.

Een voorspelmodel trainen en testen, hoe werkt dat?

Een voorbeeld: De inputdataset bevat gegevens van 2016 tot en met 2022 (84 maanden). 2016 tot en met 2021 (72 maanden) gebruiken we als training dataset, dus om 'modellen te trainen'. 2022 (12 maanden) gebruiken we om getrainde modellen te testen.

Er zijn een aantal manieren van nauwkeurigheid meten:

MAE: Mean Absolute Error = het gemiddelde van alle absolute fouten (verschillen tussen voorspeld en werkelijk). 

MAPE: Mean Average Percentage Error = het gemiddelde van alle absolute procentuele fouten. Deze
meetwaarden zegt niets bij hele lage aantallen (tientallen): de procentuele fout is daarbij heel groot, terwijl de absolute fout mogelijk maar 1 is, wat heel goed is. 

RMSE: Root Mean Squared Error = De wortel van (de som van de kwadraten van alle absolute verschillen/ delen door het aantal waarnemingen)

Voor forecasting werken wij lokaal op ons systeem met de tool R Studio. Daar hebben we geen toegang voor nodig tot uw systemen en databronnen. Wij werken uitsluitend met de data die u ons aanlevert, bijvoorbeeld in een csv- of excel-bestand.

Voor Forecasting gebruiken wij uitsluitend de meest gerenommeerde voorspelmodellen. Dat doen we omdat we zeker weten dat we het herhaaldelijk kunnen gebruiken binnen Power BI. Bijvoorbeeld als je elke maand uw forecast opnieuw ververst wil hebben door ons. Wij gebruiken onder andere alle Exponential Smoothing modellen, alle ARiMA modellen, een Neural Net model, maar ook het Prophet model ontwikkeld en vrijgegeven door Meta in februari 2017 die erg sterk is.

Per gewenste forecast die je wenst, trainen en testen wij de modellen en gaan we op zoek naar de hoogste accuracy. Waarom? Omdat inputdata voor een forecast altijd zijn eigen karakteristieken heeft. Helaas, niet one size fits all.

Nauwkeurigheid 
De nauweurigheid van een Forecasting model is natuurlijk heel belangrijk, want dat vertelt hoe goed je getrainde machine learning model is en wat je voorspelling waard is. Maar waar meet je dit en met welke maat meet je? 

Het mooiste van data is, dat je voor kan doen alsof je terug gaat in de tijd en vervolgens weer vooruit.

Als ik een dataset heb met geproduceerde stuks per week vanaf januari 2016 t/m december 2022 heb ik van 7 jaar data die ik kan gebruiken om een model te trainen om productieaantallen voor 2023 per week te voorspellen. Maar je wil weten wat die voorspelling waard is.

Daarom trainen we in dit voorbeeld een Machine Learning voorspelmodel op basis van de data van 2016 t/m 2021 (6 jaar) en testen we data op 2022 (1 jaar). Met andere woorden: we vergelijken de voorspelde waarden van 2022 met de werkelijke waarden van 2022. Door deze te vergelijken weten we hoe goed ons model scoort en kiezen we de beste. Daar gaan we mee aan de slag.

Sommige andere forecasting accuracy measures die rekenen niet met absolute waarden maar strepen positieve én negatieve fouten tegen elkaar weg, de fout wordt hierdoor onterecht kleiner dan de werkelijkheid. Deze laten wij buiten beschouwing.

Tenslotte gebruiken we het best geteste voorspelmodel om de werkelijke voorspelling van toekomstige waarden te doen. Dus 2016-2022 data gebruiken en het model toepassen op (de toekomst).

Ook vooruitkijken op basis van data en AI? Hoe wil je jouw forecast(s) weergegeven zien? In een Power BI dashboard?
Bekijk hier een klantcase.

Wij werken op basis van de cylcus CRISP-DM (Cross Industry Standardized Process for Data Mining)