De belangrijkste begrippen uit de kunstmatige intelligentie (AI) op een rijtje. Veel begrippen hebben ook betekenis buiten de context van AI en machine learning. We hanteren hier de ML-gerelateerde definities van deze begrippen. Download hier de PDF
Accuracy
Een evaluatiemetriek voor classificatietaken, gedefinieerd als het aantal juiste voorspellingen gedeeld door het totaal aantal datapunten.
AI
Zie kunstmatige intelligentie.
Algoritme
Een stappenplan om een taak uit te voeren, vaak in de vorm van een reeks computerinstructies. In ML is een algoritme de procedure om te leren van voorbeelden.
Annoteren
Proces waarin mensen data voorzien van labels. De labels kunnen worden gebruikt om een ML-model mee te trainen.
Artificial intelligence
Zie kunstmatige intelligentie.
Beslisboom
ML-algoritme dat resulteert in een stroomdiagram waarin te zien is welke keuzes tot welke uitkomst leiden.
Bias
Vooringenomenheid of vooroordelen in data. Bias kan op verschillende manieren ontstaan en heeft vaak een negatieve impact op een ML-model.
Big data
Grote hoeveelheden data, zo groot dat verwerking ervan op standaardcomputers niet mogelijk is.
Binaire classificatie
Een classificatietaak met precies twee mogelijke uitkomsten, bijvoorbeeld voorspellen of mensen wel of niet gaan stemmen bij de volgende verkiezingen.
Bounding box
Een rechthoek dat aangeeft waar een object zich bevindt in een afbeelding of video. Bounding boxes worden gebruikt om objecten in beeld te annoteren, maar ook weergegeven door een CV-model zelf.
Class imbalance
Een fenomeen waarbij de klassen in een dataset in zeer ongelijke mate voorkomen. Vrijwel alle voorbeelden behoren tot één klasse, en maar weinig tot de andere klasse. Class imbalance kan problemen opleveren bij het trainen van een ML-model.
Classificatie
ML-taak waarin een ML-model voorbeelden in categorieën of klassen onderverdeelt. Classificatie is een vorm van supervised learning en vereist gelabelde data.
Clustering
ML-taak waarin een ML-algoritme clusters vindt van voorbeelden die op elkaar lijken in ongelabelde data. Het resulterende ML-model kent nieuwe voorbeelden aan deze clusters toe. Clustering is een vorm van unsupervised learning.
Computer vision
Vakgebied dat zich bezighoudt met beeldtechnologie, met als ultieme doel om computers digitaal beeld te laten begrijpen. Computer vision speelt een grote rol in zelfrijdende auto’s en gezichtsherkenning.
Confusiematrix
Zie foutmatrix.
Correct-negatieven
De juist voorspelde voorbeelden van de positieve klasse in een binaire classificatietaak.
Correct-positieven
De juist voorspelde voorbeelden van de positieve klasse in een binaire classificatietaak.
CV
Zie computer vision.
Data(set)
Een verzameling gegevens. In ML worden data gebruikt om patronen of toekomstige voorspellingen van te leren.
Decoder
Het gedeelte van een neuraal netwerk dat verantwoordelijk is voor het genereren van output.
Deep learning
Onderdeel van ML waarin gebruik wordt gemaakt van (diepe) neurale netwerken.
Deepfake
Synthetische video’s gemaakt met behulp van GANs. Het woord ‘deepfake’ is een samentrekking van ‘deep learning’ en ‘fake’.
Design thinking
Double diamond
Een methode voor creatieve processen, weergegeven als twee ‘diamanten’ die beide bestaan uit een divergerende en een convergerende fase. De vier fases zijn discover, define, develop en deliver.
Encoder
Het gedeelte van een neuraal netwerk dat verantwoordelijk is voor het verwerken van input.
Entiteitherkenning
Een NLU-taak met als doel om automatisch te herkennen over welke entiteiten een tekst gaat. Entiteiten zijn ‘dingen die bestaan’, zoals personen, locaties en organisaties.
Evaluatie
Het bepalen van hoe goed een ML-model doet wat het moet doen. Evaluatie kan kwalitatief of kwantitatief zijn. In ML is kwantitatieve evaluatie het meest gangbaar.
Evaluatiedata
Gedeelte van een dataset dat wordt gebruikt om een ML-model te evalueren. Bevat vaak 10% tot 20% van de beschikbare data.
Feature (data)
Een kenmerk van data dat gebruikt wordt als input voor het trainen van een ML-model. Voor een goed (en eerlijk!) ML-model is het belangrijk om weloverwogen features te kiezen.
Feature (software)
Een karakteristiek van een app of tool, zoals een nieuwe functionaliteit.
Fout-negatieven
Voorbeelden die tot de positieve klasse behoren, maar zijn voorspeld als negatief in een binaire classificatietaak.
Fout-positieven
Voorbeelden die tot de negatieve klasse behoren, maar zijn voorspeld als positief in een binaire classificatietaak.
Foutmatrix
Een tabel die weergeeft welke fouten een classificatiemodel maakt. Elke klasse wordt met elke klasse vergeleken. Juiste voorspellingen staan op de diagonaal van linksboven naar rechtsonder.
GAN
Zie generative adversarial network.
Garbage in, garbage out
Het principe dat data van slechte kwaliteit leidt tot voorspellingen van slechte kwaliteit. Troep erin, troep eruit.
Gelabelde data
Data voorzien van labels, ofwel de uitkomsten die een ML-model moet leren voorspellen.
Generatie
ML-taak waarin een ML-model wordt gebruikt om nieuwe content (beeld, tekst) te creëren. Generatiemodellen zijn meestal het resultaat van unsupervised of self-supervised learning.
Generative adversarial network
ML-techniek die leert door twee neurale netwerken met elkaar te laten concurreren. Het generatornetwerk genereert voorbeelden die op de trainingsdata lijken en het discriminatornetwerk probeert deze te onderscheiden van echte voorbeelden. Erg populair voor beeldgeneratie.
Gezichtsherkenning
Een CV-taak met als doel om gezichten van verschillende personen te onderscheiden in afbeeldingen en video’s.
Hyperparameter
Een configuratie die van toepassing is op een ML-model, maar er geen onderdeel van is. Bijvoorbeeld het aantal verborgen lagen in een neuraal netwerk of de waarde van k in k-means clustering.
Inferentie
Het gebruik van een ML-model om voorspellingen te doen op nieuwe voorbeelden.
Inter-annotator agreement
Een metriek voor de mate waarin menselijke annotatoren dezelfde labels toewijzen aan dezelfde data tijdens een annotatieproces.
K-means clustering
Clusteringalgoritme dat op zoek gaat naar k groepen van trainingsdatapunten die op elkaar lijken. De waarde voor k moet van tevoren worden opgegeven.
Kunstmatige intelligentie
Vakgebied dat zich bezighoudt met het ontwikkelen van intelligentie in computers.
Label
Een vooraf bekende uitkomst van een voorbeeld in een dataset. Een label kan een categorie zijn (bijvoorbeeld ‘fiets’ of ‘auto’ voor een object in een afbeelding) of een waarde (bijvoorbeeld de verkoopprijs van een huis).
Lineaire regressie
ML-algoritme voor het voorspellen van een numerieke uitkomst. Lineaire regressie probeert een lijn te vinden die het beste overeenkomt met de trainingsdatapunten.
Logistische regressie
Classificatiealgoritme voor binaire classificatie, oftewel classificatie met twee klassen.
Machine learning
Proces waarbij computers leren aan de hand van voorbeelden zonder het programmeren van expliciete regels, en het vakgebied dat zich bezighoudt met de ontwikkeling van dit proces. Deelgebied van AI.
MAE
Een evaluatiemetriek voor regressietaken. Meet het gemiddelde (mean) van de absolute waarde (absolute) van elke fout (error) die een regressielijn maakt ten opzichte van de vooraf bekende uitkomsten.
Metadata
Gegevens over data. Bijvoorbeeld informatie over wanneer data is verzameld of de bestandsgrootte.
ML
Zie machine learning.
Model
Een schematische, vaak versimpelde weergave van de werkelijkheid. In ML is een model het resultaat van het leerproces van een ML-algoritme.
Multi-class classificatie
Een classificatietaak met meer dan twee mogelijke uitkomsten, bijvoorbeeld objectdetectie met de labels ‘fiets’, ‘auto’, ‘bus’, ’tram’.
Multi-label classificatie
Een multi-class classificatietaak waarbij een variabel aantal labels per datapunt worden voorspeld, bijvoorbeeld trefwoordclassificatie van films; een film kan zowel spannend als grappig zijn en dus meerdere labels krijgen.
Natural language generation
Subgebied van NLP dat zich bezighoudt met het produceren van taal. Voorbeelden van toepassingen zijn chatbots, vertaalmachines en tekstgeneratie.
Natural language processing
Vakgebied dat zich bezighoudt met taaltechnologie en daarbij taalwetenschap, informatica en AI combineert, met als ultieme doel om computers menselijke taal te laten begrijpen.
Natural language understanding
Subgebied van NLP dat zich bezighoudt met het verwerken van taal. Voorbeelden van toepassingen zijn sentimentanalyse en entiteitherkenning.
Neuraal netwerk
Een op het menselijk brein geïnspireerde ML-architectuur die in staat is om complexe patronen te leren. Een neuraal netwerk bevat één of meerdere verborgen lagen. Vanwege de verborgen lagen wordt ML met neurale netwerken ook deep learning genoemd.
NLG
Zie natural language generation.
NLP
Zie natural language processing.
NLU
Zie natural language understanding.
Objectdetectie
Een CV-taak met als doel om automatisch objecten te herkennen in een afbeelding of video.
Ongelabelde data
Data zonder labels. Een ML-algoritme moet hierin zelf patronen leren herkennen zonder gebruik te kunnen maken van een vooraf bekende uitkomst.
Outlier
Een uitschieter in een dataset. Is vaak ontstaan ten gevolge van een meetfout, maar het kan ook gaan om een daadwerkelijk uitzonderlijk voorbeeld.
Overfitting
Het fenomeen waarbij een ML-model goed presteert op de trainingsdata maar slecht generaliseert naar andere voorbeelden. Het model is waarschijnlijk te complex voor de data.
Parameter
Variabele of eigenschap van een ML-model waarvan de waarde tijdens het trainen wordt bepaald. Bijvoorbeeld de coëfficiënten in de formule voor lineaire of logistische regressie.
Pre-training
Het trainen van een ML-model voor generieke doeleinden, vaak op generieke data, bijvoorbeeld een verzameling van allerhande teksten. Voor een specifieke toepassing kan het nodig zijn het voorgetrainde model verder te verfijnen.
Precision
Een evaluatiemetriek voor classificatietaken. Precision geeft aan hoeveel van de positieve voorspellingen juist zijn.
Recall
Een evaluatiemetriek voor classificatietaken. Recall geeft aan hoeveel van de daadwerkelijke positieve voorbeelden door een ML-model ‘gedetecteerd’ zijn.
Regressie
ML-taak waarin een ML-model numerieke waarden voorspelt. Regressie is een vorm van supervised learning en vereist gelabelde data.
Reinforcement learning
Type machine learning waarin een ML-model zichzelf blijvend leert verbeteren door (impliciete) beloningen en afstraffingen.
Self-supervised learning
Type machine learning waarin een ML-algoritme patronen leert van ongelabelde data. Het ML-algoritme gebruikt de data om zichzelf te controleren tijdens het trainingsproces.
Semi-supervised learning
Type machine learning waarin een ML-algoritme voorspellingen leert van slechts gedeeltelijk gelabelde data.
Sentimentanalyse
Een NLU-taak met als doel om van een tekst automatisch te bepalen of deze een positieve of negatieve en objectieve of subjectieve lading bevat.
Single-label classificatie
Een classificatietaak waarbij exact één label per datapunt wordt voorspeld. Binaire classificatie is altijd een single-label taak, multi-class classificatie kan een single-label taak zijn.
StyleGAN
Een uitbreiding van de GAN die excelleert in het genereren van (levensechte) pasfoto’s. StyleGANs zijn goed in het gebruiken van kenmerken zoals haarkleur en gezichtsuitdrukking.
Supervised learning
Type machine learning waarin een ML-algoritme voorspellingen leert van gelabelde data. Voorbeelden zijn classificatie en regressie.
Taalmodel
Een model met kansverdelingen van woorden en zinnen, die informatie bevat over hoe waarschijnlijk een bepaald woord een ander woord opvolgt. Taalmodellen worden getraind op tekstcorpora.
Tekstcorpus
Een tekst of verzameling teksten die wordt gebruikt als basis voor NLP-taken.
Trainen
Proces waarin een ML-algoritme leert van voorbeelden. Trainen resulteert in een ML-model.
Trainingsdata
Gedeelte van een dataset dat wordt gebruikt om een ML-model te trainen. Bevat vaak 60% tot 80% van de beschikbare data.
Transfomer
ML-techniek die gebruikmaakt van neurale netwerken bestaande uit encoder- en decodercomponenten. De encoder ontvangt en verwerkt input en de decoder genereert output. Momenteel de meestgebruikte ML-methode voor NLP-taken.
Unsupervised learning
Type machine learning waarin een ML-algoritme patronen leert in ongelabelde data. Een voorbeeld hiervan is clustering.
Validatiedata
Gedeelte van een dataset dat wordt gebruikt om een ML-model te valideren tijdens het trainingsproces. Bevat vaak 10% tot 20% van de beschikbare data.
Word embedding
Een representatie van een woord als vector (een lijst getallen). Deze representatie is voor mensen onleesbaar, maar opent voor ML juist mogelijkheden. Word embeddings zijn bruikbaar als input voor neurale netwerken, woorden met letters zijn dat niet.