Het ABC van AI

De belangrijkste begrippen uit de kunstmatige intelligentie (AI) op een rijtje. Veel begrippen hebben ook betekenis buiten de context van AI en machine learning. We hanteren hier de ML-gerelateerde definities van deze begrippen. Download hier de PDF

Accuracy

Een evaluatiemetriek voor classificatietaken, gedefinieerd als het aantal juiste voorspellingen gedeeld door het totaal aantal datapunten.

AI

Zie kunstmatige intelligentie.

Algoritme

Een stappenplan om een taak uit te voeren, vaak in de vorm van een reeks computerinstructies. In ML is een algoritme de procedure om te leren van voorbeelden.

Annoteren

Proces waarin mensen data voorzien van labels. De labels kunnen worden gebruikt om een ML-model mee te trainen.

Artificial intelligence

Zie kunstmatige intelligentie.

Beslisboom

ML-algoritme dat resulteert in een stroomdiagram waarin te zien is welke keuzes tot welke uitkomst leiden.

Bias

Vooringenomenheid of vooroordelen in data. Bias kan op verschillende manieren ontstaan en heeft vaak een negatieve impact op een ML-model.

Big data

Grote hoeveelheden data, zo groot dat verwerking ervan op standaardcomputers niet mogelijk is.

Binaire classificatie

Een classificatietaak met precies twee mogelijke uitkomsten, bijvoorbeeld voorspellen of mensen wel of niet gaan stemmen bij de volgende verkiezingen.

Bounding box

Een rechthoek dat aangeeft waar een object zich bevindt in een afbeelding of video. Bounding boxes worden gebruikt om objecten in beeld te annoteren, maar ook weergegeven door een CV-model zelf.

Class imbalance

Een fenomeen waarbij de klassen in een dataset in zeer ongelijke mate voorkomen. Vrijwel alle voorbeelden behoren tot één klasse, en maar weinig tot de andere klasse. Class imbalance kan problemen opleveren bij het trainen van een ML-model.

Classificatie

ML-taak waarin een ML-model voorbeelden in categorieën of klassen onderverdeelt. Classificatie is een vorm van supervised learning en vereist gelabelde data.

Clustering

ML-taak waarin een ML-algoritme clusters vindt van voorbeelden die op elkaar lijken in ongelabelde data. Het resulterende ML-model kent nieuwe voorbeelden aan deze clusters toe. Clustering is een vorm van unsupervised learning.

Computer vision

Vakgebied dat zich bezighoudt met beeldtechnologie, met als ultieme doel om computers digitaal beeld te laten begrijpen. Computer vision speelt een grote rol in zelfrijdende auto’s en gezichtsherkenning.

Confusiematrix

Zie foutmatrix.

Correct-negatieven

De juist voorspelde voorbeelden van de positieve klasse in een binaire classificatietaak.

Correct-positieven

De juist voorspelde voorbeelden van de positieve klasse in een binaire classificatietaak.

CV

Zie computer vision.

Data(set)

Een verzameling gegevens. In ML worden data gebruikt om patronen of toekomstige voorspellingen van te leren.

Decoder

Het gedeelte van een neuraal netwerk dat verantwoordelijk is voor het genereren van output.

Deep learning

Onderdeel van ML waarin gebruik wordt gemaakt van (diepe) neurale netwerken.

Deepfake

Synthetische video’s gemaakt met behulp van GANs. Het woord ‘deepfake’ is een samentrekking van ‘deep learning’ en ‘fake’.

Design thinking

Double diamond

Een methode voor creatieve processen, weergegeven als twee ‘diamanten’ die beide bestaan uit een divergerende en een convergerende fase. De vier fases zijn discover, define, develop en deliver.

Encoder

Het gedeelte van een neuraal netwerk dat verantwoordelijk is voor het verwerken van input.

Entiteitherkenning

Een NLU-taak met als doel om automatisch te herkennen over welke entiteiten een tekst gaat. Entiteiten zijn ‘dingen die bestaan’, zoals personen, locaties en organisaties.

Evaluatie

Het bepalen van hoe goed een ML-model doet wat het moet doen. Evaluatie kan kwalitatief of kwantitatief zijn. In ML is kwantitatieve evaluatie het meest gangbaar.

Evaluatiedata

Gedeelte van een dataset dat wordt gebruikt om een ML-model te evalueren. Bevat vaak 10% tot 20% van de beschikbare data.

Feature (data)

Een kenmerk van data dat gebruikt wordt als input voor het trainen van een ML-model. Voor een goed (en eerlijk!) ML-model is het belangrijk om weloverwogen features te kiezen.

Feature (software)

Een karakteristiek van een app of tool, zoals een nieuwe functionaliteit.

Fout-negatieven

Voorbeelden die tot de positieve klasse behoren, maar zijn voorspeld als negatief in een binaire classificatietaak.

Fout-positieven

Voorbeelden die tot de negatieve klasse behoren, maar zijn voorspeld als positief in een binaire classificatietaak.

Foutmatrix

Een tabel die weergeeft welke fouten een classificatiemodel maakt. Elke klasse wordt met elke klasse vergeleken. Juiste voorspellingen staan op de diagonaal van linksboven naar rechtsonder.

GAN

Zie generative adversarial network.

Garbage in, garbage out

Het principe dat data van slechte kwaliteit leidt tot voorspellingen van slechte kwaliteit. Troep erin, troep eruit.

Gelabelde data

Data voorzien van labels, ofwel de uitkomsten die een ML-model moet leren voorspellen.

Generatie

ML-taak waarin een ML-model wordt gebruikt om nieuwe content (beeld, tekst) te creëren. Generatiemodellen zijn meestal het resultaat van unsupervised of self-supervised learning.

Generative adversarial network

ML-techniek die leert door twee neurale netwerken met elkaar te laten concurreren. Het generatornetwerk genereert voorbeelden die op de trainingsdata lijken en het discriminatornetwerk probeert deze te onderscheiden van echte voorbeelden. Erg populair voor beeldgeneratie.

Gezichtsherkenning

Een CV-taak met als doel om gezichten van verschillende personen te onderscheiden in afbeeldingen en video’s.

Hyperparameter

Een configuratie die van toepassing is op een ML-model, maar er geen onderdeel van is. Bijvoorbeeld het aantal verborgen lagen in een neuraal netwerk of de waarde van k in k-means clustering.

Inferentie

Het gebruik van een ML-model om voorspellingen te doen op nieuwe voorbeelden.

Inter-annotator agreement

Een metriek voor de mate waarin menselijke annotatoren dezelfde labels toewijzen aan dezelfde data tijdens een annotatieproces.

K-means clustering

Clusteringalgoritme dat op zoek gaat naar k groepen van trainingsdatapunten die op elkaar lijken. De waarde voor k moet van tevoren worden opgegeven.

Kunstmatige intelligentie

Vakgebied dat zich bezighoudt met het ontwikkelen van intelligentie in computers.

Label

Een vooraf bekende uitkomst van een voorbeeld in een dataset. Een label kan een categorie zijn (bijvoorbeeld ‘fiets’ of ‘auto’ voor een object in een afbeelding) of een waarde (bijvoorbeeld de verkoopprijs van een huis).

Lineaire regressie

ML-algoritme voor het voorspellen van een numerieke uitkomst. Lineaire regressie probeert een lijn te vinden die het beste overeenkomt met de trainingsdatapunten.

Logistische regressie

Classificatiealgoritme voor binaire classificatie, oftewel classificatie met twee klassen.

Machine learning

Proces waarbij computers leren aan de hand van voorbeelden zonder het programmeren van expliciete regels, en het vakgebied dat zich bezighoudt met de ontwikkeling van dit proces. Deelgebied van AI.

MAE

Een evaluatiemetriek voor regressietaken. Meet het gemiddelde (mean) van de absolute waarde (absolute) van elke fout (error) die een regressielijn maakt ten opzichte van de vooraf bekende uitkomsten.

Metadata

Gegevens over data. Bijvoorbeeld informatie over wanneer data is verzameld of de bestandsgrootte.

ML

Zie machine learning.

Model

Een schematische, vaak versimpelde weergave van de werkelijkheid. In ML is een model het resultaat van het leerproces van een ML-algoritme.

Multi-class classificatie

Een classificatietaak met meer dan twee mogelijke uitkomsten, bijvoorbeeld objectdetectie met de labels ‘fiets’, ‘auto’, ‘bus’, ’tram’.

Multi-label classificatie

Een multi-class classificatietaak waarbij een variabel aantal labels per datapunt worden voorspeld, bijvoorbeeld trefwoordclassificatie van films; een film kan zowel spannend als grappig zijn en dus meerdere labels krijgen.

Natural language generation

Subgebied van NLP dat zich bezighoudt met het produceren van taal. Voorbeelden van toepassingen zijn chatbots, vertaalmachines en tekstgeneratie.

Natural language processing

Vakgebied dat zich bezighoudt met taaltechnologie en daarbij taalwetenschap, informatica en AI combineert, met als ultieme doel om computers menselijke taal te laten begrijpen.

Natural language understanding

Subgebied van NLP dat zich bezighoudt met het verwerken van taal. Voorbeelden van toepassingen zijn sentimentanalyse en entiteitherkenning.

Neuraal netwerk

Een op het menselijk brein geïnspireerde ML-architectuur die in staat is om complexe patronen te leren. Een neuraal netwerk bevat één of meerdere verborgen lagen. Vanwege de verborgen lagen wordt ML met neurale netwerken ook deep learning genoemd.

NLG

Zie natural language generation.

NLP

Zie natural language processing.

NLU

Zie natural language understanding.

Objectdetectie

Een CV-taak met als doel om automatisch objecten te herkennen in een afbeelding of video.

Ongelabelde data

Data zonder labels. Een ML-algoritme moet hierin zelf patronen leren herkennen zonder gebruik te kunnen maken van een vooraf bekende uitkomst.

Outlier

Een uitschieter in een dataset. Is vaak ontstaan ten gevolge van een meetfout, maar het kan ook gaan om een daadwerkelijk uitzonderlijk voorbeeld.

Overfitting

Het fenomeen waarbij een ML-model goed presteert op de trainingsdata maar slecht generaliseert naar andere voorbeelden. Het model is waarschijnlijk te complex voor de data.

Parameter

Variabele of eigenschap van een ML-model waarvan de waarde tijdens het trainen wordt bepaald. Bijvoorbeeld de coëfficiënten in de formule voor lineaire of logistische regressie.

Pre-training

Het trainen van een ML-model voor generieke doeleinden, vaak op generieke data, bijvoorbeeld een verzameling van allerhande teksten. Voor een specifieke toepassing kan het nodig zijn het voorgetrainde model verder te verfijnen.

Precision

Een evaluatiemetriek voor classificatietaken. Precision geeft aan hoeveel van de positieve voorspellingen juist zijn.

Recall

Een evaluatiemetriek voor classificatietaken. Recall geeft aan hoeveel van de daadwerkelijke positieve voorbeelden door een ML-model ‘gedetecteerd’ zijn.

Regressie

ML-taak waarin een ML-model numerieke waarden voorspelt. Regressie is een vorm van supervised learning en vereist gelabelde data.

Reinforcement learning

Type machine learning waarin een ML-model zichzelf blijvend leert verbeteren door (impliciete) beloningen en afstraffingen.

Self-supervised learning

Type machine learning waarin een ML-algoritme patronen leert van ongelabelde data. Het ML-algoritme gebruikt de data om zichzelf te controleren tijdens het trainingsproces.

Semi-supervised learning

Type machine learning waarin een ML-algoritme voorspellingen leert van slechts gedeeltelijk gelabelde data.

Sentimentanalyse

Een NLU-taak met als doel om van een tekst automatisch te bepalen of deze een positieve of negatieve en objectieve of subjectieve lading bevat.

Single-label classificatie

Een classificatietaak waarbij exact één label per datapunt wordt voorspeld. Binaire classificatie is altijd een single-label taak, multi-class classificatie kan een single-label taak zijn.

StyleGAN

Een uitbreiding van de GAN die excelleert in het genereren van (levensechte) pasfoto’s. StyleGANs zijn goed in het gebruiken van kenmerken zoals haarkleur en gezichtsuitdrukking.

Supervised learning

Type machine learning waarin een ML-algoritme voorspellingen leert van gelabelde data. Voorbeelden zijn classificatie en regressie.

Taalmodel

Een model met kansverdelingen van woorden en zinnen, die informatie bevat over hoe waarschijnlijk een bepaald woord een ander woord opvolgt. Taalmodellen worden getraind op tekstcorpora.

Tekstcorpus

Een tekst of verzameling teksten die wordt gebruikt als basis voor NLP-taken.

Trainen

Proces waarin een ML-algoritme leert van voorbeelden. Trainen resulteert in een ML-model.

Trainingsdata

Gedeelte van een dataset dat wordt gebruikt om een ML-model te trainen. Bevat vaak 60% tot 80% van de beschikbare data.

Transfomer

ML-techniek die gebruikmaakt van neurale netwerken bestaande uit encoder- en decodercomponenten. De encoder ontvangt en verwerkt input en de decoder genereert output. Momenteel de meestgebruikte ML-methode voor NLP-taken.

Unsupervised learning

Type machine learning waarin een ML-algoritme patronen leert in ongelabelde data. Een voorbeeld hiervan is clustering.

Validatiedata

Gedeelte van een dataset dat wordt gebruikt om een ML-model te valideren tijdens het trainingsproces. Bevat vaak 10% tot 20% van de beschikbare data.

Word embedding

Een representatie van een woord als vector (een lijst getallen). Deze representatie is voor mensen onleesbaar, maar opent voor ML juist mogelijkheden. Word embeddings zijn bruikbaar als input voor neurale netwerken, woorden met letters zijn dat niet.