Zijn de bronnen die chatbots trainen betrouwbaar?

20 juni 2023

Chatbots zoals ChatGPT leren op basis van machine learning. Tijdens het trainingsproces wordt de chatbot getraind op een grote hoeveelheid tekstgegevens (datasets), zodat ze in staat zijn taken uit te voeren die doorgaans menselijke intelligentie vereisen.

Zijn de bronnen die chatbots trainen betrouwbaar?

Hoe nauwkeurig is een chatbot?

De chatbot is in staat nieuwe tekst te genereren, kan leren en kan redeneren, maar heeft geen begrip van de betekenis en vertrouwt op statistische patronen en de gebruikte datasets. Onjuiste informatie in de gebruikte dataset kan leiden tot onnauwkeurige en onjuiste antwoorden.

Datasets

De keuze van datasets hangt af van het specifieke doel en de toepassing van de chatbot. Het is essentieel dat de gebruikte datasets van goede kwaliteit zijn, nauwkeurige informatie bevatten en representatief zijn voor de gewenste taak van de chatbot.

MC4 dataset

Veel bedrijven geven niet prijs welke bronnen ze gebruiken voor het trainen van hun chatbots. Google heeft uit 2,5 miljoen unieke Nederlandse en Belgische websites teksten verzameld voor de MC4 dataset. Dit is een veelgebruikte dataset voor chatbots.

Onderzoek naar de meest gebruikte Nederlandse dataset*

De Groene Amsterdammer heeft samen met Data School onderzoek gedaan naar websites uit de MC4 dataset. Uit het onderzoek is geconcludeerd dat de meest gebruikte Nederlandse websites voor het trainen van chatbots overlopen van auteursrechtschendingen, privégegevens en nepnieuws.

Volgens het onderzoek zou Docplayer.nl de voornaamste bron zijn voor chatbots, een hostingsite die documenten verzamelt, waaronder bestanden met persoonsgegevens als sollicitatie-evaluaties, belastingaangiftes en AIVD rapporten (docplayer.nl was lange tijd een feest voor hackers als het ging om het opsporen van privacygevoelige data).

Opvallend ook is dat een "neonazistische complotwebsite" genaamd Stormfront in de top 200 staat, slechts één plaats lager dan RTL Nieuws. Conclusie hieruit kan zijn dat de chatbots van beide sites ongeveer evenveel kunnen leren.

Zorgwekkend is ook dat websites als Marktplaats en eBay in de lijst voorkomen waar gebruikers hun telefoonnummer achterlaten en deze gegevens worden gekoppeld door een systeem dat ervan wil leren en nieuwe teksten wil genereren.

Als de databron van een chatbot niet betrouwbaar is, kan er verkeerde informatie worden verspreid, zonder dat deze tot de oorspronkelijke bron is te herleiden.

*) Bron: Onderzoek De bronnen van ChatGPT - De Groene Amsterdammer

Pagina delen:

Overtuigd? Neem contact met ons op

Bel Ernst Quint op 088 200 9000

Ernst Quint

Directeur