LLM-evaluatie, waarom doen we dat eigenlijk?

#0001

Robin Smits, Hildo van Es

24:28

AI, Podcast

Luister hier naar de aflevering:

AI biedt veelbelovende kansen, maar brengt ook serieuze risico’s met zich mee — vooral als we vergeten te evalueren wat we precies gebruiken. In deze aflevering van de greatminds podcast gaan Hildo van Es en data scientist Robin Smits in op de noodzaak van het evalueren van open source LLM’s (Large Language Models). Waarom moet je niet blind vertrouwen op bestaande modellen? Wat zijn de risico’s als je dat wel doet?

🔑 Belangrijkste inzichten:

Evaluatie gaat verder dan prestatie: ethiek, bias en veiligheid zijn net zo belangrijk.
Hugging Face biedt standaardbenchmarks, maar handmatig testen blijft onmisbaar.
Kleine benchmarks kunnen evaluatie toegankelijker maken zonder veel performanceverlies.

Van benchmark tot praktijk: hoe je modellen écht test

Ze bespreken bekende mislukkingen zoals de DPD-chatbot en leggen uit waarom functionele tests niet voldoende zijn. Want naast prestaties moet je ook testen op bias, betrouwbaarheid, ethisch gedrag en hallucinerende output. Aan bod komen evaluatiemethoden, benchmarks, het Open LLM Leaderboard van Hugging Face, het belang van meertalige datasets én waarom handmatig testen onmisbaar blijft.

Een must-listen aflevering voor iedereen die werkt met generatieve AI en wil weten hoe je modellen inzet zonder reputatierisico’s of ethische missers.

📱 Connect met onze gast en host:

Robin Smits | Hildo van Es

⏱ Tijdstempels:

00:00 – Introductie Hildo en Robin

01:43 – Waarom je altijd moet evalueren: de DPD-chatbot en Cortana

03:32 – Wat is evalueren in de context van LLMs?

05:09 – Hugging Face en het Open LLM Leaderboard

08:19 – Van GLUE naar SuperGLUE naar moderne benchmarks

09:56 – Meertalige evaluatie en het Nederlandse leaderboard

11:58 – Fine-tuning op je eigen dataset: moet je opnieuw testen?

19:20 – Chatbot Arena & subjectieve vergelijking

20:35 – Kosten, hardware en stroomverbruik

21:40 – Tiny Benchmarks: minder data, bijna dezelfde betrouwbaarheid

22:47 – Vooruitblik op volgende aflevering over bias

LLM-evaluatie, waarom doen we dat eigenlijk?

Luister hier naar de aflevering:

🔑 Belangrijkste inzichten:

Van benchmark tot praktijk: hoe je modellen écht test

📱 Connect met onze gast en host:

⏱ Tijdstempels:

🔗 Achtergrondinformatie:

Andere afleveringen

Data privacy, GDPR en Trump: Wat betekent dit voor jouw organisatie?

Green-by-design in actie: van theorie naar praktijk

Green-by-design: duurzaam denken in software-architectuur

Adresgegevens

Voor developers

Voor kenniszoekers

Voor opdrachtgevers