In deze podcast gaan Hildo van Es en Robin Smits dieper in op de uitdagingen en benodigdheden bij het evalueren van open source Large Language Models (LLMs). Vanuit hun expertises als architect en data scientist bespreken zij specifieke incidenten om het cruciale belang van grondige evaluatie van LLM’s te onderstrepen. Denk aan de misstappen van DPD’s chatbot en Cortana’s ontwikkeling van ongewenste ideeën.
Hildo en Robin bespreken de noodzaak van een brede reeks tests, inclusief ethische en bias-evaluaties, die afwijken van traditionele softwaretests. Verder halen zij het gebruik van Hugging Face’s leaderboard en benchmarks aan als essentiële hulpmiddelen voor de beoordeling van modelprestaties.
De discussie belicht ook het initiatief voor Nederlandstalige evaluaties en de implicaties van het testen van LLM’s met bedrijfsspecifieke datasets, waarbij de complexiteit en de inherente risico’s van AI-modellen niet mogen worden onderschat.
⏱ Tijdstempels:
00:00 – Welkom en introductie
01:06 – Waarom AI testen belangrijk is
04:36 – Praktische evaluatie met Hugging Face
09:07 – Nederlandse AI-modellen testen
13:34 – Hoe test je een AI-chatbot?
17:22 – Geautomatiseerd vs handmatig testen
20:37 – Wrap-up en vooruitblik naar bias
🔑 Wat je te weten komt:
- Praktische voorbeelden van wat er mis kan gaan met ongeteste AI
- Hoe je kunt beginnen met het testen van je AI-model
- Welke tools en platforms je kunt gebruiken voor evaluatie
- Waarom je zowel geautomatiseerd als handmatig moet testen
- Tips voor het monitoren van je AI na de lancering
🔗 Handige bronnen:
- Hugging Face Open LLM Leaderboard (voor het vergelijken van AI-modellen)
- Open Dutch LLM Leaderboard (specifiek voor Nederlandse modellen)
- Tiny Benchmarks paper (voor efficiënter testen)
- DPD chatbot case (leerzaam voorbeeld)
📱 Connect met onze gast en host:
- Robin Smits – Data Scientist & eigenaar Lumie ML Consulting
- Hildo van Es – Architect & Medeoprichter greatminds.