Human in the Loop. Chatbot niet wat het lijkt.

Change something, change everything.

Op donderdagavond 18 mei 2017 zit een klein clubje bij elkaar in het Gemeentehuis Zwolle onder de vlag van Data Science Zwolle (DSZ). Thema Machine Learning (ML), Deep Learning en Artificiële Intelligentie (AI). Spreker is Thiago de Faria, oorspronkelijk afkomstig uit Brazilië. Hij is DataOps consultant bij Linkit, een bedrijf met 800 medewerkers.

AI-Winter

Hij verhaalt over de geschiedenis van artificiële intelligentie (AI). Halverwege de vorige eeuw is AI tot ontwikkeling gekomen. In de negentiger jaren was er een “AI- winter” in de wereld, behalve in Japan waar de ontwikkelingen gewoon doorgingen. Het fenomeen kwam later weer terug onder de naam Business Intelligentie (BI), weer later als Datamining, vervolgens Machine Learning, de Cloud en tenslotte weer artificiële intelligentie (AI). Hij noemt het een pendule. Het schommelt heen en weer. Er is ook nu weer een lastig moment bij de vertaling van AI naar de fysieke wereld. Want het gaat lang niet altijd goed.

Andere Tijden

Neem een foto van Elvis Presley die een dansje uitvoert. Dat wordt door AI vermoedelijk geïnterpreteerd als een Skateboarder. Want een dergelijk dansje is niet bekend in het systeem.  Tja…Een ander sprekend voorbeeld is de verwarring die te zien is op moment dat een enorm beeldbestand wordt doorzocht op het fenomeen Star Trek. Een hedendaags beeldbestand is opgebouwd uit plaatjes van poezen, auto’s, huizen enzovoorts. Geen NASA plaatjes. Dat gaat dus helemaal mis bij het benoemen van futuristische ruimtevaartuigen in de Galaxy. Ringen rond planeten worden zelfs chocolade genoemd. Het is duidelijk dat het resultaat sterk bepaald wordt door onze eigen hedendaagse maatschappij. Dat kan dus leiden tot misverstanden.

Gorilla’s

Een nog beroerder voorbeeld is het voorval waarbij negroïde mensen op een zeker moment werden geduid als gorilla’s. Dat heeft de producent van het algoritme (Google) ijlings moeten corrigeren met het schaamrood op de kaken. Voor Google is dat niet zo’n commercieel probleem. Maar voor kleinere bedrijven kan er enorme imagoschade ontstaan als een dergelijk algoritme onder het vergrootglas van het publiek komt. Het vervelende is dat je niet zomaar een onderdeel van het algoritme kunt veranderen. Als je iets aanpast, verandert het geheel. Change something, change everything.

Chatbot

Het komt er op neer dat een belangrijk stuk correctie niet geautomatiseerd kan worden. Spreker is  er praktisch zeker van dat hier het fenomeen human in the loop van toepassing is. De betekent concreet dat tags van foto’s van gorilla’s veiligheidshalve vermoedelijk handmatig worden gecontroleerd alvorens te worden vrijgegeven. Iets dergelijks heeft spreker zelf ervaren bij toepassing van chatbot Amy, waarbij bij navraag wel degelijk sprake bleek van een menselijke handeling. Een ander berucht voorbeeld waarbij het juist helemaal misging betreft chatbot Tay, die al na zestien uur uit de lucht moest worden gehaald. Deze chatbot, leerde zogezegd verkeerde dingen van het publiek via bizarre vragen. Dat leidde tot uitspraken over Hitler. Het is nu eenmaal zo dat mensen zich uitgedaagd voelen om vreemde vragen te stellen. Dit soort dingen is in te dammen door het vragenstellers minder makkelijk te maken. Bijvoorbeeld door ze extra handelingen te laten verrichten (knop indrukken enz.), maar uit te bannen is het niet. Vandaar de menselijke interventie.

Datapoints

Data Scientists passen een continue procesgang toe van Build, Test en Release. Elk datapoint dat wordt toegevoegd leidt tot een nieuwe release van een algoritme. Dat hoeft overigens niet het kern-algoritme te zijn, zoals dat kennelijk gebruikt wordt bij de elektrische auto Tesla. Daar is gekozen voor data aanlevering via de cloud, die bij een nieuwe laadbeurt worden vernieuwd. Dat gecentraliseerd aansturen heeft voordelen. Daarmee zijn ook narigheden als rechtszaken (zoals software gehackt) te voorkomen.

Netflix

Een voorbeeld van Netflix laat zien dat het niet altijd eenvoudig is. De waardering van films via Netflix op een schaal van 1-5 is sterk individueel bepaald. Een persoon kan enkele films beoordelen als een vier of vijf en de rest in de categorie één tot twee. Een andere kijker vindt alles bijna een vier of vijf. Dat zijn dus onvergelijkbare databestanden. Dat is een voortdurende strijd. Hoe kun je deep learning hierop testen? Dat lukt bijna niet.

Staal

Hoe kun je expertise inbouwen. Spreker haalt een voorbeeld aan uit de staalindustrie. Daar was een gigantisch beeldbestand beschikbaar. In het productieproces werd in een kritische fase visueel beoordeeld of het staal verder de wals in kon of niet. Dit historisch databestand was echter niet getagd. Dus deze big data hadden eigenlijk geen enkel nut. Er werd gekozen voor een aanpak on the job, waarbij een beroep werd gedaan op de expertise van de medewerkers. Zij moesten de beelden die voorbij kwamen van een label voorzien. Zo ontstond daadwerkelijk een lerend systeem. Maar dat koste wel twee jaar. Maar er was nu geen verzet van medewerkers uit angst voor verlies hun baan.

Mijn gekozen waardering € -