De actualiteit. Zomaar wat berichten over data:
1) Zorgkosten voor minima zouden in het nieuwe stelsel lager zijn.
2) Voedingsgoeroe Brian Wansink valt door de mand. met zijn resultaatstabellen.
3) De neppeiling bij verkiezingen
Wat prevaleert. Data of verhaal.
Na een (gratis) online cursus van zes weken over data exploratie en storytelling stel ik dat het hier niet om een kip of ei vraag gaat. De story (het verhaal) is en blijf het belangrijkste. Het medium staat in dienst van het verhaal. En dat geldt ook voor data die een verhaal kunnen ondersteunen. Dat neemt niet weg dat steeds vaker data op zich leiden tot vragen en dat weer tot een verhaal / publiciteit. Ongetwijfeld heeft dat te maken met het vaker beschikbaar komen van databestanden. De drempel is lager. Vrijwillig (open data) of onvrijwillig (denk aan hacks zoals Wikileaks) komen data beschikbaar. Data die soms ons op het verkeerde been zetten. In de discussiegroepen bij deze cursus gaat het trouwens ook over de nieuwswaarde (is die er wel of niet) van data die een verhaal niet ondersteunen. Zoals negatieve bevindingen bij een hypothese van wetenschappelijk onderzoek. De meningen zijn verdeeld. Wat zeker ook een rol speelt is dat software om data te scrapen uit documenten, te analyseren en te visualiseren is verbeterd en vereenvoudigd. Daarmee zijn we ook weer terug bij de feitelijke training.
MOOC
De online training bestaande uit wekelijkse modules met een vaste opbouw. Een MOOC (Massive Open Online Course), waarin je volledig in eigen tijd (asynchroon) en enigszins in eigen tempo kunt studeren. Zelfs in de trein (foto). De opbouw van een dergelijke cursus was mij al vertrouwd van vorige gelegenheden. Elke module bevat een aantal video’s van de beide trainers. Alberto Caïro die bekend is van datavisualisatie en storytelling. Heather Krause is vooral degene die in de cursus de daadwerkelijk data achterhaalt, bewerkt en interpreteert. In de wekelijkse module zijn ook tekstbestanden en links naar interessante websites opgenomen. De cursisten (volgens opgave in dit geval 7000 uit meer dan 100 landen) dienen -om eventueel een certificaat te verkrijgen- in discussie te gaan naar aanleiding van een drietal prangende wekelijkse vragen. De week wordt afgesloten met een korte quiz van vijf vragen. Ook kunnen studenten ondeling kennis uitwisselen (student lounge). Aan het eind van de zes weken kan voor $30 een digitaal certificaat worden verkregen bij gebleken goede resultaten van de cursist. Wat heb ik zoal geleerd? Geordend chronologisch per week (bullits).
Zes Bullits
-Het vinden en het begrip van data. Begin je met data of met het verhaal? Hoe kom je aan de data. Denk aan zoekterm op Google als filetype:xls. Hoe krachtig kunnen data zijn, vooral als je visualisatie inzet. Op welke manier leer ze te begrijpen. Indeling in drie niveaus (microdata, geaggregeerde data en statistische informatie). Drie manieren van aanpak: de analyse van research van anderen, het combineren van resultaten van bestaande projecten of het helemaal zelf data opzoeken en analyseren. Dat laatste het lastigste. Een Data biografie opmaken (betrouwbaarheid e.d. controleren aan de hand van de 5xW: wie,wat,waar, wanneer en waarom) is nuttig. Opslag van data. De ethiek van het opsporen van data (denk aan scraping) en de toepassing daarvan.
-De ontwikkeling van je dataverhaal. Hoe te starten met de programma’s Excel en Tableau Public. Hoe kun je de bestanden opschonen en hoe leg je dat goed vast. Welke rol spelen data in je verhaal. Ook komt weer de ethiek om de hoek kijken.
-Basale elementen bij het plot van je verhaal. Verschillende typen data. Het exploreren en visualiseren van een enkele variabele. Hoe kijk je naar veranderingen en trends in de data. Het gebruik van eenheden. Opnieuw de ethiek.
-Voortgang plot van verhaal. Het gebruik van twee variabelen. Statistische significantie. Correlatie is absoluut niet hetzelfde als een causaal verband. De ethiek van complexe statistische analyse.
-De bundeling van data in het plot. Multivariabele analyse. Combineren van datasets. Het onderscheid tussen mediators, confounders en moderators.
-Samenstellen van het dataverhaal. Wat wordt de centrale focus van het dataverhaal. Hoe data opte nemen in de narratieve opzet. De basis is transparantie en nauwkeurigheid. Hoe ga je om met onzekere factoren. De ethiek van rapportage naar verschillende doelgroepen.
Casus 1
Uit een onderzoek blijkt dat oudere vrouwen opvallend vaak bang zijn om ’s avonds op straat te worden overvallen. Uit een ander onderzoek blijkt dat oudere vrouwen zelden ’s avonds daadwerkelijk gevaar lopen. Als hier een verhaal van gemaakt zou worden, dient de vraag gesteld te worden of het gaat om steekproeven van verschillende samenstelling. Zo kan het zijn dat geënquêteerde oudere vrouwen sowieso al niet de straat opgaan.
Casus 2
Een ander voorbeeld betreft het gebruik van zonnecrème in relatie tot het optreden van huidkanker. Die relatie is door de media gelegd. Hoe kunnen we data in de bewijsvoering gebruiken? Dat is niet eenvoudig, want we hebben geen langjarige onderzoeksresultaten. Theoretisch immers meerdere verklaringen. Het kan zijn dat mensen die een extra risico lopen op huidkanker eerder geneigd zijn om zonnecrème toe te passen (dat noemen we een confounding variabele). Anderzijds is het denkbaar dat zonnecrème stof bevat die het optreden van huidkanker bevordert (een mediating variabele). Ook kan het zijn dat bij mensen die verschillende huidpigmentatie hebben een zonnecrème een ander effect heeft (een moderating variabele). Mechanisme kan in principe afhankelijk zijn van situatie. Dus oppassen met interpretatie.
Vrijage
Het overheersende beeld van deze cursus is dat de vrijage tussen data en journalistiek steeds inniger wordt. Dat kan eenvoudig zijn als een persoon beide competenties in zich verenigt. Datascience en Journalistiek. Maar ook komt het nu al voor dat pure datascientists in de redactiekamers een rol hebben gekregen. Journalistiek wordt naar mijn smaak steeds meer teamwork. Een goede zaak!
Hackaton
Nog maar al te goed herinner ik mij de initiatieven die journalist Jerry Vermanen en collega’s bij dagblad Tubantia initieerden onder de vlag van een hackaton (2011). Terug te lezen op mijn website in meerdere berichten. Maar ook opgenomen in het (ook gratis als PDF te lezen) voortreffelijke ‘The Data Journalism Handbook’ (pag 45 ). Een dergelijke hackaton verenigt de elementen data, scrapen en story. In tamelijk willekeurige volgorde. Ik realiseerde mij in 2011 meteen de uniciteit en het belang van deze gebeurtenis, waarbij ik persoonlijk enige tijd aanwezig was. Gezien het steeds meer beschikbaar komen van al dan niet open data zullen deze steeds vaker de basis vormen van een verhaal of een verhaallijn. Anderzijds kan natuurlijk ook een auteur data zoeken bij een nieuwsfeit of een gebeurtenis.We zullen het zien.
Blogs over data / hackaton
http://www.dutchbuttonworks.com/2011/11/datamining-diabetes/
http://www.dutchbuttonworks.com/2012/05/data-journalism-handbook/
http://www.dutchbuttonworks.com/2011/11/een-regiohack-opzetten/
http://www.dutchbuttonworks.com/2011/09/regiohack-nl/
http://www.dutchbuttonworks.com/2012/08/regiohack-wereldnieuws/
http://www.dutchbuttonworks.com/2013/12/inspectie-en-datamining/
http://www.dutchbuttonworks.com/2013/09/zorg-in-regios/
Website (vertaling)
Proficiat voor het aanmelden voor de Massive Open Online Course “Data Exploratie en Storytelling:. Het vinden van verhalen in gegevens via verkennende analyse en visualisatie Gedurende zes weken, heb je een kans om te leren van twee van de beste experts in data journalistiek en data visualisatie, Alberto Cairo en Heather Krause. In een video verklaart Cairo de inhoud van de cursus en de dynamiek. Na het bekijken van deze video kun je de rest van de inleidende materialen verkennen, met inbegrip van een uitleg over hoe onze cursus werkt, de syllabus en vier hoofdstukken van het nieuwe boek van Caïro, “The Truthful Art.” Vergeet niet om je profiel te updaten en voel je vrij om deel te nemen aan de Student Lounge, een speciaal forum om je collega’s te ontmoeten.
Scraping form website
Welcome to JournalismCourses.org, an online training platform of the Knight Center for Journalism in the Americas at the University of Texas at Austin.
Since 2003, our online courses have trained more than 75,000 people from 160 countries. Initially, the program was focused on online classes for small groups of journalists, mainly from Latin America and the Caribbean, but eventually the Knight Center began offering Massive Open Online Courses. It became the first program of MOOCs in the world specializing in journalism training, but it still offers courses to small groups as well. The MOOCs are free, but participants are asked to pay a small fee for a certificate of completion. Other courses are paid, but we keep the fees as low as possible in an effort to make the courses available to as many people as possible.
Our courses cover a variety of topics including investigative reporting, ethics, digital journalism techniques, election reporting, coverage of armed conflicts, computer-assisted reporting, and many others. Our MOOCs and courses for smaller groups last from four to six weeks. They are conducted completely online and taught by some of the most respected, experienced journalists and journalism trainers in the world. The courses take full advantage of multimedia. They feature video lectures, discussion forums, audio slideshows, self-paced quizzes, and other collaborative learning technologies. Our expert instructors provide a quality learning experience for journalists seeking to improve their skills, and citizens looking to become more engaged in journalism and democracy.
The courses offered on the JournalismCourses.org platform are asynchronous, so participants can log in on the days and times that are most convenient for them. Each course, however, is open just for a specific period of time and access to it is restrict to registered students.
The Knight Center has offered online courses in English, Spanish and Portuguese. Please check this site often, as we will soon announce more online courses.