In de woorden van Presser

Met de snelgroeiende aanwas aan gedigitaliseerde teksten die online te bekijken zijn (hier, bijvoorbeeld op Archive.org, op Project Gutenberg of, voor Nederlandstalig materiaal, op de rijke Digitale Bibliotheek voor de Nederlandse Letteren), neemt ook het aantal applicaties toe om die teksten te ontsluiten. Wie een tekst heeft gevonden als scans en er graag een tekstbestand van wil maken, kan terecht op een van de vele website die gratis OCR-tools ter beschikking stellen (zoals deze). Dat kan, tot op zekere hoogte, zelfs vrij eenvoudig voor Duitstalige teksten die in het Gotisch schrift (Fraktur) zijn geschreven (hier, bijvoorbeeld).

Andere online tools zijn gemaakt voor tekstanalyse. Een mooi voorbeeld is Voyant Tools. In aansluiting op dit artikel op deze website heb ik Ondergang. De vervolging en verdelging van het Nederlandse jodendom, 1940-1945 van Jacques Presser uit 1965 (immers integraal online beschikbaar en downloadbaar) door de tool gehaald. Of begrippen als ‘Holocaust’ en ‘Shoah’ in de vroege jaren zestig al in de wetenschappelijke literatuur al gangbaar waren, kun je natuurlijk eenvoudig checken via het register achterin het boek. Deze tool biedt een uitputtende woordenlijst met de frequentie van alle voorkomende woorden in de tekst. Ook daarin vind je genoemde woorden niet terug (volgens verwachting). Maar de lijst is vanzelfsprekend wel vollediger (en betrouwbaarder?) dan een register. Wie in dit boek op ‘bij’ zoekt, ziet in één oogopslag niet alleen dat dat woordje meer dan 1500 keer voortkomt, maar ook dat Presser 107 keer ‘bijzonder’ heeft gebruikt (plus 48 keer ‘bijzondere’), tien keer ‘rabbijn’ en 19 keer ‘opperrabbijn’, zeven keer ‘bijbel’, vier keer ‘verbijsterd’ en drie keer ‘verbijsterend’. Net zo eenvoudig kun je zien wáár de woorden in de lopende tekst voorkomen – en dus in welke context en betekenis ze worden aangewend.

Wat dat laatste woord overigens aangaat: kenmerkend voor Ondergang, zo wordt vaak gezegd, is de betrokken – om niet te zeggen emotionele – toon die Presser erin aanslaat. Dat is niet verwonderlijk en nauwelijks laakbaar. Maar het kleurt de beschrijven natuurlijk wel als je zaken ‘verbijsterend’ vindt – ook al zullen weinig mensen het met je oneens zijn. Een andere functionaliteit van Voyant geeft ook een indruk van Pressers toon in het boek: de woordenwolk. Hierin wordt de relatieve frequentie gevisualiseerd door een kluwen van in omvang variërende woorden – al naar gelang hoe vaak ze in de tekst voorkomen. Een spontaan gegenereerde ‘cloud’ bestaat dan al snel uit alle mogelijke lidwoorden, voornaamwoorden en werkwoorden. Die kun je er gelukkig uitfilteren. Net als de titel van het boek. Die staat ook in deze ge-OCR’de tekst namelijk op elke pagina (in de kop- of voettekst) en vertekent de boel daardoor enorm. Wie alle stopwoorden eruit filtert (die, om een open deur in te trappen, niet bestaan uit een vaste, gegeven lijst, maar afhankelijk zijn van de vragen die je aan de tekst stelt), krijgt een cloud waarin de woorden ‘joden’ en ‘joodse’ eruit springen. Als je ook die filtert, ontstaat een cloud als deze:

Pressers persoonlijke toon valt hier uit te lezen. Let op woorden als ‘misschien’, ‘natuurlijk’, ‘mogelijk’.

Voor een gefundereerde analyse voldoet een cloud als deze niet. Je zou geneigd zijn het eenzame lot van de joden af te lezen aan woorden als ‘alleen’, ‘enkele’, ‘zonder’, de dwang waaraan ze waren blootgesteld aan werkwoorden als ‘moe(s)ten’ en ‘doen’, de vertwijfeling aan termen als ‘konden’, ‘zouden’. Maar dan lees je er veel meer in dan de cloud werkelijk aan informatie biedt. Om dat na te gaan, kun je op een woord in de cloud klikken. Je komt dan in de Voyant-interface terecht, waar ook een ‘keywords in context’-tool is. Daar vind je een lijst met alle plekken in de tekst en de zinsverbanden waarbinnen het woord voorkomt.

Afhankelijk van de dingen waarnaar je op zoek bent, kun je deze cloud verder ontdoen van in die context betekenisloze begrippen. Wie weet wat je overhoudt. In mijn project Biland werken we met een soortgelijke cloud, zoals de illustratie op deze pagina laat zien. Daarin staan meer woorden dan in de Voyant cloud, waar bovendien Named Entity Recognition en sentiment modules op losgelaten kunnen worden. Maar Voyant is ontzettend gebruikersvriendelijk, snel en herbergt nog een reeks andere functionaliteiten. Zo kun je meerdere teksten parallel analyseren en zo bijvoorbeeld het woordgebruik in twee teksten van dezelfde auteur vergelijken. Wie op zoek is naar een workshop Voyant, kan hier klikken.

Advertenties

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s