OCR’ing and analysing comic books – a workflow report

spidermanI like experimenting with text analysis tools like Voyant. However, most tools for corpus linguistics don’t account for historical change – which I am, as a historian, mostly interested in. Historians working with tools like these have to think of ways themselves to add a time scale to their analyses. The most straightforward way to do so is by arranging a corpus in a chronological order. Highly interesting, for example, is to study linguistic changes in successive volumes of newspapers or periodicals, as I do in my academic research.

Really just as an experiment, I’ve also tried analyzing volumes of comic books. I happen to possess some digital comic book archives, they have a nice chronological order, and they are quite under-studied as historical sources for changes in (popular) culture. As turning digital comic books (in cbr format) into analyzable text files took more effort than I realized, what follows is the workflow I constructed. I don’t know whether it’s the optimal way of doing so, but as someone who is new to bash commands, OCR’ing, and the combination of both, I had a lot of fun figuring this out. No, it’s probably a long way from being optimal. More like quick-and-dirty, although it isn’t quick either (depending on the volume of your dataset). But it does requires hardly any action, so for all its downsides it really is a fun way of experimenting with the (historical) text analysis of some original data. Lees verder

Advertenties

In de woorden van Presser

Met de snelgroeiende aanwas aan gedigitaliseerde teksten die online te bekijken zijn (hier, bijvoorbeeld op Archive.org, op Project Gutenberg of, voor Nederlandstalig materiaal, op de rijke Digitale Bibliotheek voor de Nederlandse Letteren), neemt ook het aantal applicaties toe om die teksten te ontsluiten. Wie een tekst heeft gevonden als scans en er graag een tekstbestand van wil maken, kan terecht op een van de vele website die gratis OCR-tools ter beschikking stellen (zoals deze). Dat kan, tot op zekere hoogte, zelfs vrij eenvoudig voor Duitstalige teksten die in het Gotisch schrift (Fraktur) zijn geschreven (hier, bijvoorbeeld).

Andere online tools zijn gemaakt voor tekstanalyse. Een mooi voorbeeld is Voyant Tools. In aansluiting op dit artikel op deze website heb ik Ondergang. De vervolging en verdelging van het Nederlandse jodendom, 1940-1945 van Jacques Presser uit 1965 (immers integraal online beschikbaar en downloadbaar) door de tool gehaald. Of begrippen als ‘Holocaust’ en ‘Shoah’ in de vroege jaren zestig al in de wetenschappelijke literatuur al gangbaar waren, kun je natuurlijk eenvoudig checken via het register achterin het boek. Deze tool biedt een uitputtende woordenlijst met de frequentie van alle voorkomende woorden in de tekst. Ook daarin vind je genoemde woorden niet terug (volgens verwachting). Maar de lijst is vanzelfsprekend wel vollediger (en betrouwbaarder?) dan een register. Wie in dit boek op ‘bij’ zoekt, ziet in één oogopslag niet alleen dat dat woordje meer dan 1500 keer voortkomt, maar ook dat Presser 107 keer ‘bijzonder’ heeft gebruikt (plus 48 keer ‘bijzondere’), tien keer ‘rabbijn’ en 19 keer ‘opperrabbijn’, zeven keer ‘bijbel’, vier keer ‘verbijsterd’ en drie keer ‘verbijsterend’. Net zo eenvoudig kun je zien wáár de woorden in de lopende tekst voorkomen – en dus in welke context en betekenis ze worden aangewend.

Lees verder