OCR’ing and analysing comic books – a workflow report

spidermanI like experimenting with text analysis tools like Voyant. However, most tools for corpus linguistics don’t account for historical change – which I am, as a historian, mostly interested in. Historians working with tools like these have to think of ways themselves to add a time scale to their analyses. The most straightforward way to do so is by arranging a corpus in a chronological order. Highly interesting, for example, is to study linguistic changes in successive volumes of newspapers or periodicals, as I do in my academic research.

Really just as an experiment, I’ve also tried analyzing volumes of comic books. I happen to possess some digital comic book archives, they have a nice chronological order, and they are quite under-studied as historical sources for changes in (popular) culture. As turning digital comic books (in cbr format) into analyzable text files took more effort than I realized, what follows is the workflow I constructed. I don’t know whether it’s the optimal way of doing so, but as someone who is new to bash commands, OCR’ing, and the combination of both, I had a lot of fun figuring this out. No, it’s probably a long way from being optimal. More like quick-and-dirty, although it isn’t quick either (depending on the volume of your dataset). But it does requires hardly any action, so for all its downsides it really is a fun way of experimenting with the (historical) text analysis of some original data. Lees verder

Advertenties

Digital Humanities: wat is dat?

Begin september 2012 organiseerde het Humanities Research Institute van de Universiteit van Sheffield een Digital Humanities-congres. Als één ding duidelijk was geworden na drie dagen vol presentaties, was dat het begrip Digital Humanities (DH) zoveel verschillende betekenissen heeft als er mensen zijn die zich ermee bezighouden. Ik ken inmiddels geen geesteswetenschapper meer zonder computer, dus in zoverre is elke alfa op de universiteit een DH’er. Doorgaans wordt DH specifieker gebruikt voor een keten van technologieën: voor het achtereenvolgens digitaliseren, ontsluiten, analyseren en presenteren (visualiseren) van informatie. Maar dan nog blijven vragen staan, die tot veel discussie blijken te kunnen leiden: is DH een zelfstandige discipline of een ‘gedeelde interesse’? Ligt het zwaartepunt bij het digitaliseren van informatie (de input) of bij het visualiseren van resultaten (output)? Is DH een modieus hulpmiddel voor wetenschappelijk onderzoek of de onontkoombare toekomst voor ons cultureel erfgoed?

De organisatoren van #DHCShef maken op hun website zelf de tweedeling als ze schrijven dat ze DH beschouwen als ‘the use of technology within arts, heritage and humanities research as both a method of inquiry and a means of dissemination’. Deze ambivalentie kwam terug in de presentaties. Grofweg de helft van de praatjes ging in op het gebruik van digitale methoden voor wetenschappelijk onderzoek. Daartoe reken ik ook mijn presentatie van Biland en dat van bijvoorbeeld Hinke Piersma, die haar project War in Parliament uit de tweede Clarin Call voorstelde. Maar terwijl deze categorie praatjes inhoudelijk (en helaas ook qua kwaliteit) al als dag en nacht konden verschillen, deed de andere helft van de sprekers een poging op de digital humanities te reflecteren. Er waren er bij die de geschiedenis van de DH wilden schrijven, die de verschillen tussen DH in verschillende landen bestudeerden of die de impact van DH wilden meten of vergezichten lieten zien van wetenschap in het ‘digitale tijdperk’. En telkens stuitten deze sprekers op hetzelfde probleem: wat verbindt de digital humanities nu eigenlijk?

Lees verder

In de woorden van Presser

Met de snelgroeiende aanwas aan gedigitaliseerde teksten die online te bekijken zijn (hier, bijvoorbeeld op Archive.org, op Project Gutenberg of, voor Nederlandstalig materiaal, op de rijke Digitale Bibliotheek voor de Nederlandse Letteren), neemt ook het aantal applicaties toe om die teksten te ontsluiten. Wie een tekst heeft gevonden als scans en er graag een tekstbestand van wil maken, kan terecht op een van de vele website die gratis OCR-tools ter beschikking stellen (zoals deze). Dat kan, tot op zekere hoogte, zelfs vrij eenvoudig voor Duitstalige teksten die in het Gotisch schrift (Fraktur) zijn geschreven (hier, bijvoorbeeld).

Andere online tools zijn gemaakt voor tekstanalyse. Een mooi voorbeeld is Voyant Tools. In aansluiting op dit artikel op deze website heb ik Ondergang. De vervolging en verdelging van het Nederlandse jodendom, 1940-1945 van Jacques Presser uit 1965 (immers integraal online beschikbaar en downloadbaar) door de tool gehaald. Of begrippen als ‘Holocaust’ en ‘Shoah’ in de vroege jaren zestig al in de wetenschappelijke literatuur al gangbaar waren, kun je natuurlijk eenvoudig checken via het register achterin het boek. Deze tool biedt een uitputtende woordenlijst met de frequentie van alle voorkomende woorden in de tekst. Ook daarin vind je genoemde woorden niet terug (volgens verwachting). Maar de lijst is vanzelfsprekend wel vollediger (en betrouwbaarder?) dan een register. Wie in dit boek op ‘bij’ zoekt, ziet in één oogopslag niet alleen dat dat woordje meer dan 1500 keer voortkomt, maar ook dat Presser 107 keer ‘bijzonder’ heeft gebruikt (plus 48 keer ‘bijzondere’), tien keer ‘rabbijn’ en 19 keer ‘opperrabbijn’, zeven keer ‘bijbel’, vier keer ‘verbijsterd’ en drie keer ‘verbijsterend’. Net zo eenvoudig kun je zien wáár de woorden in de lopende tekst voorkomen – en dus in welke context en betekenis ze worden aangewend.

Lees verder