From keyword searching to concept mining

keyword10Historical newspapers have traditionally been popular sources to study public mentalities and collective cultures within historical scholarship. At the same time, they have been known as notoriously time-consuming and complex to analyze. The recent digitization of newspapers and the use of computers to gain access to the growing mass of digital corpora of historical news media are altering the historian’s heuristic process in fundamental ways.

The large digitization project the Dutch National Library currently runs can illustrate this. Until now, the KB has made publicly available over 80 million historical newspaper articles from the last four centuries. Researchers (as well as the wider public) are able to do full-text searches in the entire repository of articles through the KB's own online search interface Delpher . Instead of manually skimming through a selected numbers of editions or volumes this functionality allows for the searching of particular (strings of) keywords within the entire corpus. As basic as it may seem, full-text searching completely overturns the way in which historians are used to approach newspapers. Instead of the successive top-down selections historians traditionally made in order to gradually isolate potentially interesting material, keyword searching treats the corpus as a singular bag of words and, therefore, enables researchers to immediately dive into the texts that meet their search criteria.

OCR’ing and analysing comic books – a workflow report

spidermanI like experimenting with text analysis tools like Voyant. However, most tools for corpus linguistics don’t account for historical change – which I am, as a historian, mostly interested in. Historians working with tools like these have to think of ways themselves to add a time scale to their analyses. The most straightforward way to do so is by arranging a corpus in a chronological order. Highly interesting, for example, is to study linguistic changes in successive volumes of newspapers or periodicals, as I do in my academic research.

Really just as an experiment, I've also tried analyzing volumes of comic books. I happen to possess some digital comic book archives, they have a nice chronological order, and they are quite under-studied as historical sources for changes in (popular) culture. As turning digital comic books (in cbr format) into analyzable text files took more effort than I realized, what follows is the workflow I constructed. I don't know whether it's the optimal way of doing so, but as someone who is new to bash commands, OCR'ing, and the combination of both, I had a lot of fun figuring this out. No, it's probably a long way from being optimal. More like quick-and-dirty, although it isn't quick either (depending on the volume of your dataset). But it does requires hardly any action, so for all its downsides it really is a fun way of experimenting with the (historical) text analysis of some original data.

KB-onderzoek: De taal van het Taylorisme

Van februari tot en met juli 2015 ben ik Onderzoeker te Gast bij de onderzoeksafdeling van de Koninklijke Bibliotheek in Den Haag. Ik ben van plan mijn tijd hier te gebruiken om te werken aan een veelvoorkomend probleem bij digitaal historisch onderzoek: de vertaalslag van een geschiedwetenschappelijk probleem naar de woorden die zoekprogramma's en andere tools begrijpen. Dat doe ik aan de hand van een casus uit mijn eigen onderzoek, 'de taal van het Taylorisme'.

The Humanities and Technology in Utrecht

Samen met Ilja Nieuwland (Huygens-ING Den Haag), Arjan van Hessen (CLARIAH) en mijn Utrechtse collega Melvin Wevers organiseer ik in januari 2015 een THATCamp in Utrecht. Hieronder de aankondigingstekst:

Er komt weer een THATCAMP,  dit keer georganiseerd in Utrecht. Het is een 2-daagse bijeenkomst waar aan alle geesteswetenschappers in Nederland de gelegenheid wordt geboden om met dataproviders, IT'ers en elkaar ervaringen en/of vragen te delen rondom het gebruik van digitale middelen in onderzoek en/of onderwijs. Volgens de 'regels' van het THATCamp wordt het tweedaags programma op 28 en 29 januari 2015 grotendeels door de deelnemers zelf vastgesteld.

Ruis in big data

Screen Shot 2014-03-25 at 14.38.15Een verstandige stap van de ING vorige week: de bank laat zijn proefballon voortijds leeglopen en gaat voorlopig niet proberen de ‘big data’ die haar klantgegevens vormen voorlopig niet proberen te gelde te maken. Dat is heel verstandig van de bank en het biedt de gelegenheid eerst eens even stil te staan met de – niet geringe – consequenties van het big data-denken dat overal om ons heen postvat. En niet alleen in het bonuskaartensysteem van het bedrijfsleven. Big data zijn ook de miljoenen telefoongesprekken die de Nederlandse inlichtingendiensten MIVD en AIVD maandelijks al dan niet legaal afvangen.

Wat is big data? Stel dat iemand  met griep naar zijn huisarts gaat. Als diegene influenza had, is dat gegeven samen met alle andere griepgevallen in Europa bij de Wereldgezondheidsorganisatie beland. Die houdt zo al decennia de verspreiding bij van het influenza-virus in Europa. Door met die data grafieken en kaarten te maken, worden patronen zichtbaar die waardevolle inzichten geven over de terugkerende risicoperiode’s en -gebieden voor griep. Het perspectief van de grieperige patiënt tegenover dat van de WHO is het verschil tussen ‘small data’ en ‘big data’.

Doorgaan met het lezen van “Ruis in big data”

Digital Humanities like The Secret of Monkey Island™

Cableway to Hook IsleIn their excellent chapter on the use of digital data in historical research, Frederick W. Gibbs and Trevor J. Owens distinguish between two DH approaches to data. ‘Data’, they argue, ‘does not always have to be used as evidence. It can also help with discovering and framing research questions’. On the one hand, you have ‘complex statistical methods’ and ‘rigorous mathematics’ (or ‘mathematical rigor’) to ‘support epistemological claims’. Gibbs and Owens equal this type of DH research to the wave of quantitative history in the 1960s and 1970s, using data ‘for quantifying, computing and creating knowledge’.

On the other, there is a ‘fundamentally different’ form of using data – a form that is exploratory instead of analytic and deliberately without the mathematical complexity that is needed to derive evidence from quantitative analyses. Above all, it’s a form of data manipulation that can be playful (although the authors removed the adjective at one of the places it appeared in their text). Gibbs and Owens state that ‘playing with data – in all its formats and forms – is more important than ever.
Doorgaan met het lezen van “Digital Humanities like The Secret of Monkey Island™”

Digital Newspapers as a source for (digital) history

slide pptLast week, I gave a talk at the Europeana Newspapers Information Day at the Staatsbibliothek Berlin on the use of digitised historical newspapers in our Translantis project. I gave an impression of the tools and functionalities we are experimenting with and the challenges – in terms of source criticism and interpretation – that come along with this fairly new type of historical research.

These are exciting times for historians. Both the quantity of historical source material getting digitized in an ever-growing pace, as the development of tools and techniques for grasping this data will have an irreversible impact on the way historical research is done. All the more essential is the realization that digital methods are there to assist and not to replace the historian. They can never make up for the need for the ‘old-fashioned’ historical analysis and narrative.

Doorgaan met het lezen van “Digital Newspapers as a source for (digital) history”

Before your do digital history…

Histogram and word cloud 'Eugenetica'This blog post is the adapted conclusion from the paper ‘A Digital Humanities Approach to the History of Science.
Eugenics revisited in hidden debates by means of semantic text mining’ I wrote in collaboration with Fons Laan, Maarten de Rijke and Toine Pieters. The article was based on the research I did within the historical text mining project BILAND, as well as its predecessor WAHSP. The article is in press as part of the Proceedings of the 1st International Workshop on Histoinformatics

In a recent blog post called 'The Deceptions of Data', Andrew Prescott has criticized the jubilation of the 'digital revolution'. He states that "One of the problems confronting data enthusiasts in the humanities is that we feel a need to convince our more old fashioned colleagues about what can be done. But our role as advocates of digitized data shouldn't mean that we lose our critical sense as scholars. [. . . ] [T]here is a risk that we look more carefully at the technical components of the datasets than the historical context of the information that they represent."

Digital Humanities: wat is dat?

Begin september 2012 organiseerde het Humanities Research Institute van de Universiteit van Sheffield een Digital Humanities-congres. Als één ding duidelijk was geworden na drie dagen vol presentaties, was dat het begrip Digital Humanities (DH) zoveel verschillende betekenissen heeft als er mensen zijn die zich ermee bezighouden. Ik ken inmiddels geen geesteswetenschapper meer zonder computer, dus in zoverre is elke alfa op de universiteit een DH’er. Doorgaans wordt DH specifieker gebruikt voor een keten van technologieën: voor het achtereenvolgens digitaliseren, ontsluiten, analyseren en presenteren (visualiseren) van informatie. Maar dan nog blijven vragen staan, die tot veel discussie blijken te kunnen leiden: is DH een zelfstandige discipline of een ‘gedeelde interesse’? Ligt het zwaartepunt bij het digitaliseren van informatie (de input) of bij het visualiseren van resultaten (output)? Is DH een modieus hulpmiddel voor wetenschappelijk onderzoek of de onontkoombare toekomst voor ons cultureel erfgoed?

De organisatoren van #DHCShef maken op hun website zelf de tweedeling als ze schrijven dat ze DH beschouwen als ‘the use of technology within arts, heritage and humanities research as both a method of inquiry and a means of dissemination’. Deze ambivalentie kwam terug in de presentaties. Grofweg de helft van de praatjes ging in op het gebruik van digitale methoden voor wetenschappelijk onderzoek. Daartoe reken ik ook mijn presentatie van Biland en dat van bijvoorbeeld Hinke Piersma, die haar project War in Parliament uit de tweede Clarin Call voorstelde. Maar terwijl deze categorie praatjes inhoudelijk (en helaas ook qua kwaliteit) al als dag en nacht konden verschillen, deed de andere helft van de sprekers een poging op de digital humanities te reflecteren. Er waren er bij die de geschiedenis van de DH wilden schrijven, die de verschillen tussen DH in verschillende landen bestudeerden of die de impact van DH wilden meten of vergezichten lieten zien van wetenschap in het ‘digitale tijdperk’. En telkens stuitten deze sprekers op hetzelfde probleem: wat verbindt de digital humanities nu eigenlijk?

Doorgaan met het lezen van “Digital Humanities: wat is dat?”

Superhelden en het debat rond human enhancement

spiderman_dnaComics vormen net als andere vormen van populaire cultuur zo’n mooi object van historisch onderzoek. Ze weerspiegelen de hoop en de angsten van culturen, geven inzicht in historische mentaliteiten en zijn bovenal altijd zo prachtig tijdgebonden. Comics geven kortom veel prijs over de sociaal-culturele en politieke context waarbinnen ze verschijnen. Het is niet voor niets dat veel superhelden-verhalen verwijzen naar de Tweede Wereldoorlog of de Koude Oorlog. Juist van superhelden-comics valt daarom veel te leren over de wetenschappelijke preoccupaties van de tijd waarin ze verschijnen. Peter Parker die in de jaren zestig veranderde in Spiderman vanwege een beet door een radioactief bestraalde spin. Bruce Banner muteerde in hetzelfde decennium tot de Hulk na een ongelukje met de gamma-kernbom die hij zelf ontwikkelde. Ze passen prachtig in de Koude Oorlog-angst voor kernrampen. De X-Men stammen ook uit de jaren zestig, maar hebben – voor zover mijn kennis reikt – niets met kernwapens van doen. Wel veel met racisme, discriminatie en uitsluiting (en een aantal expliciete verwijzingen naar de Holocaust). De mutaties van de, eh, mutants komen volgens mij gewoon voort uit genetische variaties.

Doorgaan met het lezen van “Superhelden en het debat rond human enhancement”