[p. 23]

Woordarchief en bronnen voor een computergestuurd woordarchief van het hedendaags Nederlands P.G.J. van Sterkenburg

Samenvatting. - Na verklaring van de term ‘woordarchief’, wordt de traditionele Nederlandse situatie in dezen geschetst. In Woordarchief en automatisering wordt aandacht gevraagd voor de invloed van de computer op de Nederlandse lexicologie en worden de activiteiten in enkele Europese landen op het gebied van het computergestuurd woordarchief globaal belicht. Het artikel wordt besloten met een pleidooi voor het aanwenden van informatiedragers uit de grafische industrie als bronnen voor een woordarchief van het hedendaags Nederlands. (Schr.)

Inleiding

De term woordarchief bezorgt woordenaren vanzelfsprekend geen problemen, omdat het gebruik ervan tot hun dagelijkse jargon behoort. Niet iedere lezer zal zich evenwel onmiddellijk voor de geest kunnen halen wat nu onder woordarchief van de Nederlandse taal wordt verstaan, vandaar dat ik hier de omschrijving aanhaal zoals ik die formuleerde in de bundel De Nederlandse lexicologie tussen handwerk en machine.1 Onder een woordarchief kan men verstaan: 1. een verzameling woorden uit een corpus van geanalyseerde teksten, die al dan niet gelezen kunnen worden door de computer en die ter beschikking staan van alle linguïsten en van lexicografen in het bijzonder; 2. de bewaarplaats van dat corpus.

Traditioneel woordarchief

In Nederland, waar de negentiende-eeuwse filologie lexicografische kathedralen heeft opgericht, - men denke in dit verband maar eens aan het Middelnederlandsch Woordenboek (MNW) van Eelco Verwijs en Jacob Verdam en aan het Woordenboek der Nederlandsche Taal (WNT) van Matthijs de Vries - zou men een eerbiedwaardige traditie verwachten waar het om een woordarchief gaat. Hoe anders evenwel is de praktijk.

[p. 24]

Van een archief van het MNW is absoluut geen sprake. Alle bouwstenen van Verdam zijn na het drukken van de woordenboekafleveringen vernietigd. Het enige wat ons van een bestaand woordarchief van Middelnederlands rest, is het materiaal uit de vermaarde loketkast-Verdam. Men zie hiervoor F. de Tollenaere, Bouwstoffen voor een supplement op het Middelnederlandsch Woordenboek (MNW) (INL 4, 5-10 [1974]).

Een woordarchief van het WNT bestaat wel. Men dient evenwel te weten dat dit er eerst sedert 1958 is. Het is de grote verdienste van de vierde generatie redacteuren geweest, dat het in het WNT verwerkte materiaal sedert die tijd werd bewaard. Voordien werd al het citaten-materiaal, wanneer een aflevering gedrukt was, systematisch vernietigd. Het is niet verwonderlijk dat het WNT vergeleken werd met de Moloch die zijn eigen kinderen verslond.2 Het bescheiden WNT-archief dat er nu een vijftiental jaren is, bevat naast materiaal voor de nog te verwerken trajecten, ook informatie die niet in de reeds verschenen afleveringen gehonoreerd is. Ondanks deze wending ten goede, blijft het toch te betreuren dat de bouwstoffen van het WNT vanaf de letter A tot en met gedeelten van de R stelselmatig vernietigd zijn.

Kenmerkend voor het WNT-archief is naast de hierboven geschetste beperking dat het natuurlijk op de eerste plaats bestemd is voor het schrijven van woordenboeken en vervolgens dat het vrij statisch is, d.w.z. dat een citaat uitsluitend functioneert onder het trefwoord waar het is opgeslagen.

Woordarchief en automatisering

Voor de ontwikkeling van een woordarchief is de intrede van de automatisering in de linguïstiek van groot belang geweest.

Bernard Quemada, hoogleraar aan de universiteit van Besançon, hield in 1957 tijdens een colloquium over Franse en Romaanse lexicologie en lexicografie een referaat betreffende La technique des inventaires mécanographiques. Quemada bepleitte de wenselijkheid van een woordarchief dat ook voor niet-lexicografen bruikbaar zou zijn en dat tot stand zou moeten komen met inschakeling van mechanografische apparatuur. In hetzelfde jaar richtte Quemada te Besançon het Centre d'étude du vocabulaire français op, hetgeen hem de mogelijkheid bood een lexico-

[p. 25]

logische thesaurus van de volledige woordenschat van het Frans te ondersteunen. Quemada spreekt uitdrukkelijk van lexicologisch, ik herhaal het, om aan te geven dat het materiaal niet alleen voor lexicografen bestemd is.

Zoals zovele vertegenwoordigers van andere Europese lexicografische centra (ik noem slechts Dizionario storico della lingua italiana en Le trésor de la langue française, liet ook F. de Tollenaere, redacteur van het WNT, zich door het Straatsburgs colloquium en met name door Quemada inspireren.

In 1961 werd door de Stichting Studiecentrum voor Administratieve Automatisering in samenwerking met het WNT het colloquium Automatisering en Taalkunde te Amsterdam georganiseerd. De Tollenaere zelf hield daar een lezing onder de titel Automatisering in de lexicologie.3 Terwijl hij zich afvroeg of een Nederlands centrum voor lexicologie gewenst was, betoogde hij: ‘Naast hanteerbare woordenboeken van allerlei aard, geconcipieerd volgens de wetenschappelijke methoden van een bepaalde tijd, behoort een permanent woordarchief te staan waarin de woordenschat van een taal wordt ondergebracht. Deze thesaurus is principieel niet voor publikatie bestemd. Hij moet gebruikt kunnen worden, niet alleen als materiaalverzameling waaruit in de toekomst elk woordenboek van de taal, groot of klein, moet kunnen putten, doch bovendien als grondslag voor lexicologische studie in de ruimste zin van het woord. Zijn materiaal, dat gemakkelijk volgens allerlei criteria te rangschikken is, is niet alleen bestemd voor zuivere lexicografische doeleinden, doch evenzeer voor de studie van de semantiek en de vormleer. Dat het woordenboek dan secundair wordt ten opzichte van de mechanografische kaartverzameling, dat de thesaurus de voorrang krijgt op hét of dé woordenboeken, is dan geen nadeel; integendeel. Het woordenboek als thesaurus wordt geheel overbodig; het behoeft niet langer tevens als materiaalverzameling te fungeren en kan dus beknopter worden’.4

Voordat aan deze ideeën concrete vorm gegeven werd, verliepen nog enige jaren.

In 1964 was men in Edinburgh, o.l.v. A.J. Aitken en Paul Bratley begonnen aan An archive of older Scottish texts for scanning by com-

[p. 26]

puter.5 Aitken zou in 1971 hierover opmerken: ‘The real benefit of the computer (...) lies not so much in its direct contribution to dictionary-making as such, as in a by-product of this - the computer-readable textual archive’.6

In 1966 begon men in het kader van de werkzaamheden aan de Index Thomisticus (het eerste grote project - door de jezuïet Roberto Busa, een van de twee patronen van het Leidse INL, in 1949 te Gallarate in Italië gestart - waarin van geautomatiseerde lexicografie sprake is) en van het Dizionario Storico della Lingua Italiana van de Accademia della Crusca te Florence, gebruik te maken van de diensten van het Centro Nazionale Universitario di Calcolo Elettronico (CNUCE) van de universiteit te Pisa.7 In 1968 kreeg de CNUCE een eigen linguïstische sectie. Vanaf die tijd worden diensten verleend aan zowel lexicografen als niet-lexicografen.

Aan de universiteit van Götenborg, Department of Computational Linguistics, worden o.l.v. professor Sture Allén sedert 1966 teksten verwerkt die door de computer gelezen kunnen worden, ten behoeve van een logotheek, die bestaat uit een archief van teksten en een woordarchief.

Wij schrijven 1969 wanneer het bestuur van de Stichting Instituut voor Nederlandse Lexicologie (INL) geïnstalleerd wordt. De pioniersarbeid van De Tollenaere was niet voor niets geweest. De taak die het Nederlandse instituut werd opgelegd, formuleerde men aldus: ‘1. het bijeenbrengen van een zo volledig mogelijke verzameling van gekontexteerd woordmateriaal op het gebied van de Nederlandse taal (Thesaurus); 2. het maken van woordenboeken op grond van dit materiaal’.8

Het sein voor een woordarchief van het Nederlands stond op veilig.

Met voortvarendheid begon één van de twee afdelingen van het INL, te weten de lexicologische afdeling Thesaurus, het Vroegmiddelnederlands materiaal dat door Maurits Gysseling was verzameld met het oog

[p. 27]

op de uitgave van zijn Corpus van Middelnederlandse teksten,9 voor verwerking met de computer te bewerken. Het is van meet af aan de bedoeling geweest om het project zo te automatiseren dat de informatiedragers (in dit geval magneet- en ponsbanden) voor een drieledig doel gebruikt kunnen worden: 1. drukken met behulp van fotografisch zetsel dat via een door de computergestuurde zetmachine tot stand gekomen is; 2. het vervaardigen van indices; 3. het vervaardigen van contextkaarten. Gezien dit laatste is er dus voortdurend aan de bouwstenen van het woordarchief gedacht. Te gelegener tijd zal van de magneetbanden, die vol staan met allerlei zetcodes, een schone band van uitsluitend de Middelnederlandse teksten geleverd moeten worden op grond waarvan automatisch contextkaarten uitgevoerd zullen worden.10

Wanneer medio 1976 het materiaal van Gysseling in de reeks Bouwstoffen voor een woordarchief van de Nederlandse taal in negen kloeke delen zal verschijnen, is de experimenteerfase voor de Thesaurus zo goed als voltooid en kan een begin worden gemaakt met de evaluatie van het projekt en het materiaal. Het woordarchief wachten dan nieuwe taken.

Van de automatisering mag men met het oog op de vorming van een archief van de Nederlandse taal zeer veel verwachten. Men mag evenwel niet uit het oog verliezen dat de computer alleen op een voortreffelijke wijze koeliewerk kan verrichten, op voorwaarde dat wij hem goed instrueren. Is aan deze voorwaarde eenmaal voldaan, dan kan hij inderdaad onvoorstelbare hoeveelheden materiaal snel verwerken. Voor het evenwel zover is, is menselijke tussenkomst onvermijdelijk. Immers, als wij teksten mechanisch willen verwerken zodanig dat zij voor iedere onderzoeker ongeacht zijn specialisme van nut kunnen zijn, dan moeten die teksten op een uniforme wijze voorbewerkt worden, moeten bijv. codes aangebracht worden, moet er m.a.w. geformaliseerd worden.11 Wanneer er in verband met computergebruik sprake is van de indrukwekkende snelheid van het rekentuig, dient men er zich terdege van bewust te zijn dat de hele voorbereidende fase van analyse, codering,

[p. 28]

verponsen van de teksten op informatiedragers en de correctie daarop, kostbare en langdurige fasen zijn. Hier nu signaleren we de bottleneck van het woordarchief. Wij hebben de technische middelen, de programmatuur en de te verwerken teksten, maar de verwerkingsfase treedt eerst in na de tijdrovende voorbereidingsfase. Het overbrengen van door linguïsten uitgekozen teksten op materiaal dat de computer kan verwerken, is de belemmerende factor in het proces dat uiteindelijk moet leiden tot de verantwoorde en evenwichtige uitbouw van een woordarchief van de ‘volledige’ Nederlandse woordenschat.

Is er van de zijde der techniek geen oplossing van dit probleem te verwachten? Ongetwijfeld, maar vooralsnog zijn de methoden van het optisch lezen nog niet bruikbaar voor linguïstische doeleinden en ook het experiment om via electrostatische weg informatie op magneetband op te slaan is nog niet veel verder dan een futurologische verwachting.

Toch zijn er momenteel kanalen die de ponsfase in de ontwikkelingsgang naar een woordarchief overbodig maken of tot een minimum beperken.

Bronnen voor een computergestuurd woordarchief

In steeds sterker toenemende mate gaat de grafische industrie in ons taalgebied over van loonzetten op computergestuurd fotografisch zetten, d.w.z. dat het manuscript van een te drukken boek op informatiedragers is overgebracht (meestal verponst) en de tekst daarvan, na enige mechanische processen, zichtbaar gemaakt wordt op een beeldscherm en vervolgens gefotografeerd en geschikt gemaakt voor offset.12

De ervaringen die ik zelf met deze methode van zetselvervaardiging opdeed, deden mij de volgende stelling bij mijn proefschrift formuleren: ‘De informatiedragers die in de grafische industrie dienen ter vervaardiging van beelddragers, zijn van groot belang voor een archief van de Nederlandse woordenschat’.13

Wanneer men zich realiseert dat alle landelijke dag- en weekbladen, complete encyclopedieën, commerciële woordenboeken, allerlei soort belletrie en noem maar op wat al niet, gedrukt wordt met behulp van informatiedragers die de computer kan verwerken, dan is de vraag-

[p. 29]

stelling: waarom zouden wij lexicologen dan alle basismateriaal voor een woordarchief zelf gaan verponsen! Waarom zouden wij niet alles in het werk stellen om die belangrijke informatiedragers, die in de grafische industrie na gebruik slechts het lot der vernietiging wachten, ter beschikking te krijgen om ze door middel van een programma dat verwerking van het ene computersysteem naar het andere mogelijk maakt, aan te passen of geschikt te maken voor lexicologische doeleinden. De kostbare pons- en correctiefase zouden mogelijk (geheel) overgeslagen kunnen worden, hoewel men zich dient te realiseren dat de laatste correcties van het zetwerk tegenwoordig bijna nooit via het zetsysteem worden verwerkt, waardoor deze bestanden dus meestal nog fouten bevatten.

De informatiedragers van de loonzetterijen hebben verreweg het meeste rendement voor een archief van het hedendaagse Nederlands. Stellen wij het inventariseren van dat Nederlands uit, dan moeten wij wel bedenken dat uitstel eigenlijk met evenzoveel woorden synoniem is met vernietiging. Wij zagen immers dat de loonzetterij de informatiedrager na gebruik niet opslaat (wegens te hoge kosten), maar vernietigt. Vanuit lexicografisch standpunt kan men bovendien opmerken dat de Nederlandse lexicografie al sedert de tweede generatie van het WNT de indruk wekt per definitie historisch te zijn. Al is hier gelukkig sprake van slechts een indruk, onomstotelijk staat vast dat de eigentijdse taal geïnventariseerd en beschreven moet worden volgens de eisen en verlangens van de huidige linguïstiek. Van Dale's Groot Woordenboek der Nederlandse Taal is - en niemand zal daar iets op af willen dingen - de primus inter pares, maar het is en blijft een handwoordenboek dat nog steeds voor het grootste gedeelte is gebaseerd op het negentiende-eeuwse WNT.

Een entente cordiale tussen de Leidse Thesaurus en die instanties die zich met computergestuurd zetten bezighouden, is op korte termijn uiterst gewenst, om te onderzoeken hoe een samenwerking van twee zo verschillende belangengroepen tot stand kan komen. Het INL kan vooral op dit terrein de door mij elders beschreven coördinerende en dienst-verlenende taak voor de hele Neerlandistiek aantonen. Immers, wanneer het door mij voorgestane woordarchief eigentijds materiaal bevat dat ook voor niet-lexicografen toegankelijk is, dan betekent dat dat projecten als syntaxis van het Nederlands (Amsterdam-Nijmegen), morfologie van het Nederlands (Groningen), Een Nederlands Idiomicon (Groningen), de Algemene Nederlandse Spraakkunst (ANS, Amsterdam) enz. met

[p. 30]

vrucht een beroep kunnen doen op het woordarchief in Leiden, dat i.t.t. het traditionele archief potentieel uitputtend en uniform is en bovendien toegang tot alle voorbeelden geeft.14

Om het jonge computergestuurde woordarchief niet hals over kop in een keihard onderhandelingsavontuur te storten met commerciële loonzetterijen, waarvan sommige een dochteronderneming zijn van een multinational, vraag ik mij op deze plaats af: ‘Kan een woordarchief van het hedendaags Nederlands niet allereerst profiteren van een vestzakbroekzak-politiek van de Nederlandse regering?’ Dit zou in de praktijk bij voorbeeld kunnen betekenen dat in principe alle informatiedragers die in de Staatsdrukkerij fungeren ter vervaardiging van zetsel, op bepaalde voorwaarden door het INL gebruikt mogen worden voor een woordarchief. Dat dit materiaal buitengewoon belangrijk kan zijn voor zo'n woordarchief mede vanwege de spreektaal (men denke aan de Kamerverslagen) die daar ook verwerkt wordt, zal door geen linguïst betwijfeld worden.

Het zou na dit signalement van weinig werkelijkheidszin getuigen, de welwillende medewerking van buitenstaanders aan een woordarchief van het Nederlands te gaan zitten afwachten. Waar wij geconstateerd hebben dat een omvangrijke hoeveelheid materiaal voor zo'n woordarchief, met name van het hedendaags Nederlands direct, zij het misschien onbewust, beheerd wordt door de minister van Binnenlandse Zaken, verdient het aanbeveling er bij deze bewindsman op aan te dringen dat vernietiging van genoemde informatiedragers binnen het onder zijn verantwoordelijkheid vallende bedrijf, ten faveure van het computergestuurde woordarchief van de Nederlandse taal wordt vermeden.

 

Leiden, oktober 1975