Colloquium Neerlandicum 14 (2000)

(2001)– [tijdschrift] Handelingen Colloquium Neerlandicum– rechtenstatus

Perspectieven voor de internationale neerlandistiek in de 21ste eeuw. Handelingen Veertiende Colloquium Neerlandicum

Corpusonderzoek en contrastieve taalkunde: mogelijkheden en perspectieven
Matthias Hüning (Wenen)

1. Inleiding

Er is tegenwoordig meer belangstelling voor tekstcorpora dan ooit. Dat heeft uiteraard te maken met de toenemende technische mogelijkheden, maar vooral ook met een groeiende belangstelling binnen de taalkunde voor het taalgebruik.

Voor de contrastieve taalkunde geldt altijd al dat ze in eerste instantie taalgebruikskunde is en moet zijn. Toch is het opvallend dat er in contrastieve studies maar betrekkelijk weinig gebruik wordt gemaakt van corpora. Vaak berusten ze op bestaande grammatica's en woordenboeken, een min of meer toevallig tot stand gekomen verzameling van gebruiksgevallen (bijvoorbeeld in de vorm van krantenknipsels) en intuïtie (de eigen en/of die van anderen). Daar is natuurlijk ook niets op tegen, maar volgens mij zou het onderzoek gebaat zijn bij een consequentere toepassing van de bestaande technische mogelijkheden.

De mogelijkheden tot taalgebruiksonderzoek zijn vandaag de dag groter dan ooit tevoren. Er staan tal van grote corpora ter beschikking, en het grootste corpus van allemaal, het internet, is voor iedereen makkelijk (en vrij) toegankelijk. Ik zal in deze bijdrage een overzicht geven van de bestaande mogelijkheden en perspectieven laten zien die meertalige corpora kunnen bieden voor de contrastieve taalkunde.Ga naar voetnoot1

2. Types corpora

Een corpus kan men omschrijven als ‘a body of texts put together in a principled way and prepared for computer processing’ (Johansson, 1998:3). Dit ‘put together in a principled way’ houdt in dat teksten geselecteerd zijn voor opname in een corpus met het oog op de functie van het corpus voor bijvoorbeeld bepaalde soorten van taalkundig onderzoek. (Heel simpel: als je onderzoek wilt doen naar mondeling taalgebruik, moet je geen corpus van ambtelijke brieven samenstellen.)

Er zijn verschillende types corpora. Principiële onderscheidingen zijn die tussen één- en meertalige corpora en die tussen geannoteerde en niet-geannoteerde corpora. Annotatie houdt in dat de teksten bewerkt zijn en voorzien van taalkundige informatie (bijvoorbeeld met betrekking tot de woordsoort of de syntactische functie). Dit gebeurt over het algemeen deels automatisch met behulp van zogenaamde ‘parsers’ en ‘taggers’ en deels handmatig. Voor contrastief onderzoek zijn vooral de meertalige corpora interessant. Specifiek voor dit soort onderzoek samengestelde corpora zijn meestal corpora van vergelijkbare teksten (bijvoorbeeld qua genre of onderwerp) of vertaalcorpora, waar origineel en vertaling aan elkaar gekoppeld zijn.

3. Eentalige corpora

Zowel voor het Nederlands als voor het Duits lopen er momenteel projecten met als doel grote tekstcorpora op te bouwen. De bekendste (en grootste) projecten zijn gehuisvest op het Instituut voor Nederlandse Lexicologie in Leiden en het Institut für Deutsche Sprache in Mannheim. Daarnaast is er in 1998 een belangrijk project voor het Nederlands van start gegaan: het CGN (Corpus Gesproken Nederlands), een corpus van mondeling taalgebruik dus.Ga naar voetnoot2

3.1. Instituut voor Nederlandse Lexicologie, Leiden

Bij het Instituut voor Nederlandse Lexicologie (INL) in Leiden wordt gewerkt aan de opbouw van een aantal tekstcorpora voor taalkundig onderzoek. Voor het Vroegmiddelnederlands is er een databestand dat bestaat uit het Corpus Gysseling , aangevuld met het Glossarium Bernense en een aantal andere 13de-eeuwse teksten. Voor het hedendaags Nederlands staan vier corpora ter beschikking, waarvan de Taaldatabank Hedendaags Nederlands het oudste en omvangrijkste is. Het bevat ‘ca. 1600 teksten (boeken) met in totaal ca. 50 miljoen woorden (beter: woordvormen of ‘tokens’, waarvan ca. 700.000 van elkaar verschillende woordvormen, zogeheten ‘types’). Op enkele uitzonderingen na dateren de teksten uit de periode 1970-1990.’ (Kruyt, 1995:51/2). Over de samenstelling van het vijf miljoen woorden corpus 1994 kan men op het introductiescherm lezen: ‘The texts are derived from books, magazines, newspapers and TV broadcasts, and cover several topics such as journalism, politics, environment, linguistics, leisure and business & employment.’ Het 27 miljoen woorden krantencorpus 1995 bevat het NRC Handelsblad van 1 januari 1994 tot en met 30 april 1995. Ten slotte bestaat het 38 miljoen woorden corpus 1996 uit een gevarieerd samengestelde component (1970-1995), een component krantentekst ( Meppeler Courant , 1992-1995) en een juridische component (1814-1989).

Alle INL-corpora zijn in principe on line raadpleegbaar met behulp van speciale, door het INL ontwikkelde, ‘retrieval software’.Ga naar voetnoot3 Ze zijn geannoteerd, waardoor het met behulp van deze software mogelijk is om niet alleen op woordvormen, maar bijvoorbeeld ook op lemma te zoeken. Truncatie is uiteraard mogelijk: ‘*(a|e)rij’ vindt alle lemma's met ‘-arij’ of ‘-erij’ (dus niet alleen de grondvorm, maar ook meervouds- en diminutiefvormen).Ga naar voetnoot4

Het formuleren van zoekopdrachten voor lexicologisch onderzoek is makkelijk en effectief, maar daarnaast zijn er veel meer mogelijkheden, waarmee onder andere ook kan worden gezocht naar syntactische patronen. Dit vergt echter enige bereidheid om zich in te werken in de INL-software.

3.2. Institut für Deutsche Sprache, Mannheim

Bij het Institut für Deutsche Sprache (IDS) in Mannheim wordt al jaren gewerkt aan een representatief corpus voor het Duits. Dit heeft geleid tot COSMAS (Corpus Storage, Maintenance and Access System). COSMAS biedt toegang tot tal van subcorpora, vooral teksten uit kranten en tijdschriften, maar ook bijvoorbeeld diverse teksten zoals die van Goethe, Marx en Engels en sprookjes van de gebroeders Grimm. Bovendien is er een (klein) subcorpus met gesproken taal. In totaal gaat het om meer dan 778 miljoen woorden. COSMAS beschikt over een zeer gebruikers-vriendelijke webinterface, waarmee iedereen anoniem (dus zonder voorafgaande aanmelding of registratie) gebruik kan maken van de corpora.Ga naar voetnoot5 Om copyrightredenen staat op deze manier echter maar ongeveer de helft van de teksten ter beschikking. In COSMAS kan men uiteraard zoeken op woordvorm en op delen daarvan: ‘*erei’ vindt alle woorden van het type ‘Abkassiererei’ (maar ook bijvoorbeeld ‘Osterei’) en met ‘zer*’ vindt men de afleidingen met dit prefix. Maar omdat de teksten geannoteerd zijn, kan COSMAS bijvoorbeeld alle vormen van ‘schreiben’, inclusief afleidingen en samenstellingen vinden. Op deze manier vindt men naast ‘geschrieben’ ook de ‘Drehbuchschreiber’ enz. Ook syntactische patronen zijn zoekbaar: met een zoekopdracht als ‘(&Sache oder &Problem) /sO (lange Bank &schieben)’ vindt men bijvoorbeeld zowel ‘Die Sache wurde auf die lange Bank geschoben’ alsook ‘Er schiebt das Problem mal wieder auf die lange Bank’.

3.3. Het nut van eentalige corpora voor contrastief onderzoek

Het bovenstaande maakt naar ik hoop duidelijk hoe dergelijke corpora kunnen worden gebruikt. Ook met betrekking tot contrastief onderzoek ligt het voor de hand om deze mogelijkheden te benutten. Twee voorbeeldjes:

(a)

Als men onderzoek doet naar de verspreiding van ‘euro-’ of ‘cyber-’ als woordvormingselement kan men met behulp van de genoemde corpora betrekkelijk makkelijk een overzicht krijgen van de woorden die in het Nederlands en in het Duits worden gebruikt met dit element. En op basis daarvan kan men onderzoeken hoe de systematiek achter deze vormen eruitziet.

(b)

Voor onderzoek naar het gebruik van partikels zijn corpora zeer geschikt. Men vindt heel makkelijk honderden voorbeelden van concreet taalgebruik op basis waarvan men de gebruiksmogelijkheden kan bestuderen. Partikelcombinaties hebben vaak een vaste volgorde (wel ‘gewoon maar eens even’ en ‘maar gewoon eens even’ maar niet ‘even gewoon eens maar’). Dergelijke collocaties kunnen met behulp van corpora makkelijk worden gevonden en geanalyseerd.

De besproken corpora hebben betrekking op het Nederlands en het Duits, maar ook voor veel andere talen zijn er grote tekstcorpora, die voor vergelijkend onderzoek van waarde kunnen zijn. Op de Korpuslingiustikseite (Tübingen) en op de webpagina van Michael Barlow vindt men tal van verwijzingen naar deze corpora.Ga naar voetnoot6

4. Het www als corpus

Van Oostendorp en Van der Wouden (1998) pleitten er al voor het internet als corpus te betrekken bij taalkundig onderzoek. Ik beperk me hier tot twee uitgewerkte voorbeelden van hoe dat kan.

Een zoektocht naar informatie op het www begint over het algemeen bij één van de zoekmachines als AltaVista <http://www.altavista.com> of Google <http://www.google.com>. Het ligt dus voor de hand om deze ook als uitgangspunt te nemen voor het verzamelen van materiaal voor taalkundige doeleinden. Zoekmachines zijn niet geconcipieerd als taalkundige instrumenten, ze indexeren alleen ‘strings’, zonder deze te voorzien van taalkundig relevante informatie. Dat betekent dat men alleen kan zoeken op woordvormen, zoals die voorkomen op webpagina's; en het resultaat is een lijst met verwijzingen naar die pagina's. Goede zoekmachines bieden daarnaast echter ook de mogelijkheid om het zoekterrein te beperken tot pagina's in een bepaalde taal en dat maakt ze tot een geschikt middel voor veel onderzoek, vooral op lexicologisch gebied.

Als men bijvoorbeeld de integratie van leenwoorden in de woordenschat van het Duits en het Nederlands wil vergelijken, is één parameter zeker de vorming van diminutieven. Zoals bekend zijn de principiële mogelijkheden daartoe er in beide talen, alleen kent het Nederlands in pragmatisch opzicht veel meer toepassingsmogelijkheden. De www-gegevens maken duidelijk dat deze algemene trend in extreme mate terug te vinden is.

(1) Frequentie diminutief bij leenwoordenGa naar voetnoot7

	Frequentie Duitse vormen				Frequentie Nederlandse vormen
Lemma: Dt. / Nl.	ongeleed	-chen	-lein	% dim.	ongeleed	-(t/p)je	-(t/p)jes	% dim.
Computer / computer	308.000	27	6	0,01	78.700	590	127	0,90
Browser / browser	415.000	0	2	0,00	95.100	51	5	0,06
Modem / modem	84.500	1	0	0,00	39.000	167	13	0,46
Download / download	233.000	0	0	0,00	52.900	5	3	0,02
Fax / fax	624.000	0	0	0,00	133.000	130	11	0,11
Scanner / scanner	63.100	0	0	0,00	11.300	68	0	0,60

Een ander aspect met betrekking tot de integratie van leenwoorden is de vervoeging van werkwoorden. Concreet: hoe wordt het voltooid deelwoord gevormd?

(2) Voltooid deelwoord van ‘downloaden’Ga naar voetnoot8

	Duits		Nederlands
woordvorm	frequentie	%	frequentie	%
downloaden	103.000	97,74	77.000	89,11
gedownload	20	0,02	9.170	10,61
gedownloaded	492	0,47	153	0,18
downgeloaded	1.850	1,76	3	0,00
downgeload	3	0,00	76	0,09
down geloaded	19	0,02	0	0,00
down geload	0	0,00	11	0,01
TOTAAL	105.384	100,00	86.413	100,00

In beide talen is er sprake van een zekere variatie, waarbij in het Nederlands de keuze vrij eenduidig lijkt: het deelwoord is ‘gedownload’. Hierbij moet worden opgemerkt dat het Duits een frequent voorkomende vertaling van ‘downloaden’ kent: ‘(her)runterladen’ En Google vindt dan ook 6.610 pagina's met ‘runtergeladen’ (en 29.900 met de infinitief ‘runterladen’).

Het interessante van deze vormvariatie is dat men als het ware ‘systemen-in-wording’ kan observeren. Er heerst kennelijk onzekerheid over de vorm van het voltooid deelwoord en men ziet dus een grote variatie. Maar er zijn ook duidelijke voorkeuren voor bepaalde vormen die uiteindelijk waarschijnlijk de standaardvormen zullen worden.

Deze voorbeelden laten zien dat zoekmachines zeer geschikt zijn voor vergelijkend onderzoek naar frequentiegegevens van bepaalde woordvormen. Het nadeel ervan is dat kwalitatief onderzoek naar bepaalde taalverschijnselen zeer moeizaam is. Om de context van een bepaalde vorm te zien, moet men de gevonden links op de resultaatpagina van een zoekmachine stuk voor stuk aanklikken en vervolgens op de desbetreffende pagina weer zoeken.

Wat ontbreekt, zijn dus handige hulpmiddelen om dit zoekproces te vergemakkelijken. Webpagina's moeten makkelijker toegankelijk kunnen worden gemaakt voor taalkundig onderzoek. Daarom heb ik een programmaatje ontworpen dat een en ander automatiseert. Het maakt deel uit van TextSTAT, een experimentele verzameling van software tools waaraan ik op dit moment werk.Ga naar voetnoot9 Men tikt een zoekterm (of meerdere zoektermen) in, het programma geeft deze door aan een zoekmachine (op dit moment is dat Google) en leest de resultaten die deze zoekmachine levert. De door de zoekmachine gevonden pagina's worden vervolgens automatisch naar de eigen pc gedownload en opgeslagen in een tekstbestand. Daarbij kunnen alle HTML-tags worden verwijderd, zodat men alleen platte tekst overhoudt. Het aantal pagina's dat wordt opgeslagen kan men zelf bepalen. Op deze manier creëert men dus een corpusje van teksten waarvan men al weet dat ze waarschijnlijk relevant zullen zijn met het oog op een bepaalde onderzoeksvraag.

Het resultaat kan men vervolgens verder bewerken. Daarvoor kan men gebruik maken van één van de bekende concordantieprogramma's (zoals Concordance, MonoConc of WordSmith)Ga naar voetnoot10 die onder andere de bekende KWIC-concordanties (KeyWord In Context) genereren. De volgende screenshot laat zo'n KWIC-lijst zien op basis van een tekstbestand van webpagina's dat op de zojuist beschreven manier verkregen is.

(4) KWIC-concordantie op basis van webpagina's

Het is duidelijk dat dergelijke analysemogelijkheden veel voordelen bieden voor kwalitatief onderzoek naar onder andere syntactische en semantische verschijnselen. En mocht de geboden context niet voldoende zijn voor een analyse, dan opent een dubbele klik op een regel het ‘Zitat’- venstertje, waar meer context wordt aangeboden.

5. Parallelle corpora

Eéntalige corpora zijn voor contrastief onderzoek wel bruikbaar, maar ze zijn daar niet in eerste instantie voor bedoeld. Met het gebruik van internet komen we echter al in de buurt van de zogenaamde ‘parallelle corpora’. Dit is de vaak gebruikte overkoepelende term voor bi- of

multilinguale corpora voor ‘cross-linguistic research’ (vgl. voor de terminologie ook Johansson, 1998, vooral noot 2). Men kan het internet immers beschouwen als één gigantisch multilinguaal corpus, dat met behulp van zoekmachines en andere software toegankelijk kan worden gemaakt voor taalkundig onderzoek.

Parallelle corpora in engere zin zijn echter over het algemeen niet alleen meertalig, maar ook samengesteld met het oog op bepaalde vraagstellingen. Het gaat dan met name om corpora van vergelijkbare teksten en om vertaalcorpora.

5.1. Corpora van vergelijkbare teksten

Corpora van vergelijkbare teksten zijn onder andere zeer geschikt voor terminologisch onderzoek. Het idee is simpel en bekend: als men een vaktekst wil vertalen en op zoek is naar de juiste terminologie, dan helpt het om een andere tekst in de doeltaal over hetzelfde onderwerp te bekijken. Vaak beschikt men daarna al over de nodige woordenschat. Maar ook uitdrukkingen en zelfs syntactische patronen zijn vaak afhankelijk van het onderwerp. Natuurlijk taalgebruik is voor een groot deel routineus taalgebruik: het repertoire aan begrippen en uitdrukkingen is beperkt en ligt min of meer vast.

Een goede, maar voor zover ik weet nog nauwelijks toegepaste manier om corpora van vergelijkbare teksten op te bouwen biedt het Usenet.Ga naar voetnoot11 In dit deel van internet vindt men duizenden newsgroups in verschillende talen over de meest uiteenlopende onderwerpen. Nu ligt het voor de hand om ervan uit te gaan dat newsgroups als de volgende zowel inhoudelijk als ook ten opzichte van de sociale factor heel goed vergelijkbaar zijn:

(5) Parallelle newsgroups

nl.beurs	- de.etc.finanz.boerse.misc
nl.auto	- de.etc.fahrzeug.auto
nl.support.diabetes	- de.sci.medizin.diabetes
nl.comp.games.quake	- de.alt.games.quake
nl.sport.voetbal	- de.rec.sport.fussball
etc.

We kunnen ervan uitgaan dat het taalgebruik in dergelijke newsgroups typisch is voor een bepaalde groep mensen die over het desbetreffende onderwerp discussiëren/corresponderen.Ga naar voetnoot12

Laten we nog een keer het voorbeeld van de integratie van vreemde woorden nemen.

(6) ‘Outperformer’ (uit een bericht in nl.beurs op 27 juli 2000)

> Graag zou ik willen weten wat met de aanduiding >‘outperformer’ in beurstips bedoeld wordt.

Weet ik ook niet. Als iemand schrijft Ahold is een outperformer en niets meer, dan weet je nog niets. Outperformer ten opzichte van markt, dan weet je al helemaal niets. Wat markt? Van de vismarkt? Wat is de markt dan? Een sector, een indices, gecorrigeerd op risicopremie, rente, valuta? Ik zal het echt niet weten! Dit soort begrippen zeggen absoluut niets, als ze los staan.

(7) ‘Outperformer’ (uit een bericht in de.etc.finanz.boerse.misc op 13 juli 2000)

>Was genau bedeutet die Wertung outperformer? Bis jetzt
>dachte ich, dass das was positives wäre. Nun kommen mir da
>aber Zweifel. Hab jetzt gelesen, dass eine Bank SAP als
> Outperformer eingestuft hat, da die Marktlage scheinbar
>grade nicht so doll wäre.
>Wie passt dat zusammen?

Outperformer heißt, daß die bewertende Bank der Meinung ist, daß sich die Aktie besser als der Markt entwickelt, ihn also outperformt. Wenn der Fall so ist wie von Dir geschildert, hatte die Bank SAP vorher wohl als Buy und hat die Bewertung auf Outperformer herabgesetzt.

In beide voorbeelden ziet men hoe een leenwoord problemen oplevert en leidt tot een vraag/discussie in de newsgroup. Het overnemen van leenwoorden gaat niet vanzelf. Het Duitse voorbeeld laat bovendien zien dat, als het leenwoord is geïntegreerd in de eigen woordenschat, het probleemloos als basis kan dienen voor woordvorming (in dit geval voor ‘back formation’).

Het lijkt me zeker de moeite waard om voor contrastieve studies te experimenteren met parallelle corpora op basis van newsgroups. Om ze beter toegankelijk te maken voor taalkundig onderzoek heb ik aan het al genoemde TextSTAT-pakket ook een newsgroupmodule toegevoegd. Met behulp daarvan kan men de berichten uit een newsgroup naar de eigen pc downloaden en inlezen in het concordantieprogramma.

5.2. Corpora met vertalingen

Voor bepaalde contrastieve vraagstellingen zijn de tot nu toe besproken meertalige corpora niet geschikt. Als men bijvoorbeeld op zoek is naar de equivalenten voor bepaalde vaste verbindingen heeft men er niet veel aan, omdat men niet weet waarnaar men zou moeten zoeken. Hier ligt het

grote voordeel van vertaalcorpora ten opzichte van de andere: men kan equivalenten vinden voor een taalelement, waarvan men niet wist dat ze tot de mogelijke equivalenten behoren.

Vertaalcorpora voor het Nederlands zijn er voor zover ik weet niet. Andere talen hebben op dit terrein een voorsprong. Zo is er bijvoorbeeld het English/German Translation Corpus in Chemnitz en het English-Norwegian Parallel Corpus (ENPC) in Oslo. Dit laatste project wordt sinds kort uitgebouwd tot het grotere, meertalige Oslo Multilingual Corpus (OMC).Ga naar voetnoot13

Geliefd voor contrastief onderzoek met behulp van vertaalcorpora zijn EU-teksten, omdat ze over het algemeen vrij beschikbaar zijn in meerdere talen en in elektronische vorm. Een voorbeeld van contrastief onderzoek op basis van dergelijke teksten geeft Simon-Vandenbergen (1998). Zij onderzoekt het gebruik van Engels ‘I think’ en z'n Nederlandse equivalenten in debatten van het Europees Parlement. De meest frequente vertaling is (natuurlijk) ‘ik denk’ (in zo'n 30% van de gevallen), maar daarnaast vindt ze tal van andere vertalingen zoals ‘volgens mij’, ‘ik ben van mening’, ‘waarschijnlijk’, ‘ik vrees’ enz. De vertaling benadrukt dus telkens een ander betekenisaspect van ‘I think’. Op deze manier ontstaat zowel inzicht in de betekenisstructuur van Engels ‘I think’ alsook in de vertaalmogelijkheden en equivalenties ervan in het Nederlands.

Dergelijk onderzoek is uiteraard alleen mogelijk als vertaalde teksten parallel zijn opgeslagen en parallel kunnen worden doorzocht. Daarvoor zijn er in diverse projecten ‘tools’ ontwikkeld, software om vertaalde teksten (half)automatisch te ‘aligneren’, bijvoorbeeld op zinsniveau. Deze ‘aligners’ voorzien origineel en vertaling automatisch van markeringen die aangeven welke zin(nen) elkaars vertalingen zijn. Kennelijk werkt dit vrij goed: volgens Hofland en Johansson (1998) levert hun Translation Corpus Aligner in tests voor het talenpaar Engels-Noors een foutenpercentage op van minder dan 2%. Het programma werkt met statistische gegevens over woordfrequenties en met lijsten van vaak voor-

komende één-op-één-vertalingen. Het onderliggende principe is simpel: de kans dat het Nederlandse ‘koffie’ in het Duits wordt vertaald als ‘Kaffee’ is vrij groot, en je kunt er dus van uitgaan dat de Duitse zin met het woord ‘Kaffee’ inderdaad de vertaling is van de Nederlandse zin met ‘koffie’.

Ook voor het doorzoeken van de op deze manier gegenereerde parallelle corpora zijn er weer software tools. In het Noorse ENPC-project is dat de Translation Corpus Explorer (vgl. Ebeling, 1998).Ga naar voetnoot14

(8) Screenshot Translation Corpus Explorer (Ebeling, 1998:107)

Het voorbeeld in de screenshot laat zien hoe men door te zoeken op Engels ‘blue’, een Noors equivalent vindt voor ‘out of the blue’, waar de Noorse vertaling van ‘blue’ helemaal niet in voorkomt.

De voordelen van vertaalcorpora voor de vertaalwetenschap en voor het onderzoek naar vertaalmogelijkheden en -moeilijkheden liggen voor de hand. Ook het praktische nut voor vertalers en lexicografen is duidelijk. Ik denk echter dat ook de (contrastieve) taalkunde iets zou kunnen hebben aan dergelijke corpora, zoals het al genoemde voorbeeld van Simon-Vandenbergen (1998) laat zien. Vooral voor taalkundig onderzoek is er echter ook een probleem:

An intrusive factor in such corpora is the translation activity
itself, which may affect the texts of the target language.
(Aarts, 1998:ix)

Er is met andere woorden het gevaar dat men geen natuurlijk taalgebruik onderzoekt, maar ‘Translationese’ - zoals dat in het Engels zo mooi heet.

6. Conclusie

Ik heb in deze bijdrage verschillende corpora voorgesteld en kort aangeduid waarvoor ze kunnen worden gebruikt. Uiteraard kon een en ander alleen worden aangestipt, maar ik hoop duidelijk te hebben gemaakt dat er voor de verschillende types corpora verschillende toepassingsterreinen zijn. Ze kunnen allemaal interessant en nuttig zijn, ook voor contrastief onderzoek, maar niet voor alle soorten onderzoek. Men moet met andere woorden het juiste (type) corpus vinden voor de concrete vraagstelling, voor het eigen probleem.

Voor contrastief onderzoek zijn vooral de meertalige corpora interessant. In veel gevallen is het misschien al voldoende om via een zoekmachine het www als meertalig corpus te gebruiken. Daarnaast zijn ook de newsgroups mijn inziens een zeer interessant terrein voor contrastieve studies. De perspectieven die het internet biedt voor de taalkunde worden vaak nog onderschat en het lijkt me zeer zeker de moeite waard om te

werken aan methodes en ‘tools’ die dit gigantische corpus beter toegankelijk maken voor taalkundig, al dan niet contrastief, onderzoek. Voor het Nederlands is er weliswaar een betrekkelijk goede infrastructuur voor eentalige corpora, maar in tegenstelling tot andere talen niet voor parallelle corpora. Het lijkt me zinvol om na te denken over mogelijkheden en/of gemeenschappelijke initiatieven die in deze leemte zouden kunnen voorzien. Voor lexicografie, contrastieve grammatica, vertaalwetenschap en tal van andere taalkundige (sub)disciplines zouden dergelijke corpora naar mijn mening een belangrijke aanwinst zijn.

Bibliografie

Aarts, J. (1998). ‘Introduction’, in: S. Johansson en S. Oksefjell (red.), Corpora and Cross-linguistic Research. Theory, Method, and Case Studies, Amsterdam: Atlanta Rodopi, ix-xiv.

Ebeling, J. (1998). ‘The Translation Corpus Explorer: A browser for parallel texts’, in: S. Johansson en S. Oksefjell (red.), Corpora and Cross-linguistic Research. Theory, Method, and Case Studies, Amsterdam: Atlanta Rodopi, p. 101-112.

Grondelaers, S. e.a. (2000, te verschijnen). ‘Het CONDIV-corpus geschreven Nederlands’, Nederlandse taalkunde.

Hofland, K. en S. Johansson. (1998). ‘The Translation Corpus Aligner: A program for automatic alignment of parallel texts’, in: S. Johansson en S. Oksefjell (red.), Corpora and Cross-linguistic Research. Theory, Method, and Case Studies, Amsterdam: Atlanta Rodopi, p. 87-100.

Hüning, M. (1999). Woordensmederij. De geschiedenis van het suffix -erij. Diss. Universiteit Leiden, Den Haag: Holland Academic Graphics.

Johansson, S. (1998). ‘On the role of corpora in cross-linguistich research’, in: S. Johansson en S. Oksefjell (red.), Corpora and Cross-linguistic Research. Theory, Method, and Case Studies, Amsterdam: Atlanta Rodopi, p. 3-24.

Kruyt, J.G. (1995). ‘Nationale tekstcorpora in internationaal perspectief’, Forum der Letteren, 36, p. 47-58.

Oostdijk, N. (2000, te verschijnen). ‘Het Corpus Gesproken Nederlands’, Nederlandse taalkunde, 5.

Oostendorp, M. Van en T. Van der Wouden. (1998). ‘Corpus Internet’, Nederlandse taalkunde, 3, p. 347-361.

Simon-Vandenbergen, A.-M. (1980). ‘‘I think’ and its Dutch equivalents in parliamentary debates’, in: S. Johansson en S. Oksefjell (red.), Corpora and Cross-linguistic Research. Theory, Method, and Case Studies, Amsterdam: Atlanta Rodopi, p. 297-317.

voetnoot1: Ik dank mijn collega's Christine van Baalen en Herbert Van Uffelen voor hun commentaar bij de eerste versie van dit artikel.

voetnoot2: Voor informatie over het CGN zie Oostdijk (2000, te verschijnen) en de projectwebsite .

voetnoot3: Meer informatie over het INL en zijn corpora (ook over de toegang tot die corpora) is verkrijgbaar via .

voetnoot4: Van deze mogelijkheden heb ik bijvoorbeeld veelvuldig gebruik gemaakt voor mijn promotieonderzoek (Hüning, 1999).

voetnoot5: Zie de IDS-homepage en voor directe toegang tot COSMAS .

voetnoot6: Korpuslinguistikseite ; Corpus linguistics (Michael Barlow) .

voetnoot7: Gezocht werd op 7 augustus 2000 met de zoekmachine Google . Er werd gebruik gemaakt van de taaloptie (dus: zoek alleen in Duitstalige respectievelijk Nederlandstalige pagina's). De aantallen hebben betrekking op gevonden pagina's.

voetnoot8: Er werd gezocht op 16 augustus 2000 met de zoekmachine Google onder gebruikmaking van de taaloptie. De gegevens voor de infinitief zijn opgenomen om de frequentieverhoudingen te illustreren.

voetnoot9: TextSTAT is nog in ontwikkeling, werkt echter al vrij redelijk. Mocht u belangstelling hebben voor deze software, dan kunt u graag contact opnemen met mij.

voetnoot10: Voor meer informatie over de genoemde programma's (download- en/of bestelmogelijkheden, prijzen etc.) zie de bijbehorende webpagina's: Concordance , MonoConc en WordSmith .

voetnoot11: Grondelaers e.a. (2000, te verschijnen) gebruiken newsgroups voor hun onderzoek naar overeenkomsten en verschillen tussen Nederlands en Vlaams taalgebruik.

voetnoot12: Uiteraard zijn er daarnaast ook eigenaardigheden die kenmerkend zijn voor het medium, zoals het gebruik van bepaalde afkortingen (IMHO = ‘in my humble opinion’, LOL = ‘laughing out loud’ enz.) of van de zogenaamde ‘emoticons’. Het bekendste en meest gebruikte emoticon is zeker: -) (de ‘smiley’).

voetnoot13: Zie voor het Chemnitz-corpus , voor het ENPC en voor het OMC .

voetnoot14: In het kader van datzelfde Noorse project is er ook een webinterface gemaakt: WebTCE (Translation Corpus Explorer for the Web), te vinden onder . Andere softwaretools zijn: Multiconcord (the Lingua Multilingual Parallel Concordancer for Windows), zie , of ParaConc (van Michael Barlow) .

Vorige Volgende

Colloquium Neerlandicum 14 (2000)

Perspectieven voor de internationale neerlandistiek in de 21ste eeuw. Handelingen Veertiende Colloquium Neerlandicum

Corpusonderzoek en contrastieve taalkunde: mogelijkheden en perspectieven
Matthias Hüning (Wenen)

1. Inleiding

2. Types corpora

3. Eentalige corpora

3.1. Instituut voor Nederlandse Lexicologie, Leiden

3.2. Institut für Deutsche Sprache, Mannheim

3.3. Het nut van eentalige corpora voor contrastief onderzoek

4. Het www als corpus

(1) Frequentie diminutief bij leenwoordenGa naar voetnoot7

(2) Voltooid deelwoord van ‘downloaden’Ga naar voetnoot8

(4) KWIC-concordantie op basis van webpagina's

5. Parallelle corpora

5.1. Corpora van vergelijkbare teksten

(5) Parallelle newsgroups

(6) ‘Outperformer’ (uit een bericht in nl.beurs op 27 juli 2000)

(7) ‘Outperformer’ (uit een bericht in de.etc.finanz.boerse.misc op 13 juli 2000)

5.2. Corpora met vertalingen

(8) Screenshot Translation Corpus Explorer (Ebeling, 1998:107)

6. Conclusie

Bibliografie

Over het gehele werk

datums

Over dit hoofdstuk/artikel

auteurs

Corpusonderzoek en contrastieve taalkunde: mogelijkheden en perspectieven Matthias Hüning (Wenen)

1. Inleiding

2. Types corpora

3. Eentalige corpora

3.1. Instituut voor Nederlandse Lexicologie, Leiden

3.2. Institut für Deutsche Sprache, Mannheim

3.3. Het nut van eentalige corpora voor contrastief onderzoek

4. Het www als corpus

(1) Frequentie diminutief bij leenwoordenGa naar voetnoot7

(2) Voltooid deelwoord van ‘downloaden’Ga naar voetnoot8

(4) KWIC-concordantie op basis van webpagina's

5. Parallelle corpora

5.1. Corpora van vergelijkbare teksten

(5) Parallelle newsgroups

(6) ‘Outperformer’ (uit een bericht in nl.beurs op 27 juli 2000)

(7) ‘Outperformer’ (uit een bericht in de.etc.finanz.boerse.misc op 13 juli 2000)

5.2. Corpora met vertalingen

(8) Screenshot Translation Corpus Explorer (Ebeling, 1998:107)

6. Conclusie

Bibliografie

Over het gehele werk

datums

Over dit hoofdstuk/artikel

auteurs

Corpusonderzoek en contrastieve taalkunde: mogelijkheden en perspectieven
Matthias Hüning (Wenen)