Skiplinks

  • Tekst
  • Verantwoording en downloads
  • Doorverwijzing en noten
Logo DBNL Ga naar de homepage
Logo DBNL

Hoofdmenu

  • Literatuur & taal
    • Auteurs
    • Beschikbare titels
    • Literatuur
    • Taalkunde
    • Collectie Limburg
    • Collectie Friesland
    • Collectie Suriname
    • Collectie Zuid-Afrika
  • Selecties
    • Collectie jeugdliteratuur
    • Basisbibliotheek
    • Tijdschriften/jaarboeken
    • Naslagwerken
    • Collectie e-books
    • Collectie publiek domein
    • Calendarium
    • Atlas
  • Periode
    • Middeleeuwen
    • Periode 1550-1700
    • Achttiende eeuw
    • Negentiende eeuw
    • Twintigste eeuw
    • Eenentwintigste eeuw
De Nieuwe Taalgids. Jaargang 80 (1987)

Informatie terzijde

Titelpagina van De Nieuwe Taalgids. Jaargang 80
Afbeelding van De Nieuwe Taalgids. Jaargang 80Toon afbeelding van titelpagina van De Nieuwe Taalgids. Jaargang 80

  • Verantwoording
  • Inhoudsopgave



Genre

sec - letterkunde
sec - taalkunde

Subgenre

tijdschrift / jaarboek


© zie Auteursrecht en gebruiksvoorwaarden.

De Nieuwe Taalgids. Jaargang 80

(1987)– [tijdschrift] Nieuwe Taalgids, De–rechtenstatus Auteursrechtelijk beschermd

Vorige Volgende
[pagina 251]
[p. 251]

Letter- en woordfrequenties in Nederlandse krantentekst

M.P.R. van den Broecke, M. Elstrodt en A. Aerts

0 Samenvatting

Wegens de ontoereikendheid van bestaande studies over woordfrequenties in het Nederlands worden hieronder de resultaten van een nieuwe telling van ongeveer l½ miljoen woorden uit krantenteksten gepresenteerd. Uit de resultaten de telling bleek dat een dergelijk corpus ongeveer 50.000 verschillende woordvormen omvat. Er worden tevens letterfrequenties gerapporteerd. Uit de frequentieverdeling van woorden, geordend naar lengte, zijn gegevens over de syllabestruktuur van het Nederlands af te leiden. Uit vergelijkingen met andere tellingen bleek tenslotte dat de frequentieverdeling van woorden uit krantenteksten anders is dan van woorden die uit andere bronnen afkomstig zijn.

1 Inleiding

Over de gebruiksfrequenties van Nederlandse woorden en woorddelen zoals letters zijn tot nu toe relatief weinig gegevens beschikbaar. De eerste poging tot het vaststellen van de gebruiksfrequenties van Nederlandse woorden werd gedaan door De la CourtGa naar voetnoot1 in 1937. Hij baseerde zich op een door hemzelf uitgekozen corpus van 1 miljoen woorden uit populaire literatuur en kinderboeken. LinschotenGa naar voetnoot2 heeft de resultaten van deze telling in 1965 verder geanalyseerd. De 102 frequentste woorden, die 49% van het corpus omvatten, werden niet afzonderlijk geteld maar tot hoogfrequent bestempeld. Het corpus bestaat niet in computer-leesbare vorm, en verbuigingen en vervoegingen werden eerst getransformeerd naar hun lemma-vorm. Een tweede tellingGa naar voetnoot3 stamt uit 1965 en werd verricht door Van Berckel, Brandt Corstius, Mokken en Van Wijngaarden. Hier werden ongeveer 50.000 woorden krantentekst geteld uit 10 kranten die verschenen op 19 juni 1956. Woorden werden gecodeerd op woordsoort. Dit corpus is klein, en gegeven de zeer tijdsgebonden bron, niet erg representatief. De meest recente telling werd verricht door Uit den BoogaartGa naar voetnoot4 in 1975. Dit corpus bestaat uit 600.000 woorden afkomstig uit zes verschillende schriftelijke bronnen, en bovendien uit 120.000 woorden die werden opgetekend uit spontane conversaties. De frequentie van elke woordvorm, frequenties van de lemmata waarvan ze werden afgeleid, en woordsoort wordt gespecificeerd voor elk der 7 subcorpo

[pagina 252]
[p. 252]

ra. Dit corpus is in computer-leesbare vorm beschikbaar, zij het dat dit bestand vrij veel fouten bevat. Ieder die wel eens met dit corpus gewerkt heeft zal hebben ontdekt dat ook dit corpus relatief klein is, en intuïtief frequente woorden zoals ‘spraak’ er niet voorkomen.

Toepassingen van gebruiksfrequentie gegevens zijn te vinden op tal van gebieden zoals spraakaudiometrie, woordherkenning, quantificering van linguïstische verwachtingspatronen, automatische spellingscorrectie etc.

2 Methode

Op grond van bovenstaande gegevens werd besloten een nieuwe frequentietelling voor het Nederlands te verrichten op basis van krantentekst. Om representativiteit binnen de gekozen tekstsoort te bereiken diende de telling zich over een ruime tijdsperiode uit te strekken, en redelijk groot van omvang te zijn. Derhalve werd een telling begonnen van alle woorden in redactionele teksten van een regionaal dagblad, nl. De Haarlemse Courant, in een tempo van ongeveer 20.000 woorden per.dag. Dit verslag beschrijft een aantal karakteristieken van een aldus verzameld corpus (ULEX. FREQ) van ongeveer 1,5 miljoen woorden, geteld in het eind van 1985 over een periode van ongeveer 4 maanden.

3 Resultaten

Het bleek dat de 1.452.030 getelde woordvormen (tokens) gespreid waren

illustratie
Figuur 1.
Relatie tussen de hoogfrequente 200 woorden in het corpus en de hoeveelheid woordvormen uit de tekst die daarmee worden omvat, uitgedrukt als cumulatief percentage en in absolute cumulatieve frequentie.


[pagina 253]
[p. 253]

over 53.244 verschillende woorden (types). De relatie tussen type en token wordt getoond in figuur 1 voor de 200 frequentste woorden (die in bijlage 1 worden genoemd met hun absolute frequenties).

 

Figuur 1 toont de cumulatieve frequentie, uitgedrukt in absolute getallen en als percentage van het totale corpus. Uit de figuur blijkt dat de eerste 10 woorden reeds 27% van het corpus omvatten, de eerste 50 woorden 45%, de eerste 100 woorden 52%, en de eerste 200 59%.

De letterfrequenties zoals aangetroffen in het corpus worden gegeven in tabel I in absolute getallen en percentages.

Tabel I. Letterfrequenties en percentages

Letter abs. freq. percentage letter abs. freq. percentage
a 562.383 7,49% n 753.539 10,03%
b 118.909 1,58% o 455.045 6,06%
c 93.464 1,24% P 117.617 1,57%
d 445.461 5,93% q 698 0.01%
e 1. 420.445 18,91% r 481.365 6,41%
f 60.639 0,81% s 280.279 3,73%
g 255.183 3,40% t 510.119 6,79%
h 178.600 2,38% u 149.353 1,99%
i 487.945 6,50% V 214.255 2,85%
j 109.455 1,46% w 114.171 1,52%
k 169.220 2,25% X 2.984 0,04%
l 267,773 3,57% y 2.623 0,04%
m 165.976 2,21% z 93.295 1,39%
Totaal: 7.510.876        

De frequenties van woorden met een woordlengte van 2 t/m 22 letters worden afgebeeld in figuur 2.

illustratie
Figuur 2.
Verdeling van woorden met woordlengte van 2 t/m 22 letters in absolute frequentie van voorkomen in het corpus.


[pagina 254]
[p. 254]

4 Discussie

Om de hier verkregen resultaten te vergelijken met de eerder genoemde gebruiksfrequentie tellingen van Van Berckel e.a. en Uit den Boogaart is gebruik gemaakt van Pearson's produkt-moment correlatie, die niet alleen rangordes maar ook de absolute frequenties in acht neemt. Voor het Uit den Boogaart corpus werd zowel de totale telling van alle geschreven bronnen (600.000 woorden) als het subcorpus krantentekst bekeken. Hoewel dit de eis schendt die Pearson's toets stelt, nl. dat de te correleren gegevens onafhankelijk dienen te zijn, geeft het enig inzicht in de vraag in hoeverre gebruiksfrequenties van woorden uit krantenteksten andere kenmerken hebben dan frequenties uit andere schriftelijke bronnen. Aangezien ons corpus geen woordsoortcodering kent, zijn identieke woorden uit verschillende woordklassen zoals die in de andere twee corpora voorkomen samgengevoegd. Tabel II bevat de correlaties en bijbehorende t-waarden van de 10, 50 en 200 frequentste woorden uit elk corpus. Alle verkregen correlatiewaarden zijn zeer significant (p <.0001).

Tabel III. Pearson's produkt-moment correlaties en t-waarden voor het Haarlemse Courant corpus (ULEX.FREQ), het Van Berckel e.a. corpus (B), het gehele Uit den Boogaart corpus (U), en het Uit den Boogaart subcorpus krantentekst (UN) voor de 10, 50 en 200 frequentste woorden.

De 10 frequentste woorden
B U UN
r T r t r t(df=8)
ULEX 0,996 19,9 0,986 16,9 0,997  
B     0,983 15,0 0,992  
U         0,990 19, 9
             
de 50 frequentste woorden:
             
B U UN
r t r t r t(df=48)
ULEX 0,994 63,0 0,983 37,1 0,996 74,0
B     0,986 40,6 0,995 67,1
U         0,990 49,1
             
de 200 frequentste woorden
             
B U UN
r t r t r t
ULEX 0,994 123,7 0,982 74,1 0,996 153,8
B     0,985 81,0 0,995 134,9
U         0,990 97,1

De hoogste correlatiewaarden treffen we aan tussen het ULEX.FREQ corpus en het Uit den Boogaart subcorpus krantentekst (UN), de daarna hoogste waarde tussen van Berckel e.a. (B) en UN, en de daarna hoogste waarde tussen ULEX. FREQ en B. Dit wijst erop, dat de tekstbron een faktor van betekenis is wanneer corpora worden vergeleken. Gebruiksfrequenties van woorden uit diverse krantenteksten vertonen een verband dat sterker is dan wanneer ze met teksten uit

[pagina 255]
[p. 255]

andere bronnen worden vergeleken. Hoe groter het corpus, ook al worden slechts de meest hoogfrequente woorden vergeleken, hoe duidelijker het verband. De gebruiksfrequenties van woorden in krantenteksten vertonen dus karakteristieken die ze onderscheiden van andere tekstbronnen, en die karakteristieken worden duidelijker naarmate de omvang van het corpus toeneemt.

De letterfrequenties zoals gegeven in tabel I vertonen uitstekende overeenstemming met die uit Van Berckel e.a. (Pearson's r = 0,994 t = 45,3 df=25 p <.001). Aangezien deze twee corpora een faktor 30 in omvang verschillen mogen we veilig aannemen dat de frequentieverdeling van letters in het Nederlands zeer stabiel is, en relatief onafhankelijk van de grootte van de steekproef.

De verdeling van de frequenties over woorden van verschillende letterlengte, vergelijk figuur 2, laat een relatieve piek zien bij woorden van 3 en 6 letters, en een relatief dal bij een woordlengte van 5 letters. Dit is toe te schrijven aan de syllabestructuur van het Nederlands. Bij een woordlengte van 5 letters vindt er statistisch gesproken een overgang plaats van monosyllabische naar bisyllabische woorden. Een vergelijkbaar dal, hoewel minder uitgesproken, wordt ook gerapporteerd in Van Berckel e.a. Verder laat figuur 2 aflopende frequenties bij oplopende woordlengte zien, een verschijnsel dat reeds in 1935 door ZipfGa naar voetnoot5 als universeel taalkenmerk werd gesignaleerd.

De telling van krantentekst ten behoeve van het corpus ULEX.FREQ loopt inmiddels door, waarbij gestreefd wordt naar een uiteindelijke grootte van 20 miljoen woorden, waarmee het een der grootste corpora op dit gebied zal zijn.

Bijlage 1. Absolute frequentie van de 200 frequentste woorden uit het ULEX.FREQ corpus.

1 de 114117 21 worden 7196 41 zich 3910
2 van 60360 22 heeft 6720 42 of 3704
3 het 48795 23 ook 6607 43 meer 3633
4 een 39090 24 als 6407 44 geen 3292
5 in 37962 25 uit 6268 45 ik 3249
6 en 35218 26 zo 6134 46 zal 3224
7 te 19000 27 over 6122 47 werd 3199
8 dat 18791 28 maar 5563 48 al 3188
9 is 18778 29 tot 5420 49 moet 3065
10 op 18620 30 uur 5409 50 kunnen 3022
11 voor 17343 31 jaar 5174 51 kan 2939
12 met 14374 32 nog 5164 52 volgens 2875
13 die 12967 33 wordt 5160 53 nu 2813
14 zijn 12634 34 naar 5052 54 twee 2730
15 aan 11953 35 hij 4863 55 wel 2689
16 niet 10311 36 dan 4391 56 wat 2535
17 er 8324 37 was 4389 57 je 2533
18 bij 7975 38 hebben 4255 58 na 2503
19 om 7744 39 deze 4178 59 ze 2481
20 door 7422 40 dit 3945 60 zou 2462

[pagina 256]
[p. 256]

61 hun 2439 108 toch 1176 155 staan 801
62 gemeente 2365 109 man 1175 156 dag 798
63 onder 2362 110 men 1154 157 vorig 795
64 tegen 2324 111 waren 1141 158 vrijdag 792
65 moeten 2272 112 jaren 1131 159 heel 792
66 gulden 2191 113 vier 1109 160 half 784
67 gaat 2082 114 mogelijk 1091 161 dienst 784
68 nieuwe 2070 115 af 1084 162 afgelopen 776
69 zij 2057 116 zaterdag 1077 163 zaak 775
70 we 2016 117 mee 1070 164 geld 770
71 daar 1977 118 zelf 1060 165 wij 768
72 veel 1976 119 hem 1059 166 geven 762
73 andere 1937 120 toe 1039 167 wethouder 750
74 had 1909 121 krijgen 1037 168 onderzoek 749
75 mensen 1903 122 week 1030 169 bedrijf 749
76 komen 1866 123 miljoen 1015 170 zien 748
77 gaan 1856 124 zondag 1014 171 zei 745
78 wil 1752 125 binnen 1012 172 rond 743
79 tussen 1733 126 willen 1008 173 nemen 737
80 aldus 1727 127 laten 1007 174 huis 733
81 weer 1696 128 plaats 1005 175 iets 731
82 haar 1646 129 februari 999 176 hoe 730
83 drie 1634 130 ten 985 177 leden 729
84 gisteren 1621 131 werk 970 178 markt 726
85 politie 1589 132 eens 958 179 tien 724
86 omdat 1575 133 steeds 951 180 geleden 724
87 waar 1556 134 ons 949 181 vooral 721
88 maken 1537 135 jarige 945 182 plan 721
89 alle 1495 136 kerk 926 183 niets 721
90 eerste 1491 137 auto 922 184 minder 721
91 alleen 1466 138 maart 918 185 zonder 715
92 per 1415 139 vijf 915 186 blijven 702
93 komt 1397 140 verder 901 187 heb 700
94 der 1396 141 werden 868 188 bekend 700
95 grote 1386 142 zoals 865 189 houden 697
96 staat 1354 143 ter 865 190 kon 687
97 tijd 1334 144 kwam 859 191 gehouden 687
98 procent 1304 145 laatste 853 192 zouden 683
99 aantal 1298 146 acht 848 193 nodig 678
100 echter 1285 147 deel 846 194 elkaar 677
101 zullen 1283 148 via 837 195 waarin 670
102 eigen 1238 149 college 835 196 den 666
103 doen 1218 150 hier 834 197 zegt 663
104 tijdens 1214 151 dus 832 198 tweede 663
105 toen 1208 152 weg 828 199 mag 657
106 enkele 1184 153 gemaakt 826 200 provincie 649
107 goed 1179 154 vanaf 817    

voetnoot1
J.F.H.A. de la Court, De meest voorkomende woorden en woordcombinaties in het Nederlands (Volkslectuur, Batavia, 1935).
voetnoot2
J. Linschoten ‘De la Court's frequentietelling van Nederlandse woorden’, Report 6301, Psychological Laboratory, University of Utrecht, (1965).
voetnoot3
J.A. van Berckel, H. Brandt Corstius, R.J. Mokken & A. van Wijngaarden Formal properties of newspaper Dutch, (Mathematisch Centrum, Amsterdam, 1965).
voetnoot4
P.C. Uit den Boogaart, Woordfrequenties van geschreven en gesproken Nederlands (Oosthoek, Scheltema en Holkema, Utrecht, 1975).

voetnoot5
G.K. Zipf The Psychology of Language (Houghton Mifflin, New York, 1935).


Vorige Volgende

Footer navigatie

Logo DBNL Logo DBNL

Over DBNL

  • Wat is DBNL?
  • Over ons
  • Selectie- en editieverantwoording

Voor gebruikers

  • Gebruiksvoorwaarden/Terms of Use
  • Informatie voor rechthebbenden
  • Disclaimer
  • Privacy
  • Toegankelijkheid

Contact

  • Contactformulier
  • Veelgestelde vragen
  • Vacatures
Logo DBNL

Partners

Ga naar kb.nl logo KB
Ga naar taalunie.org logo TaalUnie
Ga naar vlaamse-erfgoedbibliotheken.be logo Vlaamse Erfgoedbibliotheken

Over dit hoofdstuk/artikel

auteurs

  • M.P.R. van den Broecke

  • Marijke Elstrodt

  • A. Aerts


taalkunde

  • Woorden (lexicografie)