Onze Taaltuin. Jaargang 7


auteur: [tijdschrift] Onze Taaltuin


bron: Onze Taaltuin. Jaargang 7. Van Aelst, Maastricht 1938-1939


verantwoording

inhoudsopgave

doorzoek de hele tekst


downloads



DBNL vignet

[p. 289]

[Nummer 10]

De woordfrequentie

I.

In Onze Taaltuin IV blz. 225 vgld. vergeleken wij het betrekkelijk klein getal woorden, dat ieder van ons gebruikt met de ontzaglijk vele die wij alleen maar verstaan, en voegden daar eenige algemeene gegevens over den woordenschat der verschillende talen aan toe.

Vandaag moeten wij het nu eens hebben over een ander vraagstuk der lexicale taalwetenschap, dat evenals het vorige nog betrekkelijk zelden behandeld is: hoe vaak komen de meeste woorden voor? Komen zoo wat alle gewone woorden even vaak voor? En vormen de zeldzamer voorkomende woorden slechts een betrekkelijk geringe uitzondering?

Daarover was tot voor korten tijd eigenlijk niets met zekerheid bekend. De beste woordenboeken geven toch slechts voor de zeldzamer woorden ten naastenbij den socialen kring aan, waarin zoo'n woord thuis hoort; of men vindt: nieuw woord, nog niet algemeen in gebruik; of veel vaker verouderd, bijna niet meer in zwang. Maar overigens lijken, volgens de opgave onzer woordenboeken, alle gewone woorden zoo wat even vaak voor te komen.

Nu wisten wij echter, uit onze ervaring met de levende talen toch al wel een beetje, dat het in werkelijkheid heel anders is; en reeds 70 jaar geleden wezen G. Curtius en Hugo Schuchardt er met recht op, en later zijn er L. Gauchat, H. Morf, R. Thurneysen en O. Broch op terug gekomen, dat in de toepassing der klankwetten de meest gebruikte woorden vaak eigen wegen gaan, en in zijn Sprachkörper und Sprachfunktion 2

[p. 290]

Berlin 1921 blz. 55 vgld. heeft Wilhelm Horn daar, speciaal voor de zeer frequente voornaamwoorden, uitstekende voorbeelden van gegeven. Ook in mijn studie over ‘Nog een Hollandsche expansie: de ronding van lenen en leunen’ (Onze Taaltuin II blz. 113 vgld.) heb ik dat nader gepreciseerd door te toonen, dat althans voor de secundaire uitbreiding van klankveranderingen buiten het haardgebied waar ze zijn opgedoken, het meer of minder voorkomen van bepaalde woorden - zoo bijv. de frequentie van het woord ‘veel’ of ‘veul’ tegenover het zeldzame stenen of steunen - zonder eenigen twijfel een factor is van groote beteekenis. Want wat men aanhoudend vóór hoort zeggen (b.v. veul), zegt ook iedereen op den duur wel na. Ook hier geldt het oude spreekwoord: Gutta cavat lapidem, non vi, sed saepe cadendo. Maar verder zal weldra blijken, dat het vraagstuk van den actieven en den passieven woordenschat, dat wij in den aanhef van dit artikel noemden, slechts de individueele toespitsing is van een universeele regelmaat, die in de boeken over Algemeene Taalwetenschap totnutoe nog nimmer is onderzocht; terwijl het toch ook hier zal blijken, dat om de diepere gronden der individueele verschijnselen te achterhalen, de universeele regelmaat de éénig-ware grondslag is.

Het is dus zeker niet nutteloos, een poging te wagen, ten opbouw van het verwaarloosde Kapittel der lexicale taalwetenschap, althans eens een grondplan gereed te maken, want er bestaan toch reeds heel wat materiaalverzamelingen; en het wordt heusch tijd dat de wetenschap hier de leiding neemt.

Het eerste onderzoek in deze richting is F.W. Kaeding's Häufigkeitswörterbuch der Deutschen Sprache geweest, ‘festgestellt durch einen Arbeitsausschuss der deutschen Stenographiesysteme, Steglitz bei Berlin 1898’. 't Is uit de samenwerking van 5000 stenographen en 800 eigenlijke medewerkers voortgekomen, en het woordenboek omvat 258173 verschillende woorden en vormen, die zijn geëxcerpeerd uit een tekst van 11 millioen woorden. Het besluit hiertoe werd genomen op het Duitsche Stenographencongres of den ‘Stolze-tag’ te Berlijn in 1891, op voorstel van K. Kaeding.

De methode van dit onderzoek lijkt bijna vanzelfsprekend, zoo eenvoudig is ze; maar dat is geen toeval, want de ‘Leiter des preussischen statistischen Amtes’, Geheimrat O. Blenck, de beste toenmalige Duitsche specialist in de statistische onderzoekingsmethode heeft op dit stoere boek zijn strengen stempel gedrukt.

Het eerste parool was: veel ongelijksoortig materiaal. Ten slotte kwam men tot deze keuze:

[p. 291]

Gemengde stof 22% Technische uitvindingen 4%
Klassieke stof 20% Militaire teksten 6%
Kranten- en Tijdschriftentaal 16% Militaire correspondentie 2%
Parlementsverslagen 9% Handels- en Beursberichten 3%
Geschiedenisboeken 5% Theologische literatuur 2%
Private correspondentie 5% Handels-
correspondentie
1%
Juridische teksten 4% Geneeskundige literatuur 1%1)
 
  Samen 100%  

Elk % omvat hier 100.000 tekstwoorden, zoodat men uitging van 10.000.000 tekstwoorden, waar er ten slotte door de noodig gebleken supplementen nog een groote 900.000 of 1 millioen bijkwamen, zoodat het gezamenlijke cijfer nauwkeurig 10.910.777 tekstwoorden bedroeg. Weggelaten werden 1o alle in cijfers geschreven getallen, datums, jaartallen enz. en 2o alle namen, zoowel persoons- als plaatsnamen, berg-, rivier- en landnamen; maar niet de Dag- en Maandnamen.

Dat deze ontzaglijke tekst - ongeveer 12 maal zoo groot als de heele Bijbel - nu eigenlijk nog eerder te klein dan te groot is uitgevallen, blijkt oogenblikkelijk hieruit, dat van de daarin gevonden 258173 verschillende woorden en vormen, ongeveer de helft slechts éénmaal zijn voorgekomen.

Ik sprak daar van woorden en vormen; want elke vorm van een woord wordt apart geteld. Zoo komen van het werkw. ‘binden’ dus naast elkaar als afzonderlijk getelde vormen voor: ‘binde, bindest, bindet, band, gebunden, bände’ enz. Maar ook alle afleidingen en samenstellingen worden als aparte woorden gerekend.

Men ziet hieruit ineens het verschil tusschen zoo'n frequentie-onderzoek en het woordenboek. Terwijl in een woordenzoek vanzelf de nadruk valt op de min of meer zeldzame woorden en vormen, komen hier de meestfrequente woorden naar voren; en als wij de vraag stellen: welke van de

[p. 292]

twee methodes ons den besten en waarsten indruk geeft van het spraakgebruik, dan is daaromtrent niet de minste twijfel: en wint het ons nieuw frequentie-onderzoek als honderdmaal beter en juister; al moet onmiddellijk worden toegegeven, dat het frequentie-onderzoek natuurlijk het woordenboek veronderstelt.2)

Natuurlijk worden in tweede instantie de verbuigings- en vervoegingsvormen van één woord weer bijeengevoegd, en worden de afleidingen en samenstellingen naar hun beide bestanddeelen weer geschift en bijeengebracht, zoodat men ook alle mogelijke gegevens krijgt over de frequentie der verschillende persoons- en tijdsvormen, naamvalsvormen, vóór- en achtervoegsels en de eerste en de tweede leden van alle samenstellingen. De éénige groote en onvergeeflijke fout van heel deze onderneming is, dat de homoniemen als Lecker: lecker niet onderscheiden worden, en met den Imperatief ‘binde’ dus ook ‘ich binde’ wordt samengeteld. Ten slotte krijgen wij deze inlichtingen voor de heele Duitsche taal samen, maar wij krijgen ze ook afzonderlijk voor al de 14 sociologische Taalgroepen of vak- en bezigheidstalen, die hierboven werden opgenoemd afzonderlijk.

In denzelfden geest bewerkt is verder R.C. Eldridge: Six Thousand Common English Words, Niagara Falls New-York 1911, dat uit een Amerikaansch-engelschen krantentekst van een 43000 woorden, de frequentie van 6000 verschillende woorden naging.

Volgens deze methode is nu ook onderzocht het Zuid-Afrikaansch. Daarvoor bezitten wij van den journalist Gerhard Aucamp: Woordeskat en Woordherhaling. Duisend Afrikaanse Staatmakers, Kaapstad 1932, die uit een tekst van 269.009 woorden 35.920 woorden excerpeerde: en voor elk hun frequentie bepaalde, met nog eenige algemeener resultaten.

Bovendien onderzocht de Amerikaan G.K. Zipf: Selected Studies of the Principle of Relative Frequency in Language, Cambridge, Massachusetts 1932: 1o de woordfrequentie van 4 Comedies van Plautus

en 2o de woordfrequentie van een nieuw-Chineeschen tekst in het Pekingsch dialect.

Voor al deze onderzoekingen hadden de bewerkers eerst met groote zorg een reeks van ver uiteenloopende teksten gekozen, om al de taalkringen en taalsoorten in hun materiaal tot hun recht te laten komen.

Kaeding bewerkte dus een tekstmateriaal van 11 millioen woorden

[p. 293]

(Duitsch). Eldridge bewerkte slechts een materiaal van 43000 tekstwoorden (Engelsch). Gerhard Aucamp bewerkte een materiaal van bijna 36000 woorden (Afrikaansch). En Zipf bewerkt voor Plautus slechts 34000 tekstwoorden en voor het Pekingsch slechts 13000. Dat is natuurlijk heel jammer, en de eenige remedie is: al de verdere onderzoekingen3) voor een en dezelfde taal bij elkander op te tellen, en het niet willekeurig te verknutselen gelijk Faucett en Palmer dat met Thornston, Horn en Dewey hebben beproefd.

Steunend op dit materiaal, dat over het algemeen volkomen vergelijkbaar is, zullen wij nu eerst één zeer belangrijke hoofdstelling bewijzen.

Hiervoor gebruiken wij de door Aucamp, op goed geluk af, het eerst scherp geijkte termen: ‘veel gebruikt’ en ‘weinig gebruikt’. Als ‘veel gebruikt’ beschouwt Aucamp elk woord of elken vorm die op iedere 4340 Afrikaansche tekst-woorden minstens éénmaal voorkomt. Dit cijfer is natuurlijk willekeurig gekozen in verband met zijn materiaal, en is voor statistisch gebruik ongeschikt. Wij hebben het daarom naar boven afgerond en stellen deze voorloopige definitie voor: Elk ‘veelgebruikt’ woord komt op elke 5000 tekstwoorden minstens éénmaal voor. Elk ‘weinig gebruikt’ woord komt op 5000 tekstwoorden zelfs niet éénmaal voor.

Alleen de toepassing op de verschillende talen kan natuurlijk uitmaken, of wij hiermee een gelukkigen greep of een misgreep hebben gedaan.

Welnu, weldra zal blijken, dat wij hiermee niet zoo ongelukkig zijn geweest. Want met een verbijsterende regelmaat, komt nu ineens aan het licht, wat wij heelemaal niet verwacht hadden. Als wij toch van veel en weinig gebruikte woorden hooren, en verder ingezien hebben dat deze relatieve begrippen met een bepaalde frequentiebreuk moeten worden vastgelegd, denken wij onwillekeurig aan de hapax legomena of éénmaal voorkomende termen van Homerus, die betrekkelijk zeer gering in getal en de gewone woorden die veel talrijker zijn; maar bij dieper bezinnen, begrijpen wij toch, dat dit geringe getal wel eens het gevolg kon zijn, van de vaste formules en de clichés in den dichterlijken woordenschat der Grieksche Aeoden; en dat het dus best mogelijk is, dat dit een geheel verkeerd idee geeft van de verhoudingen in de gewone taal. Want dat blijkt nu ook uit onze eerste onverwachte conclusie die luidt: Elke woordenschat bestaat voor minstens ¾ uit woorden, die weinig gebruikt worden. De groote meerderheid van alle woorden en vormen hooren dus tot de zeldzame of weinig gebruikte, want die ¾ van alle woorden vormen

[p. 294]

samen slechts ¼ van den heelen tekst. En hieruit volgt nu onverbiddelijk dat de veelgebruikte woorden, die slechts een kleine minderheid: hoogstens ¼ van den geheelen woordenschat vormen, samen toch ¾ van alle teksten of gesprekken in normale cultuurtaal vullen.

Beginnen wij met Aucamp's eigen onderzoek voor het

ZUID- AFRIKAANSCH Woordenschat Tekstfrequentie
Absoluut getal Percent Absoluut getal Percent
veel gebruikte woorden 8784 24½ 230421 85½
weinig gebruikte woorden 27136 75½ 38588 14½
totaal 35920   269009  

Dat wil dus zeggen, dat in een tekst van 269009 tekstwoorden er 35920 verschillende woorden of vormen voorkomen. Daarvan worden er nu echter 8784 d.w.z. ¼ of 241½% zóó vaak gebruikt, dat ze samen 230421 maal voorkomen of reeds 85½% van den heelen tekst beslaan; dat is dus reeds 10% meer dan ¾.

En daarvan worden er nu 27136 d.w.z. ¾ of 75½% zóó weinig gebruikt, dat ze samen slechts 38588 maal voorkomen d.w.z. 14½% van den heelen tekst uitmaken, dat is dus nog 10% minder dan ¼.

Ongeveer hetzelfde beeld, maar nu juist met een uitlooper in dezelfde richting doch aan de andere zijde, geeft ons Zipf's onderzoek van

PLAUTUS' COMEDIES Woordenschat Tekstfrequentie
Absoluut getal Percent Absoluut getal Percent
veel gebruikte woorden 1200 15 25000 74
weinig gebruikte woorden 6800 85 9000 26
totaal 8000   34000  

Dat wil weer zeggen, dat in de Aulularia, Mostellaria, Trinummus en Pseudolus van Plautus, d.w.z. een tekst van 34000 woorden: er 8000 verschillende vormen en woorden voorkomen en dat er daarvan 1200 d.w.z. slechts 1/7 of 15% zóó frequent voorkomen, dat ze samen reeds ¾ van den heelen tekst vullen; terwijl de overige 6800 d.w.z. 6/7 of 85% zóó zeldzaam zijn, dat ze samen slechts ¼ van den heelen tekst innemen.

Nog iets sterker spreekt Eldridge's onderzoek van het

[p. 295]

AMERIKAANSCH KRANTEN-
ENGELSCH
Woordenschat Tekstfrequentie
Absoluut getal Percent Absoluut getal Percent
veel gebruikte woorden 584 10 32000 74½
weinig gebruikte woorden 5416 90 11000 25½
totaal 6000   43000  

Hier behooren dus slechts 1/10 of 10% van de verschillende woorden tot de ‘veelgebruikte’, want zij met z'n 584en vullen reeds 75% of ¾ van den heelen tekst; terwijl er om het overige ¼ deel van den tekst vol te maken nog 90% of 5416 verschillende ‘weinig gebruikte’ woorden noodig zijn.

Richten wij ons nu met Zipf naar een heel andere cultuur: de

PEKINGSCHE SPREEKTAAL Woordenschat Tekstfrequentie
Absoluut getal Percent Absoluut getal Percent
veel gebruikte woorden 800 24 10000 77
weinig gebruikte woorden 2500 76 3000 23
totaal 3300   13000  

Welnu, ook hier geldt precies dezelfde wet. Op een tekst van 13000 woorden vonden Zipfs proefpersonen 3300 verschillende woordkarakters. Achthonderd daarvan d.w.z. ¼ of 24% zijn ‘veel gebruikte’ woorden want zij vullen samen reeds 10000 woordplaatsen of 77% van den heelen tekst; en er blijven voor de overige ¾ of 2500 ‘weinig gebruikte’ slechts 3000 woordplaatsen of 23% van den tekst over.

Wat wij totnutoe gevonden hebben, kunnen wij als volgt in beeld brengen. Zie blz. 296.

Onze woordenschat bestaat uit ¾ ‘weinig gebruikte’ en uit ¼ ‘veel gebruikte’ woorden. Dit kunnen wij dus weergeven met een gelijkzijdigen driehoek, dien wij in 4 kleinere driehoeken verdeelen. De kleine driehoek (gemerkt III 1), die met de bovenhelft van den grooten driehoek samenvalt, stelt dus het kwart ‘veelgebruikte woorden’ voor, en de 3 kleine driehoeken in de benedenhelft van den grooten driehoek (respectievelijk gemerkt: 2, I 3 en 4) beteekenen de ¾ ‘weinig gebruikte’ woorden. Die driehoek heet dus terecht: ‘De Woordenschat’.

Alleen heb ik er nu in stippellijnen een omgekeerden driehoek voor: ‘De woordfrequentie’ midden over heen geteekend; en daardoor wordt verzinnebeeld, dat het bovenste kwart van den woordenschat (Driehoek

[p. 296]



illustratie

III 1) een frequentie heeft van driemaal zooveel of de driehoekjes, gemerkt II, III en IV; terwijl de onderste drie kwart van den woordenschat (gemerkt: 2, I 3, 4) slechts een frequentie heeft van één kwart of één driehoekje I 3.

Maar tegen al deze berekeningen kan men ten slotte toch met recht de moeilijkheid maken, dat de teksten en dus ook de cijfers niet groot genoeg zijn; daarom heb ik mij de moeite niet ontzien, om ook uit Kaeding's veel grooter materiaal dezelfde verhoudingen te berekenen.

HOOGDUITSCHE SCHRIJFTAAL Woordenschat Tekstfrequentie
Absoluut getal Percent Absoluut getal Percent
veel gebruikte woorden 642 0,26 8000000 73,8
weinig gebruikte woorden 257358 99,74 3000000 26,2
totaal 258000   11000000  

Welnu, de uitkomsten hiervan zijn geheel en al in de lijn der vorige staatjes; alleen is de disproportie tusschen de ‘veel gebruikte’ en de ‘weinig gebruikte’ hier nog verder gaande, daar hier ¼% ‘veel gebruikte’ woorden al genoeg zijn om 73% van den heelen tekst te vullen, terwijl voor de overige 27% der woordplaatsen het fabelachtig getal van

[p. 297]

99,74% der woorden noodig zijn. De veel gebruikte woorden zijn hier ongelooflijk gering in aantal, terwijl zoo ontzaglijk vele tot de weinig gebruikte behooren. Die ¼% van onzen woordenschat zijn zulke beweeglijke zich overal weer vertoonende vonkelwoorden, dat ze aan den krioelenden mierenhoop daaronder slechts 27% van de plaatsruimte in onze boeken overlaten.

Wij mogen hieruit dus zonder eenigen twijfel de veilige conclusie trekken, dat er een angstwekkend onderscheid bestaat tusschen de veel en de weinig gebruikte woorden; en dat de gevolgen hiervan ontzaglijk moeten zijn. Alleen, het blijkt uit deze eerste gegevens reeds, dat deze enkelvoudige maatstaf van al of niet ééns op 5000 woorden voorkomend: wel heel welsprekend, maar in zich toch blijkbaar niet voldoende is, om het heele gebied der woordfrequentie te overzien.

Welsprekend is deze norma van 1 op 5000 woorden wis en zeker, wijl er zoo duidelijk de omgekeerde evenredigheid door wordt aangegeven, dat ¼ der woorden genoeg is om ¾ van den tekst te vullen en dat de overige ¾ der woorden samen slechts ¼ van den tekst beslaan. Maar ten eerste blijft het nog eenigszins duister, waarom sommige onzer staatjes van dit normale beeld afwijken door het getal der ‘veelgebruikte’ woorden van den woordenschat die samen 75% van den tekst vullen zoo verregaand te verkleinen, en waarom sommige andere staatjes ons juist de afwijking aan de andere zijde vertoonen door het aandeel woordplaatsen van de ¾ toch al weinig voorkomende woorden nog dermate te verminderen.

Toch blijkt hieruit reeds duidelijk dat in het eerste geval een uitgelezen topgroep der allerfrequentst gebruikte, en in het tweede geval een nog krioelender peripherie der allerzeldzaamste woorden zich aan ons openbaart.

II.

Wij gaan dit dus verder onderzoeken en zullen daartoe elk onzer groepen weer verdeelen, de eerste in tweeën, en de tweede in drieën:

1ode topgroep der allerfrequentste woorden die minstens eenmaal op 2000 woorden voorkomen;
2ode groep der frequente woorden die minstens eenmaal op 5000 woorden voorkomen;
3ode groep der weinig gebruikte woorden, die wij nu beter middelgroep zullen noemen, die minstens eenmaal op 10000 woorden voorkomen;
4ode groep der zeldzame woorden die minstens eenmaal op 50000 woorden voorkomen;
5ode peripherie-groep der allerzeldzaamste woorden, die zelfs niet eenmaal op 50000 woorden voorkomen.
[p. 298]

Dat dit in het algemeen voor het Hoogduitsche millioenenmateriaal een aannemelijke indeeling geeft, moge uit het volgende staatje blijken:

HOOG-
DUITSCH
Frequentie Absoluut getal Aandeel Woordenschat Gezamenlijk voorkomen in %
1o topgroep minstens 1:2000 320 0.13% 8.000.000 73
2o frequente groep minstens 1:5000 322 0.13% 90.000 0,8
3o middelgroep minstens 1:10000 547 0.21% 75.000 0,7
4o zeldzame groep minstens 1:50000 3906 1.50% 85.000 0,5
5o peripheriegroep minder dan 1:50000 253079 98.03% 2.750.000 25
totaal   258174   11.000.000  

Hieruit leeren wij reeds heel wat meer. Het alleropvallendste cijfer van heel dit staatje zijn wel de 98% allerzeldzaamste peripherie-woorden, tegenover de anderhalf procent zeldzame, en vooral tegenover de samen nog geen half percent van den woordenschat vormende drie hoogere groepen, die toch samen bijna 75% van de 11 millioen woordplaatsen vullen.

Daaruit blijkt ineens, dat wij met onze eerste wet toch eigenlijk pas een doorsnee van de werkelijkheid gevonden hebben, d.w.z. slechts een gedeeltelijke waarheid, die nog ver van de complete werkelijkheid af is.

Onze werkelijke woordenschat lijkt toch veel minder op een gelijkzijdigen driehoek dan op een Eyffeltoren met een nog veel breeder grondvlak.



illustratie

GELEDING VAN DEN HOOGDUITSCHEN WOORDEN- EN VORMENSCHAT.


[p. 299]

En het gezamenlijke voorkomen, dat de correctie wil zijn van onze beide driehoeken door elkaar, lijkt ten slotte op een champagne-glas. Ter betere vergelijkbaarheid heb ik ook in mijn eerste driehoekteekening deze vijf zelfde groepen al door lijnen gescheiden. En zoo is het gemakkelijk de bijzonderheden van elk af te lezen.



illustratie

HET GEZAMENLIJK VOORKOMEN DER WOORDEN EN VORMEN4).


Bij klein materiaal voldoen de twee driehoeken vrij goed aan de werkelijkheid, maar naar mate het materiaal vollediger wordt, trekken de buitenlijnen onzer driehoeken naar het midden samen, zoodat in de woordenschat-teekening de voet eigenlijk alles of 98% is en de bovenste groepen al langer hoe dunner worden; d.w.z. al langer hoe minder woorden omvatten.

Maar in de teekening van het gezamenlijk voorkomen is het bovenvlak domineerend en beslaat 73% van al het voorkomen. En daarvan begrijpen wij de phaenomenale beteekenis pas, als wij zien dat om die 73% plaatsen te vullen het minimale getal van 320 woorden of 0,13% van den woordenschat voldoende is. Ook hier trekken de drie middengroepen bijna heelemaal weg. Maar de ondergroep met zijn 253079 of 98% aller woorden, haalt toch nog 25% van het gezamenlijke voorkomen.

Iedereen ziet hieruit aanstonds, hoe de woorden onzer vijf groepen dus geheel andere taalgrootheden moeten zijn: wat voor flitsende vonkelwoor-

[p. 300]

den die leden van de topgroep moeten wezen, daar ze bijna overal telkens weer oplichten; en wat voor donkere nietige insecten daartegenover die tallooze krioelende woorden der peripheriegroep zijn. Dit moet natuurlijk hierop berusten, dat die uiterst zeldzame woorden, niet zoozeer uit ongebruikelijke stamwoorden bestaan, maar vooral op minder gewone samenstellingen, afleidingen en verbogen of vervoegde vormen van een vrij frequent hoofd- of stamwoord berusten, wier vorming zóó duidelijk met hun beteekenis verbonden is, dat wij ze toch gemakkelijk onthouden en verstaan. Zoo zijn b.v. in het Nederlandsch de samenstellingen: ‘kopdier en staartdier’ zeker uitermate zeldzaam voorkomende woorden, en toch is er geen gevaar, dat zij buiten gebruik raken; want ze beantwoorden volkomen aan hun beteekenis die zegt: een dier dat geheel en al kop, of een dier, dat geheel en al staart is. Zoo zijn tijloos en ziltig zeker heel zeldzame afleidingen, maar om hun klare vorming toch onmiddellijk te verstaan. De zelfstandige meervoudsvormen gebieden en gelaten komen bijna nimmer voor, maar ze zijn klaar als glas. De vervroegde vormen jullie kwaamt of jullie droegt zijn zeker alles behalve gewoon, maar lijken voor iederen kenner der Nederlandsche taal toch als oude bekenden.

Nu begrijpen we, waarom Aucamp de 1000 meest gebruikte woorden van een taal: staatmakers heeft genoemd. En het is verwonderlijk, wat de taalleeraars, die vooral met vocabulaire selectie werken, in eenige weken of een paar maanden bij hunne leerlingen weten te bereiken. Iedereen ziet ook, hoe ten slotte die eerste namen: ‘veelgebruikt’ en ‘weinig gebruikt’ althans in zóóverre onjuist zijn gebleken, dat ze niet meer passen in het geheel, en eenerzijds door ‘kopgroep’ en ‘frequente groep’ en anderzijds door middelgroep, zeldzame groep en peripheriegroep zijn moeten vervangen worden.

Het is slechts jammer, dat de overige ons ten dienste staande onderzoekingen niet over grooter materiaal beschikken. Want inderdaad blijkt hier wegens het zoo onrustbarend groeiend getal der zeldzaamste peripherie-woorden, dat wij al de andere groepen voor het aanleeren van een taal plegen te onderschatten, zoolang wij die legioenenvolken niet naar den allerlaagsten rang hebben omlaag gedrukt. Daarmee hangt dan natuurlijk vanzelf de wijdloopigheid van het onderzoek samen, en worden de nieuwe taalstatistici hun nieuwe ambacht spoedig moede, en meenen zij als ze aan de 1:10000 of 1:20000 komen, dat het nu langzamerhand welletjes is. Om al deze redenen blijft Kaeding's haan voorloopig koning kraaien, en terecht.

Naar de gegevens van R.C. Eldridge berekende ik het volgende staatje:

[p. 301]

AMERI-
KAANSCHE KRANTTAAL
Frequentie Absoluut getal Aandeel Woordenschat Gezamenlijk voorkomen in %
1o topgroep minstens 1:2000 208 3,5% 28000 60
2o frequente groep minstens 1:5000 376 6,3% 4659 11
3o middelgroep minstens 1:9000 552 9,2% 3373 9
4o zeldzame groep minstens 1:22000 1888 31,4% 4982 12
5o peripheriegroep minstens 1:44000 2976 49,6% 2976 8
totaal   6000   43990  

Men ziet, dat ik de laatste drie groepen anders heb moeten afbakenen. Daarmee komt natuurlijk overeen, dat de 5de groep in het Aandeel Woordenschat hier slechts de helft van 98% haalt. Maar hiermee hangt zeker ook de veel geringer grammatische structuur van het Engelsch samen. Mogelijk speelt hier echter ook de Journalistenregel een rol: dat de krant geen opvallend zeldzame woorden mag gebruiken. Maar de absolute getallen der drie eerste groepen komen goed overeen, zoodat het percentageverschil van het Aandeel in den Woordenschat toch vooral van het ontbreken der zeldzamer woorden afhangt.

Wegens het ontbreken der echte peripherie-groep is het laatste cijfer in de voorlaatste kolom echter voor de heele Engelsche taal, veel te laag. Jammer dat ik Thorndike's boek, die met een tekstmateriaal van 5 millioen werkt, op het oogenblik niet bij de hand heb, om dit ineens met de cijfers te bewijzen. Ik kom hier later op terug.

PLAUTUS Frequentie Absoluut getal Aandeel Woordenschat Gezamenlijk voorkomen in %
1o topgroep minstens 1:2000 408 5% 20438 60
2o frequente groep minstens 1:5000 839 10% 4834 14
3o middelgroep minstens 1:7000 492 6% 1476 4
4o zeldzame groep minstens 1:10000 1198 14% 2396 6
5o peripheriegroep minstens 1:22000 5429 65% 5429 16
totaal   8366   34573  

Nog erger dan hierboven heb ik bij Plautus de laatste drie groepen moeten verzwakken. Maar de 5de groep heeft hier toch nog 65% Aandeel

[p. 302]

in den Woordenschat. Hier zal de sterke grammatische structuur van het Latijn wel aangevuld hebben, wat aan de volledigheid van het onderzoek ontbreekt, de hoogste twee groepen hebben hier relatief te veel woorden. Maar de verhoudingen van het gezamenlijk voorkomen hebben den goeden vorm, veel beter dan bij Eldridge. Dat komt waarschijnlijk omdat Plautus' Comedies ten slotte een veel juister taalbeeld geven, dan de Amerikaansche krant in doorsnee. Toch vormen deze drie staatjes samen een goede typeering, als we maar onthouden dat Kaeding van wege zijn groote getallen, het zekerst den goeden weg wijst. Daarom heb ik trouwens mijn twee laatste illustraties alleen op zijn cijfers gebaseerd.

III.

Om echter de onverwachte excessen boven in de topgroep en onder in de peripherie-groep nog duidelijke uit te laten komen, zullen wij in beide nog eenige kleinere groepen onderscheiden.

Gezamenlijk voorkomen Hoogduitsch Gezamenlijk voorkomen Zuid-Afrikaansch Gezamenlijk voorkomen Plautiniaansch Latijn
Eerste 10 meest gebruikte 18% 25% 12%
De volgende 10 meest gebruikte 9% 10% 7%
Eerste 25 meest gebruikte 33% 40% 22%
Tweede 25 meest gebruikte 12% 12% 8%
Eerste 50 meest gebruikte 45% 54% 30%
Tweede 50 meest gebruikte 11% 9% 9%
De eerste 100 meest gebruikte 56% 61% 39%

Het eerste kenmerk, dat uit deze cijfers voor alle drie gevallen naar voren komt is:

dat de eerste 10 ongeveer 2 x zooveel plaatsen vullen als het 2de 10-tal,

dat de eerste 25 ongeveer 3 x zooveel plaatsen vullen als het 2de 25-tal en dat de eerste 50 ongeveer 4 x zooveel plaatsen vullen als het 2de 50-tal. En het tweede is, dat wij met de 100 frequentste woorden te kennen reeds meer dan de helft van een modernen taaltekst verstaan; terwijl dit eigenlijk ook bij Plautus uitkomt: daar hier de vele vervoegingsvormen van het Latijn allemaal voor afzonderlijke woorden geteld zijn; waardoor het heele aspect der percenten verschoven is. Geen wonder dus, dat de moderne taalleeraars hun beginnelingen thans eerst en vooral de 10, 25, 50, 100 frequentste woorden trachten bij te brengen.

[p. 303]

Voor de minstgebruikte woorden geven wij een staatje der woorden, die in den heelen onderzochten tekst slechts 1 tot 5 keer voorkomen.

In Kaedings hoogduitsche teksten van 11000000 woorden komen de:

allerzeldzaamste }126.862 woorden slechts 1 maal voor = 49 % van den woordenschat = 258173
zeldzaamste { 34.523 woorden slechts 2 maal voor = 13⅓% van den woordenschat = 258173
zeldzaamste { 17.072 woorden slechts 3 maal voor = 6½% van den woordenschat = 258173
zeldzaamste { 11.144 woorden slechts 4 maal voor = 4⅓% van den woordenschat = 258173
zeldzaamste { 7.850 woorden slechts 5 maal voor = 3 % van den woordenschat 258173
  _____ _____  
samen 197.451 woorden van 1 tot 5 maal voor = 76 % van den woordenschat = 258173
en slechts 20.042 woorden van 6 tot 10 maal voor = 7,76% van den woordenschat = 258173

Dat wil dus zeggen dat de allerzeldzaamste groep alléén 7 maal, en de 5 zeldzaamste groepen samen 10 maal zooveel verschillende woorden bevatten als de 5 volgende zeldzaamste groepen van 6 tot 10 samen.

Evenals in de hoogste topgroep de toename dus plotseling onverwacht hoog opliep, is ook in de onderste peripheriegroep het zeldzamer wordend vereenzamen der afzonderlijke woorden dus verregaand opvallend; en zoo worden de extreme vormen van het champagne-glas dus nog eens uitdrukkelijk bevestigd.

Daarmee komen ook de andere talen overeen.

In den tekst van Plautus van 34000 woorden komen de:

allerzeldzaamste } 5429 woorden slechts 1 maal voor = 68 % van den woordenschat = 8000
zeldzaamste { 1198 woorden slechts 2 maal voor = 15 % van den woordenschat = 8000
zeldzaamste { 492 woorden slechts 3 maal voor = 6 % van den woordenschat = 8000
zeldzaamste { 299 woorden slechts 4 maal voor = 3½% van den woordenschat = 8000
zeldzaamste { 161 woorden slechts 5 maal voor = 2 % van den woordenschat = 8000
  _____ _____  
samen 7579 woorden van 1 tot 5 maal voor = 94½% van den woordenschat = 8000
en slechts 379 woorden van 6 tot 10 maal voor = 4½% van den woordenschat = 8000

De allerzeldzaamste groep bevat hier dus alléén reeds 15 maal, en de 5 zeldzaamste groepen samen omvatten hier dus zelfs 21 maal zooveel woorden als de 5 volgende zeldzaamste groepen. Inderdaad de functioneele verhouding: hoe talrijker des te zeldzamer, en hoe zeldzamer des te talrijker blijft hier dóórgaan tot in zijn uiterste consequenties.

 

Natuurlijk is de verhouding in de Journalistentaal iets minder extreem. In de kranten Engelsche teksten = 43000 woorden van Eldridge komen de:

[p. 304]

allerzeldzaamste }2976 woorden slechts 1 maal voor = 49½% van den woordenschat = 6000
zeldzaamste { 1079 woorden slechts 2 maal voor = 18% van den woordenschat = 6000
zeldzaamste { 516 woorden slechts 3 maal voor = 8½% van den woordenschat = 6000
zeldzaamste { 294 woorden slechts 4 maal voor = 4½% van den woordenschat = 6000
zeldzaamste { 212 woorden slechts 5 maal voor = 3½% van den woordenschat = 6000
  _____ _____  
samen 5077 woorden van 1 tot 5 maal voor = 84% van den woordenschat = 6000
en slechts 471 woorden van 6 tot 10 maal voor = 8% van den woordenschat = 6000

maar dat is toch voor de allerzeldzaamste groep nog 6 maal, en voor de 5 zeldzaamste groepen samen 10 maal zooveel woorden als voor de 5 volgende groepen.

In den Chineeschen tekst van 13000 Pekingsche karakterwoorden komen de:

allerzeldzaamste 2046 woorden slechts 1 maal voor = 62% van den woordenschat = 3300
zeldzaamste { 494 woorden slechts 2 maal voor = 15% van den woordenschat = 3300
zeldzaamste { 216 woorden slechts 3 maal voor = 6½% van den woordenschat = 3300
zeldzaamste { 100 woorden slechts 4 maal voor = 3½% van den woordenschat = 3300
zeldzaamste { 99 woorden slechts 5 maal voor = 3% van den woordenschat = 3300
  _____ _____  
samen 2955 woorden van 1 tot 5 maal voor = 89½% van den woordenschat = 3300
en slechts 182 woorden van 6 tot 10 maal voor = 5½% van den woordenschat = 3300

Hier zijn dus dezelfde verhoudingen 11 en 16 maal.

Trots allerlei kleine toevallige afwijkingen komen hier dus telkens dezelfde onverwacht groote verschillen aan het licht. Wij hebben ook hier dus met een consequenten taalregel te doen.

Elke taal heeft dus een ontstellende hoeveelheid van de allerzeldzaamste woorden en vormen: en hoe zeldzamer ze worden, des te grooter is hun getal. Dit ontzaglijke getal zeldzame woorden is natuurlijk pas een gevolg der hoogere menschelijke beschaving. Bij het groeien dier beschaving zijn de verschillende beschaafde volken allemaal tegen die fatale groote getallen van zeldzame woorden aangebotst. En alleen de besten onder hen zijn erin geslaagd, zich uit deze impasse te redden. Maar eer wij daar nader op ingaan, moeten wij na al die cijfers toch eerst de taalfeiten zelf dier verschillende groepen nog wat nader beschouwen.

IV.

Als wij ons nu naar de topgroep richten dan blijkt het, - om ons eerst even met de drie hoogste woorden bezig te houden - dat die voor het Duitsch zijn: ‘die, der, und’, die alle drie op elke dertig tekst-

[p. 305]

woorden ongeveer éénmaal voorkomen. In het Afrikaansch zijn het ‘die, en, nie’; waarvan ‘die’ zelfs op elke 14 woorden minstens éénmaal voorkomt, en de volgende twee resp. op elke 35 en 42 woorden. In het Latijn van Plautus zijn het ‘quid, ego, me’, die respectievelijk op de 66, 67 en 70 woorden eenmaal voorkomen.

Maar nu volgen voor deze drie talen elk: de eerste 100 woorden in de volgorde van hun voorkomen, met de frequentiecijfers erbij. Hieruit valt voor den geduldigen en deskundigen lezer heel wat te leeren. Want hierin liggen eigenlijk bijna al mijn slotconclusies al aangelegd.

Hoogduitsche tekst van totaal 11 millioen woorden, dus 40 x meer dan de Z. Afrik. lijst en 320 x meer dan Plautus. Z. Afrikaansche tekst van totaal 270000 woorden, 8 x meer dan de volgende lijst van Plautus. Plautinisch Latijn, een tekst van 34500 woorden.
 
1 die 358054 die 18851 quid 514
2 der 354526 en 7894 ego 506
3 und 320985 nie 6464 me 482
4 zu 258584 het 6454 est 473
5 in 214308 'n 6043 ut 445
6 ein 153095 van 5777 te 408
7 an 145968 is 4890 et 373
8 den 141542 in 4158 si 349
9 auf 127349 ek 4127 in 338
10 das 127137 dit 3721 non 308
11 von 118088 te 3562 mihi 305
12 nicht 115342 hy 3417 tu 300
13 mit 109958 sy 3074 tibi 296
14 dem 103691 wat 2914 qui 295
15 des 103171 om 2772 atque 275
16 aus 102961 vir 2671 nunc 250
17 sie 102212 was 2551 quod 245
18 ist 96973 dat 2534 hic 212
19 so 96873 op 2484 ad 199
20 sich 92995 maar 2468 iam 191
21 dass 87969 ons 2463 hoc 188
22 er 87029 my 2230 quam 170
23 es 86778 sal 1991 sed 170

[p. 306]

24 vor 83810 met 1980 esse 169
25 ich 82213 hulle 1947 nam 169
26 über 77081 daar 1854 id 159
27 da 75739 as 1829 neque 145
28 nach 74500 u 1884 ita 140
29 eine 69918 so 1578 hercle 134
30 auch 60750 aan 1554 ne 129
31 durch 59999 word 1504 ubi 123
32 als 52279 jij 1487 mi 122
33 um 56968 toe 1413 modo 114
34 bei 55553 kan 1344 quae 113
35 wie 54988 nou 1292 rem 108
36 für 54406 1223 quom 102
37 ab 52261 dan 1194 haec 101
38 im 50909 na 1191 sunt 98
39 nehmen 45139 kom 1165 quin 94
40 aber 44929 hom 1132 sum 94
41 man 44302 ook 1108 nisi 93
42 unter 41432 haar 1105 edepol 92
43 her 41358 by 1086 quidem 91
44 noch 41275 gaan 1069 a 88
45 wenn 40311 jou 1021 cum 88
46 nur 39508 nog 959 es 86
47 war 39395 moet 943 aut 84
48 werden 39192 of 942 hodie 84
49 recht 38746 al 925 ex 83
50 hat 38164 uit 834 etiam 81
51 wir 37840 baie 811 hinc 79
52 gegen 36728 deur 798 huc 78
53 was 35221 net 764 sit 78
54 wird 34589 wees 745 de 77
55 sein 55232   illi 77
56 einen 31538 se 663 hunc 76
57 welche 31001 wil 653 is 75
58 sind 30538 een 646 volo 74
59 oder 30329 laat 605 di 72
60 dar 30097 maak 598 bene 70
61 haben 29270 sien 594 aedis 68
62 einer 28396 oor 579 homo 67
63 hin 27958 hierdie 578 quo 66

[p. 307]

64 mir 26804 tot 561 vis 66
65 doch 25562 oom 546 an 64
66 ihm 25214 soos 524 hominem 64
67 diese 24706 julle 521 quia 64
68 einem 24247 ou 497 hau(d) 63
69 ihr 23790 ander 493 argentum 62
70 uns 23765 want 492 istuc 62
71 mehr 23490 hoe 491 res 62
72 zum 23279 weet 491 at 61
73 zur 22796 ja 487 quis 61
74 hier 22601 tog 477 scio 61
75 kann 22117 voor 470 sis 58
76 dieser 21877 sou 452 illum 56
77 zeit 21596 dis 449 male 56
78 mich 21334 hier 441 meum 56
79 ihn 20785 sit 438 intro 55
80 selbst 20542 groot 433 ille 54
81 wo 20518 waar 430 ab 53
82 bis 20221 kijk 429 ei 53
83 du 20111 meer 428 eo 53
84 hatte 19932 jaar 427 mea 53
85 wieder 19828 onder 420 se 51
86 seine 19722 water 416 verum 51
87 viel 19517 goed 411 hanc 50
88 nun 19058 gee 404 nec 50
89 am 18524 krij 399 i 49
90 denn 18488 staan 395 meo 48
91 wohl 17608 doen 392 faciam 47
92 sehr 17352 bly 385 immo 47
93 dann 16950 meneer 369 pater 47
94 schon 16748 twee 360 nihil 46
95 meine 16199 kon 355 pol 45
96 habe 16156 vra 355 nos 44
97 ihre 16098 af 354 dum 43
98 alle 15511 loop 350 ea 43
99 seiner 15311 geen 342 facere 43
100 ihnen 15254 huis 330 sine 43

Wat de vorm dezer woorden betreft, 't zijn bijna allemaal heele korte woorden, in overweldigende meerderheid monosyllaba, waarvan sommige

[p. 308]

uit slechts één, vele uit slechts twee, en de rest uit drie of meer phonemen bestaan. Als wij nu over de beteekenis iets gaan zeggen, moeten wij er vooral op letten, geen conclusies te trekken uit feiten, die alleen uit de Afrikaansche lijst te bewijzen zijn; want de heer Aucamp heeft bij zijn onderzoek, moedwillig de homoniemen voor één woord gerekend, zoodat hij b.v. zelf erkent dat het woord ‘weer’ tot vier woordsoorten gerekend moet worden. Om dezelfde reden, dat er namelijk vaak niet aan te zien is, welk woord bedoeld wordt, hebben wij ook de Engelsche lijst van Eldridge achterwege gelaten.

De eerste en derde pers. zijn veel frequenter dan de tweede. De enkelv. vormen der pronomina komen veel vaker voor dan de pluralia.

De nominatieven en infinitieven zijn veel frequenter dan de casus en de verba finita, de nevenschikkende voegwoorden veel frequenter dan de onderschikkende. Als wij ons nu afvragen: welke woordsoorten hiervoor dus het meest gebruikt worden, dan luidt het antwoord onmiddellijk: de lidwoorden en eenvoudigste pronomina, de nevenschikkende voegwoorden, voorzetsels en primitieve bijwoorden; dus vooral indeclinabilia.

De hoogste vervoegde werkwoordsoorten zijn: ist, wird, kann, hatte en habe; est, sunt, sum, es, sit, volo, vis, scio, sis, faciam.

Is het wonder, dat wij hier zooveel onregelmatige vormen en het heele Suppletiv-Wesen aantreffen?5)

De infinitieven verschijnen bijna overal pas ongeveer op de helft der lijst: nehmen, werden, sein, haben; gaan, sien, staan, doen; esse, facere. En de substantieven, adjectieven en telwoorden schitteren bijna nog heelemaal door hun afwezigheid, want de Vocatieven: ‘Oom, meneer’ en de uitroepen hercle, edepol mogen hier toch niet voor gelden, evenmin als ‘man, baie; homo, hominem, res, rem en pater’, die bijna zuiver pronomina zijn. Resten dus nog slechts: ‘Zeit, jaar, water, huis; argentum en aedis-’ voor de substantieven. En als wij van de adjectieven ‘viel, ander, geen en verum’ tot de pronomina of adverbia rekenen, blijven er ook hier slechts: ‘groot en goed’, die zeker aan hun niet-adjectivisch gebruik deze hooge plaats te danken hebben. Van de telwoorden verschijnt alleen ‘twee’ heel onderaan in de middelste lijst. Wij kunnen dus gerust zeggen, dat er van een regelmatige verbuiging of vervoeging in deze honderd frequentste woorden nog geen sprake is. Want de pronominale vormen die voorkomen, zijn zoo goed als alle onregelmatig. En dit geldt niet alleen voor een taal met arme flexie als het Afrikaansch, maar ook voor de flexierijke talen, als het Duitsch en het Latijn. Het

[p. 309]

moet echter erkend worden, dat het Duitsch in deze 100 woorden iets meer of althans regelmatiger flecteert dan het Plautinisch Latijn.

De heele regelmatige declinatie en conjugatie met al hare klassen hooren dus niet in de hoogere topgroep thuis.

Alhoewel nu echter de heele topgroep met deze eerste honderd woorden nog niet uitgeput is, is zij er toch wel voldoende mee gekarakteriseerd en kunnen wij de verdere twee of drie honderdtallen als een overgang naar de bovengroep beschouwen. In het Afrikaansch omvat de topgroep slechts 190 woorden. Daarom neem ik volledigheidshalve deze 90 resteerende woorden nog op.

ma, mooi, hou, daardie, mense, tijd, hoor, begin, gemaak, bietjie, dink, gesê, dag, hul, eers, paar, teen, man, nooit, mens, nee, weg, neem, waarde, alles, antwoord, seker, praat, iets, altijd, niks, moes, klein, gehad, hele, vertel, elke, eerste, gekom, gesien, lê, mos, darem, werk, self, wel, lijk, grond, almal, plaas, gou, goeie, trek, verder, wou, hê, geld, moeder, lewe, tussen, voel, betaal, daarvan, vandag, anders, drie, dus, wie, ag, help, sonder, saam, alleen, omtrent, roep, sodat, terwijl, lank, dae, geval, omdat, reg,

Men ziet: hier zijn op het laatst reeds de meest gebruikte ondergeschikte voegwoorden verschenen. Ook zijn er eenige substantieven, adjectieven en telwoorden in de vlakte gekomen.

Alhoewel ook de tweede frequente groep zeer leerzaam is, om aandachtig na te gaan, is het voor een tijdschrift-artikel niet loonend deze lijsten in extenso af te drukken.

Wat den klankvorm betreft, worden de woorden hier regelmatig al iets grooter. In het Latijn van Plautus komen al meer en meer drie- en vierlettergrepige woorden voor. Maar voor de vormleer is het verschil met de topgroep nog meer opvallend. In deze tweede groep behooren toch bijna al de 440 woorden tot de eenvoudigste voorbeelden der gewone vervoegde werkwoorden en der regelmatig verbogen substantieven en adjectieven met nog eenige bijvoeglijke voornaamwoorden. Men zou bijna denken in een Latijnsche thema der laagste Latijnsche klas verdwaald te zijn. Hier vieren het verbum en het nomen hoogtij. Maar ook in het Zuid-Afrikaansch komen hier, trots het kreoolsch karakter toch een heele hoop vervoegde werkwoordsvormen, participia en meervoudige nomina en een paar heel regelmatige afleidingen voor.

Hierop volgt nu de middelgroep; waar ten eerste de woorden en vormen in doorsnee weer langer worden, wat vooral in het Latijn door een overwicht der meersilbige uitkomt; maar waarin ten tweede een duidelijke vermeerdering van eenigszins zeldzamer conjugatie-vormen aan het licht

[p. 310]

komt. Eer onze Gymnasium-leerlingen al deze Imperatief en Conjunctiefvormen feilloos weten thuis te brengen, zullen zij gewoonlijk hun eerste klas wel echter den rug hebben. Want juist de minder voor de hand liggende naamvallen, meervoudsvormen en persoonsnamen komen hier al langer hoe vaker voor. In deze middelgroep is het ten slotte niets dan gladde maar rijke congruentie, vlotte declinatie en handige conjugatie, al wat de klok slaat; terwijl de opvallender afleidingen en samenstellingen nog uitzonderingen zijn.

Maar die komen nu juist geducht in de beide ondergroepen los; wat natuurlijk in het Latijn vaak met vier-, vijf- en zessilbigheid gepaard gaat. Wie moeilijke Latijnsche declinatie- en conjugatie-thema's moet maken, kan hier zijn gading vinden. Nu pas wordt Plautus' vormleer, met al haar afwijkingen en uitzonderingen compleet. Hier merkt elke afgestudeerde gymnasiast, dat hij toch wel wat geleerd heeft in al die Latijnsche klassen; want dat je zonder een rijke casus-ervaring en een gremelenden conjugatie-rijkdom, van deze Plautus-woorden toch letterlijk niets meer verstaat. Het is een gekrioel van zeldzame vormen, als het ware bijeengezet, om te toonen dat het Latijn toch ook wel eens moeilijk kan zijn, althans voor ons.

* * *

Onze eerste algemeene conclusie is dus: dat slechts een betrekkelijk klein getal b.v. van 1 tot 15% der woorden en vormen waarlijk frequent zijn, maar dan ook ineens veel hooger frequenties halen, dan wij gedacht hadden, zoodat driekwart van onze teksten uit niets dan de aaneenrijing van zulke vonkelwoordjes bestaat; maar dat daarentegen de allermeeste woorden tot ongeveer 85% of 99% allemaal zeldzaam zijn, en dat er juist van die allerzeldzaamste toch ontelbare legioenen noodig zijn voor de taal van een beschaafd volk.

Onze tweede conclusie zou in nauwe aansluiting hierbij het verouderen der woorden moeten behandelen. Maar dat zou ons op een heel ander terrein brengen en bewaren wij dus nog wel eens voor een anderen keer.

Maar onze derde, en meest belangrijke conclusie is zeker wel deze, dat onze moderne Europeesche talen op een zeer eigenaardige en totnutoe geheel onbekende wijze zijn opgebouwd.

De twee eerste groepen onzer meeest-gebruikelijke vonkelwoorden zijn slechts heel klein, heel fel, heel gering in getal en bestaan uit louter onverbuigbare en onvervoegbare en eenige enkelvoudige schijnbare flexievormen, die allemaal voorbeelden van het Suppletiv-wezen zijn en in ons samen een heel eenvoudig en geïsoleerd taalsysteem vormen; waarmee wij minstens drie kwart van al onze taaluitingen vullen.

[p. 311]

Dan volgt er een kleine dubbele kerngroep van enkelvoudige namen en werkwoorden; die een heel eenvoudige verbuiging en vervoeging toonen, en zoo als het ware de methode vastleggen, die de verdere onderwereld zal beheerschen. Maar daaronder wemelt een reusachtige mierenhoop van duizenden (elk op zich zeer zeldzame) verbogen, vervoegde, afgeleide en samengestelde vormen, die wij, dank zij ons grammaticaal flexie-systeem, toch vrij gemakkelijk onthouden en verstaan.

Onze Europeesche talen hebben dus inderdaad den diep-gemotiveerden vorm van een fijn geslepen kristallen champagneglas, met een bokaal van weinige maar zeer frequent voorkomende indeclinabilia - ik zou ze vonkende champagnewoorden durven noemen - maar met een voet van flexie-vormen, waarvan de dunne steel ons de eenvoudige normen inprent, maar het massieve standvlak (of de mierenhoop) de tallooze consequente en verwonderlijkste toepassingen omvat, die ik niet zonder reden om hun geleding: insecten heb genoemd.

Iedere kenner ziet, dat de flecteerende talen hiermee voor onze verbaasde blikken, een algeheele gedaanteverwisseling hebben ondergaan. Wat wij tot nu toe als een taaie brave rups aanzagen, nam plotseling de vormen van een ranken fijnen vlinder aan, die niet alleen, gelijk alledaagsche dieren, langzaam maar zeker weet te kruipen, maar nu opeens ook het wonder van het veel doelmatiger elegante vliegen verstaat. De heele flecteerende taalvorm heeft zich zoo toch als een fijn mnemotechnisch ziele-instrument voor ons onthuld, waarmee wij erin slagen de honderdduizenden begrippen, die wij in onze cultuurtaal noodig hebben, op vernuftige wijze van elkander te onderscheiden, door ze uit een vasten bekenden woord- of wortelvorm en een heele reeks van verbleekte samenstellingsdeelen, voor- en achtervoegsels, of voor adaptatie toepasselijk gemaakte verbuigings- en vervoegingsvormen samen aaneen te voegen. Wat wij dus tot nu toe ten onrechte beschouwd hebben als een vorm van synthetisch denken, heeft daarmee weinig of niets te maken, daar wij - nog even goed als Plautus - minstens 75% en vaak 90% van al onze taaldenkprocessen voltrekken met louter geïsoleerde taalmiddelen. En van de flectie blijft dan in waarheid niets anders over als een wonderfijn geciseleerd geheugenmiddel, om zonder eenige merkbare moeite aan elkander de duizenden reëele voorstellingen en begrippen aan te wijzen, die wij voor onze rijk ontwikkelde gedachten-meedeeling noodig hebben. Dit bewijst ons het Suppletiv-Wesen zoo klaar, dat immers juist de frequentste en sprekendste woordvormen, als die door een te verregaande analogie-werking van onderen af, in de boeien van de flecteerende vormleer dreigden te raken; zich daarvan vrijmachtig wisten los te maken, en juist de on-

[p. 312]

regelmatigheid als een positieve qualiteit hebben opgezocht, gevonden en bewaard. De copula van alle judicia en het heele verdere werkwoord ‘zijn’ is daar het vuurtorenhooge modelvoorbeeld van. ‘Wir können, zegt Osthoff, bei genauerem Zusehen nicht verkennen, dass es lauter dem seelischen Interesse des Sprechenden Menschen näher liegende Vorstellungsobjecte sind, deren sprachliche Beziehungen als im Banne der suppletivischen Ausdrucks- und Formenbildungsweise stehend sich ausweisen’ (blz. 41). Inderdaad vonkende champagnewoorden interesseeren vanzelf. En dat wordt nu ineens door de aan Osthoff nog onbekende hyperfrequentie van al die Suppletiv-vormen bewezen. Maar verderop wijst er ook Osthoff terecht op, dat juist dat flecteerende samenstellen van namen en termen toch altijd min of meer een psychisch object op een afstand veronderstelt, terwijl de ons onmiddellijk aansprekende bewustzijnsfeiten elk één eigen en op geen enkel ander woord gelijkenden taalvorm eischen. ‘Die Dinge der Vorstellungswelt werden desto schärfer und individueller erfasst, je näher sie dem Empfinden und Denken des Sprechenden treten, je intensiver und lebhafter sie in Folge dessen das Gemüt zu ergreifen, das psychische Interesse des Einzelnen zu erregen pflegen’ (blz. 42). Juist òmdat ze ons na liggen, moesten ze elk een unicum worden.

Daaruit begrijpen wij nu dus ook, waarom 80 tot 90% van onze normale taal niet in flexie-vormen, samenstellingen of afleidingen gezegd kan worden, maar in schijnbare vormeloosheid, of dieper en beter gezegd in telkens weer geheel geïsoleerde vormen, moet worden ingekleed. Maar dan blijkt daaruit nu ook, dat G. Curtius, H. Morf, H. Schuchardt, R. Thurneysen en O. Bloch tegen de Junggramatiker gelijk hebben gehad, met juist voor de frequentste woorden der menschentaal een regelmatige phoneemontwikkeling te loochenen. Want met de regelmatige werkende klankwetten gaat het weer precies als met de flecteerende regelmaat. Ook die passieve, organische en biologisch gefundeerde automatisch-verloopende klankveranderingen laten wij rustig begaan en geworden, zoolang wij er niet al te intiem en te onmiddellijk bij betrokken worden. Maar zoodra dit woorden of begrippen betreft, die wij in elk ons interesseerend gesprek aanhoudend moeten herhalen en accentueeren, dan weigeren wij instinctmatig - vaak zelfs bewust - aan dát woord juist een nieuwere modeuitspraak te geven die wij in andere gevallen toch laten passeeren. Daarvoor zit het ons te diep en komt het ons te na. Het is toch immers ook een bekend feit, dat vaak zeer beschaafde menschen, die een dialect als jeugd- en moedertaal hebben geleerd, later, juist als iets hun te na komt, of aan het hart ligt, daarvoor bewust den afwijkenden dialectvorm kiezen, en den algemeenen taalvorm versmaden.

[p. 313]

Zoo is dus dit schijnbaar zoo abstract en ondankbaar lijkend onderzoek der algemeene woordfrequentie blijkbaar tot een goudmijn aan het worden van onvermoede linguistische verhoudingen, consequenties en preferenties; kunstgrepen en cultuurveroveringen, waarvan wij bij deze onze eerste aanboring natuurlijk nog pas een eerste glimp hebben kunnen bovenbrengen, maar die voor het verder onderzoek nog veel meer belooft. Wij komen er dan ook binnenkort nog nader op terug.

 

Nijmegen, 17 Januari 1939.

JAC. VAN GINNEKEN.