| |
4. Beschrijving en theorie
Het blijft onmogelijk om in het bestek van deze openbare les alle onderdelen te bespreken die onlosmakelijk verbonden zijn met de lexicale beschrijving van woorden. Ik heb niet meer te bieden dan steentjes uit een mozaïek en omdat de lokroep van de beschrijving van betekenissen en gebruiksmogelijkheden en hun combinatorisch vermogen zo betoverend is, zal ik mij daartoe beperken, wetend dat ik de lexicografische werkelijkheid versimpel. Maar voor ik daartoe overga eerst nog dit.
De vraag of lexicografie een kunst is of een wetenschap is wat mij betreft meer een kwestie voor wetenschapsfilosofen. Persoonlijk ben ik van mening dat er geen praktijk is zonder theorie. Meer dan duizenden jaren hebben lexicografen lexicale triomfbogen en wolkenkrabbers opgetrokken en zoiets is onmogelijk zonder theoretische lexicografie, al was het alleen maar omdat iemand die een woordenboek schrijft zich bij alles wat hij doet laat inspireren door beginselen en beweringen van linguïstische aard. De lexicograaf is meestal een door de praktijk beproefde veldwerker die telkens opnieuw betere woordenboeken wil schrijven. Dat is evenwel eerst mogelijk als hij zich op
| |
| |
de hoogte houdt van de theoretische ontwikkelingen in de domeinen die relevant zijn voor lexicografie. Dat is dan o.a. de theoretische semantiek (Swanepoel 1994).
Het is het mal du siècle en tevens de uitdaging van ons vak dat er nog geen enkele samenhangende theorie bestaat om alle woordtypen te analyseren en de semantische structuur ervan systematisch te representeren. MelĨuk met zijn lexicale functies, het semantische frame van Fillmore, de functionele grammatica van de veel te vroeg overleden Simon Dik, het generatieve lexicon van Pustojevski, de prototype semantiek van Lakoff en de conceptuele semantiek van Jackendoff, zij alle schieten tekort en noodzaken tot aanpassingen en aanvullingen (Verkuyl 1994: 4). Maar de lexicograaf kan daarmee leven. Hij gebruikt van de linguïstische theorievorming wat hij gebruiken kan en hij stoort zich niet aan een ongenuanceerde uitspraak als zou hij zich daardoor kwalificeren als de hyena van de linguïstiek.
De lexicograaf uit onze tijd is een zeer zelfbewuste taalkundige. Hij is pragmatisch, want hij maakt producten die door vele collega's gebruikt worden. Hij is goed geschoold en bereid om over de omheining van zijn eigen discipline heen te kijken. Hij is allesbehalve wereldvreemd en niet langer een ‘harmless drudge’ of dorre boekhouder van een taal. De redacteuren van W(E)TEN hebben hun training en opleiding gehad bij het WNT of VMNW. Daar hebben zij geleerd hoe zij de betekeniskenmerken van verschillende woordsoorten kunnen identificeren. Daar ook hebben zij in praktijk gebracht op welke wijze die kenmerken het best beschreven kunnen worden. Als geen ander weten zij te onderscheiden tussen linguïstische betekenis en contextbetekenis. Dat alles betekent natuurlijk niet dat de beschrijving van de betekenis en de gebruiksmogelijkheden van de woorden op een identieke wijze moet gebeuren als in een historisch woordenboek van het type WNT.
| |
| |
De eerste vraag die de redactie van W(E)TEN zal stellen, is dan ook: ‘Wat is de geschiktste betekenisstructuur voor ons woordenboek? Is dat een platte structuur waarin alle betekenissen dezelfde status hebben, of is dat een hiërarchische?’ Met dat laatste bedoel ik dan: loopt de presentatie van de betekenis van algemeen naar bijzonder, van letterlijk naar figuurlijk, van frequent naar minder frequent, van prototypisch naar perifeer enz.
Aan het begin van een nieuw woordenboek zoekt de lexicograaf vooral ook naar nog betere antwoorden op vragen als: wat telt nu precies als een woordenboekbetekenis; op grond waarvan moeten de betekenissen van een woord of van een woordgroep onderscheiden worden; hoeveel en welke betekenissen moeten wij voor een specifiek woord of een specifieke woordgroep uittekenen; in welke gevallen moet een betekenis ondergebracht worden bij een bestaande betekenis en in welke gevallen moet er sprake zijn van een zelfstandige betekenis; wanneer breng je nuances onder een algemene noemer samen en wanneer splits je in een meer specifieke betekenis? (Vgl. ook Swanepoel 1994). En als iedere betekenis onderscheiden wordt in termen van bovenklasse en specificerende kenmerken geef je dan ook de relaties aan die de afzonderlijke betekenissen onderhouden met andere en hoeveel lagen onderscheid je daarbij? In het synoniemenwoordenboek dat ik voor Van Dale mocht maken (Van Sterkenburg 1991b), structureerden wij in de folio-uitgave slechts twee niveaus, omdat de typografie ons parten speelde. Die niveaus zijn dan de ingang (het hyperoniem) met alle directe hyponiemen. In voorkomende gevallen zijn er altijd doorverwijzingen naar hogere of lagere niveaus. Zeker in een elektronische uitgave is die beperking niet meer aanwezig.
En hoe zit het met aard en opbouw van de definitie? Niemand hoeft de redacteuren van het WNT te leren wat de beste lexicografische definitie is. Wat zij wel als wens hebben, is dat er voor bepaalde categorieën werkwoorden, zoals die welke een emotie uitdrukken, of voor werkwoorden van geluid vaste sjablonen ontwikkeld worden, die zij bij hun beschrijving kun- | |
| |
nen gebruiken. Nemen wij een groep werkwoorden als de volgende: bakken, barbecuen, blancheren, braden, frituren, fruiten, gratineren, grilleren, koken, pocheren, poffen, roken, roosteren, smoren, stomen, stoven. Deze groep is niet uitputtend zult u zeggen. En dat klopt, want fonduen en gourmetten ontbreken bijvoorbeeld. Via een analytische definitie zal de beroepslexicograaf deze werkwoorden definiëren als ‘voedsel bereiden door verhitting’. Maar uit welke set kenmerken kan hij kiezen om al deze werkwoorden in voldoende en noodzakelijke kenmerken van elkaar te onderscheiden? Een sjabloon voor deze groep zou kunnen zijn:
- | intensiteit en gradatie van de verhitting: lang, kort, snel, traag, heet, koel |
- | ingrediënt dat bij de bereiding gebruikt wordt: vocht, vet, as, olie, rook, kokend water |
- | instrument of apparaat dat gebruikt wordt: oven, bakplaat, braadpan, koekenpan, kookpan, rooster enz. |
- | selectierestricties op het onderwerp in termen van: bezield, menselijk |
- | aard van de complementen bij het werkwoord: aardappels, kastanjes, spijzen, vlees enz. |
Ik ben ervan overtuigd dat de lexicograaf voor het maken van adequate definities een bondgenootschap moet sluiten met de formele semantiek. Graag zeg ik Verkuyl na dat verbetering van de definities bewerkstelligd kan worden door een set van theoretische algebraïsche notaties te gebruiken. Niet in de definities zelf, maar als betrouwbare controle op die definities (Verkuyl 1994: 5 en 1996: 109-117, 125-128).
Sprekend over sjablonen en frames van samenhangende woorden is ook belangrijk wat Moerdijk opmerkt over het semantisch potentieel dat zo'n samenhangende groep van woorden heeft. Hij houdt een vurig pleidooi voor een frame voor de woorden die een handeling aanduiden en baseert zich bij de uitwerking daarvan op empirisch taalmateriaal. Aan zo'n frame heeft de lexicograaf behoefte, omdat hij in zijn materiaal allerlei verschijnselen van
| |
| |
taalgebruik vindt die meestal als contextbetekenis of individuele afwijkingen werden afgedaan en waarvoor bij een polyseem woord zelden een structurele verklaring werd gegeven, laat staan dat de relaties tussen de conventionele betekenis en deze contextbetekenis tot een systematische beschrijving leidden. In het handelingsframe van Moerdijk is m.a.w. ook plaats voor gebruiksbetekenissen waartussen een aantoonbare samenhang bestaat, voor metoniemen dus (Moerdijk 1989; 1990; 1993).
Een mooi voorbeeld van zo'n geval van bijzonder taalgebruik is het woord rilsnip, dat in de koude winter van 1996-1997 ineens opdook. Het ging hier niet om ‘een van kou rillende loopvogel met zeer lange buigzame snavel’, maar om ‘een biljet van honderd gulden dat bijstandsgerechtigden kregen als tegemoetkoming ter bestrijding van de hoge stookkosten ten gevolge van de extreme kou’. Tussen snip ‘loopvogel’ en de gebruiksbetekenis ‘bankbiljet van honderd gulden’ bestaat een betrekking die wij aanduiden met metonymie. Daarbij gaat het altijd om bijzondere betrekkingen: in ons geval om die tussen vogel en het voorwerp waarop die vogel is afgebeeld. Metonymische betrekkingen, zegt Moerdijk (1993: 26-27), ‘zijn niet gebonden aan de afzonderlijke specifieke woordbetekenis maar vormen een soort van onderliggend stramien waarop de metonymische uitbreiding geborduurd kan worden’.
Wetenschappelijke woordenboeken mogen zich niet beperken tot de beschrijving van uitsluitend de conventionele betekenis van woorden. Ook de individuele afwijkingen moeten er in worden verantwoord. Moerdijk heeft de weg gewezen voor de handelingswoorden. Er moeten meer vergelijkbare stramienen komen. En deze hartenkreet heeft niets met waan van de dag of met een nieuwe lexicografische hype te maken.
Wij hebben iets gezegd over een nog betere beschrijving van de betekenissen. Waar ik zelf buitengewoon aan hecht, is dat wij met W(E)TEN meer doen dan er woordvormen in alfabetische volgorde in opnemen, waarvan de
| |
| |
betekenis kan worden opgezocht. Ik wil een dynamischer product. Ik wil dat iedere betekenis die in W(E)TEN voorkomt, gerelateerd is aan het concept of de concepten waarmee die betekenis in een conceptuele structuur verenigd is. In een elektronisch woordenboek kan dat via wat hyperlinking heet. In eenvoudig Nederlands wil dat het volgende zeggen: een woordenboekbestand bestaat uit een eindig aantal knopen, waarin onze kennis is ondergebracht. Die knopen zijn door speciale computertalen (Standard General Markup Language, Hyper Text Markup Language) onderling te verbinden in een netwerk en te manipuleren. Het netwerk waarvan zij deel uitmaken is bovendien grafisch te presenteren, zoals Landman (1997) onlangs aantoonde. Maar ik wil nog meer; ik wil in de nomenclatuur naast alfabetische woordvormen, ook alfabetisch toegankelijke concepten, waarbij de hiërarchische structuur van de woorden die tot dat concept behoren, moeten worden aangeboden.
Wie zelf een synoniemenwoordenboek gemaakt heeft, is zich meer dan wie ook bewust van de problemen rond het ijken van concepten. Een concept is immers geen vast gegeven, is ook niet constant en kan van gebruiker tot gebruiker verschillen (Uhlenbeck 1981: 15). Ik verwacht dat bestaande woordenboeken in dit verband goede diensten kunnen bewijzen. In het bijzonder verwacht ik veel van de omkering van het WNT, d.w.z. het alfabetiseren op betekenisomschrijvingen en in een eindfase ook van een omkering van W(E)TEN zelf. Het moge duidelijk zijn dat bij omkering alle betekenissen alfabetisch geordend worden met daarachter het trefwoord waaronder de desbetreffende betekenis is gevonden. Dat analytische en typologische definities een belangrijke rol kunnen spelen bij het opbouwen van de hiërarchie binnen concepten wordt duidelijk als men bedenkt dat dat soort definities meestal inzet met het vermelden van de bovenklasse waartoe het gedefinieerde woord behoort.
Als wij spreken over een nog betere descriptie in W(E)TEN dan kan men natuurlijk ook denken aan de verbetering van de beschrijving van de
| |
| |
gebruiksmogelijkheden van woorden. Ik doel daarbij niet zo zeer op rolpatronen bij werkwoorden of op wat in de traditionele litteratuur bekend staat als selectierestricties, maar op domeinmarkeringen en stijlregisters, op labels die de aandacht vestigen op een bepaalde attitude van de spreker, op connotaties dus.
Laten wij er geen doekjes omwinden, in alle bestaande woordenboeken, dus niet alleen in die van het Nederlands, is de beschrijving van de gebruiksmogelijkheden het meest betwistbaar. Bij de domeinmarkering is, en ik weet dat ik door dat te herhalen fungeer als een soort gebedsmolen, vaak niet uit te maken of een vakterm nog vakintern is of reeds vakextern, d.w.z. ook voorkomt in een andere vaktaal dan uitsluitend die waarin hij geijkt is of misschien zelfs al in de algemene woordenschat. Een bijkomend probleem is de wijze waarop de markering wordt aangebracht. Wanneer wordt met een label gewerkt en wanneer mag uit de parafrase of definitie blijken dat het gaat om een woord of een betekenis, dat respectievelijk die specifiek is voor een groeps- of beroepstaal. Waar W(E)TEN wetenschappelijke objectiviteit predikt, moet hier naar een objectief criterium gezocht worden. Dat criterium kan welhaast geen ander zijn dan de spreiding. Komt het woord alleen voor in een bepaald domein, dan is de markering evident, komt het voor in verschillende bronnen die alle deel uitmaken van het subcorpus vaktaal, dan is het ook evident welke keuzes men moet maken bij zijn markeringen. Een actueel woord als technolease krijgt dan zeker geen label omdat er in alle dagbladen en verder over geschreven en gesproken is.
Veel moeilijker ligt het bij de stijlregisters en connotaties. Iedere moedertaalspreker van het hedendaags Nederlands weet, zonder dat de stoppen bij hem doorslaan, dat er met de volgende woorden wel iets aan de hand is. Ik noem hier beneuzelen, je stinkende best doen, draaikonten, de grasdokter van de Amsterdamse ArenA, iemand een kloot afdraaien, lullo, modemmeid of webjuf, politiemeervoud (u wordt aangehouden met de vraag: ‘Waar gaan wij naar toe?’), spiekprof, snabbelprof en spookprof, uitbuiken, shit en fuck.
| |
| |
Het instrument dat de taalkunde de lexicograaf voor de beschrijving van dit soort woorden adviseert, is het zogenaamde taalattitudeonderzoek. Men vraagt aan de taalgebruikers naar hun emotionele, negatieve of positieve waardering van woorden en woordgroepen als de genoemde. Zelfs als het om een bescheiden hoeveelheid woorden zou gaan, zou ik het de lexicograaf niet willen aandoen zijn lexicale descriptie te baseren op de resultaten van een onderzoek naar woordattitudes. In een recent door mij uitgevoerd grootschalig onderzoek naar vloeken (Van Sterkenburg 1997b), heb ik kunnen vaststellen dat de waarderingen van taalgebruikers te veel verschillen om ze met voldoende gezag onder een noemer in een woordenboek te kunnen brengen. Te veel variabelen beïnvloeden dar oordeel. De gemeten waarde per woord verschilt per leeftijdscohort, per regio, per geslacht zelfs, en is tevens afhankelijk van de vraag of men zich gelovig of niet-gelovig noemt. In een vragenlijst waarin gevraagd werd de taboewaarde op te geven van een aantal verschijnselen, gedragingen, scheldwoorden en vloeken bleek er tussen Nederlanders en Vlamingen een zeer grote consensus met betrekking tot o.a. kindermishandeling, verkrachting, moord, getuige zijn van extreem geweld, een hakenkruis, abortus en euthanasie en ook over een scheldwoord als jood ‘al te handige zakenman, bedrieger’ was men het roerend eens, maar de negatieve lading van vloeken als shit, fuck, klote en godverdomme verschilt opmerkelijk. En dan hebben wij het niet eens over de generatie tot 25 jaar. Daarin lijken woorden als de hier genoemde geen enkele connotatieve waarde te hebben, waarschijnlijk omdat zij in die leeftijdscategorie tot betekenisloze stoplappen geworden zijn.
Het lijkt mij ondoenbaar om bij ieder niet-neutraal trefwoord of bij iedere niet-neutrale betekenis informatie te verstrekken van het type ‘door de meeste’ of ‘door grote groepen moedertaalsprekers als beledigend, schertsend, eufemistisch, informeel e.d. ervaren’. W(E)TEN is geen speeltuin van taalattitudinele experimenten. Zonder aarzeling betoog ik hier dat de taalgemeenschap de zorg voor een wetenschappelijk verantwoorde indicatie van de gebruiksmogelijkheden van woorden moet toevertrouwen aan de expertise
| |
| |
van de lexicografen. Zij zullen in de inleiding op hun woordenboek verantwoorden hoe zij deze lexicale klip genomen hebben. Ik weet dat dit een gezagsargument is, maar op basis van de vele citaten die hij moet interpreteren, ziet de lexicograaf nu eenmaal het beste wanneer een woord van kleur verschiet.
Wij hebben het al bij herhaling gehad over het streven van de lexicografen om bij voortduring de wijze waarop zij de woordenschat beschrijven te verbeteren. Ik heb voor W(E)TEN in dat verband nog een grote wens. Dat woordenboek moet koppig kiezen voor een exhaustieve beschrijving van wat heet de ‘discoursewoorden’. Van partikels (Foolen 1993), van verraderlijke woorden als gewoon, precies, want, ooit, pakweg, okay, maar, jeetje, die vaak een emotioneel oordeel bevatten of de houding van de spreker jegens iets of iemand verklaren. Deze woorden, die onze communicatie smeren, verdienen een betere lexicale beschrijving.
Laten wij opnieuw een paar voorbeelden ter verduidelijking in slagotde opstellen. Het bijwoord ooit wordt tegenwoordig zeer vaak gebruikt ter versterking van een superlatief: de rijkste Nederlander ooit, de grootste onderneming ooit, de jongste cricket-international ooit, onze duurste aankoop ooit. In geen enkel woordenboek van het Nederlands wordt dit gebruik reeds beschreven.
Wie naar de schrale betekenisprofielen kijkt van een woord dat in gesproken taal te pas en te onpas gebruikt wordt, het Engelse leenwoord okay, vraagt zich af of dat woord in het Nederlands op dezelfde wijze gebruikt wordt als in het Engels. Dus om te zeggen dat je iemand wel mag of dat je een situatie, een gebeurtenis, iemands gedrag enz. aanvaardbaar vindt; of om te zeggen dat iemand in veiligheid is of dat een machine of apparaat goed werkt en gebruikt kan worden. Kunnen wij in het Nederlands okay ook gebruiken om te zeggen dar wij het met iets eens zijn? Kunnen wij het gebruiken om na te gaan of de persoon waartegen wij spreken, begrijpt wat wij juist gezegd
| |
| |
hebben? En wordt okay bij ons ook gebruikt om duidelijk te maken dat wij iets anders willen gaan doen of over iets anders willen gaan praten? (Sinclair 1987; vergelijk ook Hofland in NRC/H. 23-5-97). Vooralsnog weten wij het niet, want de bestaande woordenboeken zijn te oppervlakkig of laten anderszins verstek gaan.
Okay. Als de lexicografen hun beschrijvingen echt willen verbeteren, dan kunnen zij hier in het domein van de discoursewoorden in samenwerking met grammatici en pragmalinguïsten opmerkelijke resultaten boeken. Ik zou echt willen beschrijven of die Haarlemmerolie van onze gesprekken, de woorden die waardeoordelen van en over mensen bevatten, ook nauw met onze ethiek verbonden zijn (Vgl. Niemeier, Dirven 1997).
Zaken die met betekenis en gebruiksmogelijkheden te maken hebben, heb ik in het voorafgaande uitvergroot. Maar over de combinatoriek van woorden heb ik nog amper iets gezegd. Hoe zit het met woordgroepen als chemische drugs, dubbelblind onderzoek, ecologische roes, witte rook, fiscale emigrant, koude sanering, psychedelische paddo, stille pijn, Zaanse verhoormethode, publieke omroep, georganiseerde verlapzwanzing, elektronische winkel, digitale ziel en zwarte kabel?
In mijn oratie van 1986, die als titel droeg Werk maken van woorden, heb ik aandacht gevraagd voor de plaats waar vaste verbindingen in een lexicon opgenomen moeten worden. Afhankelijk van de aard van een woordenboek bleken daarover afspraken te maken. Geldt dat ook voor andere zaken? Bijvoorbeeld voor een beter onderscheid van de aard van de verschillende verbindingen?
In W(E)TEN zou ik groepen van verbindingen willen onderscheiden en identieke soorten bijeen willen zetten. In beginsel zou ik willen onderscheiden in: (a) grammaticale verbindingen en syntactische patronen, (b) lexicale verbindingen en (c) pragmatische routineformules.
| |
| |
Onder grammaticale verbindingen en syntactische patronen versta ik dan de combinaties die het behandeltrefwoord aangaat met vaste voorzetsels, met infinitiefconstructies, met bijwoordelijke bepalingen, met afhankelijke bijzinnen, met of-constructies enz.
Lexicale verbindingen zijn dan die verbindingen waarin het behandeltrefwoord een vaste eenheid vormt naar vorm en betekenis. De betekenis van die verbinding kan identiek zijn aan de betekenissen van de woorden die samen de verbinding vormen, die betekenis kan gedeeltelijk de betekenis zijn van de samenstellende leden, men spreekt dan van een endosemantische verbinding, en die betekenis kan volstrekt afwijken van de betekenissen van de samenstellende delen. In het laatste geval spreken wij van idioom en van exosemantische betekenis (Klimaszewska 1990). Het spreekt vanzelf dat in W(E)TEN bij de endo- en exosemantische verbindingen betekenisverklaringen gegeven moeten worden. Dat geldt voor hedendaagse verbindingen als publiek gaan, in blessuretijd leven, rechthoekige ogen hebben of krijgen, zich de tandjes werken en in de kennisfile staan. En wat te denken van de typisch Leidse creatie voor mij mag je koperen hartkleppen krijgen, dan kan je je levenslang de tering poetsen!.
Pragmatische toutineformules zijn verbindingen die in concrete communicatiesituaties hoogfrequent gebruikt worden: even Apeldoorn bellen; gaan met die banaan; zo kannie wel weer even; mijn naam is haas; geef mijn portie maar aan fikkie; ik ben ook maar een mier met een rugnummer. In W(E)TEN zal de pragmatica van deze clichés niet mogen ontbreken. Opgezocht moet kunnen worden waar, hoe en door wie deze verbindingen gebruikt worden. Het onderzoek in dezen door Van der Have kan nauwelijks afgewacht worden.
Waar het gaat om de beschrijving van betekenis en gebruiksmogelijkheden van verbindingen, geldt hetzelfde als bij die van de betekenis zelf. Ook hier is behoefte aan het verbeteren van die beschrijvingen, aan modellen voor een goede representatie. Maar ook hier wordt van de lexicograaf veel lenigheid
| |
| |
verwacht omdat de door de theoretische linguïstiek ontwikkelde modellen niet uitmunten door een superieure universele constructie en daardoor te veel ad hoc-oplossingen vergen. Voor de beschrijving van de pragmatische, semantische en syntactische eigenschappen van vaste verbindingen zijn wij niet gebaat bij de dictatuur van leerstelligheid, maar bij een descriptie die voor het toetsen van haar eigen consistentie eveneens gebruik kan maken van algebraïsche notaties.
Wat voor W(E)TEN in vergelijking met het WNT een enorme progressie kan betekenen, is dat de informatietechnologie de techniek en methode om verbindingen automatisch uit grote materiaalverzamelingen te halen, heeft verbeterd.
Twee statistische hulpmiddelen om te gebruiken bij een automatische selectie van die verbindingen wil ik hier niet onvermeld laten. Er is allereerst wat heet de Mutual Information Index (MI). Deze index wordt gebruikt om te berekenen welke woorden in een corpus in elkaars onmiddellijke nabijheid voorkomen, a.h.w. een woordpaar vormen. Zij kan dus berekenen hoe vaak zwart met kabel voorkomt of humaan met identiek of geest met fles.
Als wij de MI meten, stellen wij niet alleen de waarschijnlijkheid van de afzonderlijke woordvormen vast, maar ook de waarschijnlijkheid van combinaties van twee woorden, van bigrammen. Dit leidt tot drie waarschijnlijkheidswaarden die vergeleken kunnen worden:
(1) | de waarschijnlijkheid (W) van de eerste woordvorm: w1:W(w1); |
(2) | de waarschijnlijkheid van de tweede woordvorm: w2:W(w2); |
(3) | de waarschijnlijkheid van een paar (w1, w2) dat bestaat uit de twee woordvormen: W(w1, w2). |
Deze drie waarden worden vergeleken: de waarschijnlijkheid dat w1 en w2 samen voorkomen (bijvoorbeeld naast elkaar) wordt gedeeld door het product van de afzonderlijke waarschijnlijkheid van w1 en w2 (Church 1991; Heid 1994).
| |
| |
Het kan voorkomen dat een zeldzaam woord, bijvoorbeeld verlapzwanzing in georganiseerde verlapzwanzing, zeer frequent voorkomt. Dat kan bepaald worden met behulp van de T-test. Die test werkt namelijk op woordparen. Zij vindt die additionele woorden die waarschijnlijk meer tegelijk voorkomen met een van de twee woorden van het paar dan met het andere. De resultaten van de T-test verschijnen als positieve en negatieve waarden. De hoogste en laagste waarden zijn significant: zij duiden op een sterke relatie van het ene of andere woord.
|
|