Etnische minderheden


auteur: Guus Extra, Roeland van Hout en Ton Vallen


bron: Guus Extra, Roeland van Hout en Ton Vallen (red.), Etnische minderheden. Taalverwerving, taalonderwijs, taalbeleid. Foris Publications, Dordrecht 1987


verantwoording

inhoudsopgave

doorzoek de hele tekst


downloads



DBNL vignet

[p. 155]

10 De ontwikkeling van toetsen Nederlands voor volwassen niet-Nederlandstaligen
A. Janssen-van Dieten

1. Inleiding

Het onderzoek waarvan hier verslag gedaan wordt, betreft vooronderzoek dat is uitgevoerd ten behoeve van een nog te ontwikkelen toetsbatterij voor volwassen leerders van het Nederlands in de basiseducatie of in naar primaire beroepseducatie schakelende opleidingen (Van der Linden & Janssen-van Dieten, 1984). Het ligt in de bedoeling instrumenten te ontwikkelen waarmee de (sub)vaardigheden lezen, luisteren, schrijven, spreken, grammatica en woordenschat getoetst worden op een aantal in moeilijkheid oplopende niveaus. De hoogste niveaus binnen de toetsbatterij zullen gericht zijn op het meten van taalvaardigheden waarvan men mag aannemen, dat ze belangrijk zijn voor het participeren in de primaire beroepseducatie. De toetsen zullen gebruikt kunnen worden ter bepaling van het instapniveau en tijdens het leerproces. Gezien het diagnostische karakter zijn ze echter niet geschikt om te dienen als toelatingscriterium voor beroepsopleidingen.

Het vooronderzoek waarover wordt gerapporteerd, behelst enerzijds het vaststellen van taalbehoeften van toekomstige deelnemers in de primaire beroepseducatie (paragraaf 2) en anderzijds de toepassing van zelfbeoordeling bij het meten van taalvaardigheid Nederlands (paragraaf 3).

2. Onderzoek naar taalbehoeften

Taalbehoeften moeten hier niet geïnterpreteerd worden als behoefte aan talen, maar aan het beheersen van vaardigheden of subvaardigheden in één taal, in dit geval het Nederlands. We spreken van behoefte, indien de beheersing van specifieke vaardigheden noodzakelijk is om de wenselijk geachte situatie, het volgen van een beroepsopleiding, te kunnen realiseren. In het onderzoek naar taalbehoeften in dit project kunnen twee fasen onderscheiden worden. De eerste is het analyseren van het taalgebruik binnen de beroepsopleidingen. Een beschrijving van dit taalgebruik geeft echter nog geen antwoord op de vraag wat noodzakelijk is om de opleiding te kunnen volgen. Om een antwoord te vinden op deze laatste vraag zijn toetsen geconstrueerd die gebaseerd zijn op de resultaten van de eerste fase en die qua inhoud als representatief beschouwd worden voor het taalgebruik binnen de opleidingen.

[p. 156]

Deze toetsen zijn afgenomen bij zowel autochtone als allochtone cursisten van de betrokken beroepsopleidingen.

Het was uiteraard niet mogelijk alle soorten opleidingen binnen de primaire beroepseducatie te onderzoeken. In overleg met diverse instanties is de keuze gevallen op opleidingen in de sfeer van technische en verzorgende beroepen. Hiervoor zijn twee argumenten aan te voeren: in de eerste plaats werd verondersteld dat het taalgebruik binnen deze twee soorten opleidingen verschillend van aard zou zijn, niet alleen met betrekking tot specifieke vakwoorden maar vooral met betrekking tot het belang van verschillende soorten vaardigheden. Een tweede overweging was het feit dat, ondanks emancipatorische maatregelen, de meeste deelnemers in technische opleidingen mannelijk en in de verzorgende vrouwelijk zijn.

Het taalbehoeftenonderzoek binnen de technische opleidingen is bijna afgerond en dat naar de verzorgende opleidingen verkeert in de tweede fase. Dit verslag blijft dan ook beperkt tot de technische opleidingen.

2.1. Het taalgebruik in de technische opleidingen

Voor het taalgebruik binnen de Centra van Vakopleidingen voor Volwassenen (C.V.V.) hebben we ons gebaseerd op het onderzoek van De Koning (1982). Zij constateert dat leesvaardigheid binnen deze opleidingen een cruciale rol speelt en verantwoordt daarmee de beperking van de analyse tot schriftelijk lesmateriaal, dat zij bekeek op taalfuncties, syntaxis en frequentie en spreiding van woorden. Deze gegevens zijn aangevuld met analyses van het schriftelijke materiaal dat gebruikt wordt binnen de technische sector van de Beroeps-Kwalificerende Educatie (B.K.E.). Ook hier werd gekeken naar taalfuncties, syntaxis en frequentie en spreiding van woorden (De Ree, 1985). Beide soorten lesmateriaal bleken te verschillen in gebruikte tekstsoorten. Waar het C.V.V.-materiaal vooral korte fragmenten bevat, met een opvallend gebrek aan redundantie, is het B.K.E.-materiaal meer beschrijvend van aard. Dat is te zien aan de verschillende proporties van typen functies in tabel 1.

FUNCTIES C.V.V. B.K.E.
Opdrachten 58.6 8.7
Beschrijvingen, verklaringen e.d. 20.6 77.3
Advies, instructies 7.7 10.9
Vragen 10.7 3.1
Aankondigingen 2.5 -

Tabel 1: Taalfuncties in C.V.V. en B.K.C.-lesmateriaal (in %)

 

Het verschil is voornamelijk in de eerste twee categorieën gele-

[p. 157]

gen. In het C.V.V.-materiaal wordt niet veel uitgelegd, maar wordt in de meeste gevallen simpelweg verteld wat, met welk materiaal, in welke volgorde moet gebeuren. Het taalgebruik is echter verre van simpel. Het heeft alle kenmerken van vaktaal. Behalve specifieke terminologie, vonden we o.a. veel passiefconstructies, complexe ingebedde onderschikking, deletie van werkwoorden en verbindingswoorden, nominalisatie en gebruik van het tegenwoordig deelwoord.

Naar het mondelinge taalgebruik op een C.V.V.-opleiding is onderzoek verricht door Kraijenhoff (1986). Ook het mondelinge taalgebruik blijkt instructief en handelingsgebonden van aard te zijn, maar informatie verschaffen neemt een belangrijker plaats in dan binnen het schriftelijke taalgebruik. Tevens constateert Kraijenhoff dat veel instructies op indirecte wijze geformuleerd worden.

2.2. Toetsing van cursisten op C.V.V.- en B.K.E.-opleidingen

Om inzicht te krijgen in de aspecten van met name leesvaardigheid, die van belang zijn voor het volgen van een technische opleiding, zijn een viertal toetsen geconstrueerd op basis van de resultaten van de hiervoor beschreven analyses van schriftelijk lesmateriaal. Deze toetsen zijn samen met een indirecte integratieve toets voor globale taalvaardigheid (editing test) afgenomen bij in totaal 304 cursisten, waarvan ongeveer een derde van niet-Nederlandse herkomst. De resultaten zijn weergegeven in tabel 2. Omdat niet van iedereen alle gegevens ingevuld waren en niet alle cursisten alle toetsen gemaakt hebben, zijn de aantallen waarover gerapporteerd wordt verschillend.

 

Op alle toetsen zijn de scores van autochtone cursisten hoger dan die van allochtone cursisten. Bij dit gegeven moeten we rekening houden met het feit dat de meerderheid van de getoetsten afkomstig is van C.V.V.-opleidingen en dus geselecteerd voor de opleiding op grond van tests, inclusief een taaltoeta. We zien tevens dat het begrijpen van de teksten het meest problematisch is, ook voor de Nederlanders.

[p. 158]

EDITING TEST TEKST-
BEGRIP
STUDIE-
VAARDIG-
HEID
GRAM-
MATICA
WOOR-
DEN-
SCHAT
Aantal items 38 56 10 77 80
TOTAAL  
 
N 277 213 171 225 215
KR20 .93 .88 .70 .91 .95
% Correct 76% 56% 76% 77% 84%
NEDER-
LANDERS
 
 
N 184 143 112 134 128
KR20 .85 .80 .67 .71 .84
% Correct 84% 61% 79% 83% 91%
NIET-NEDER-
LANDERS
 
 
N 89 66 54 67 63
KR20 .94 .90 .68 .91 .95
% Correct 61% 46% 69% 66% 72%

Tabel 2: Betrouwbaarheidscoëfficiënten en moeilijkheidsindices van toetsen voor globale taalvaardigheid, teksbegrip, studievaardigheid, grammatica en woordenschat

2.2.1. Tekstbegrip

In de toets voor tekstbegrip waren zowel teksten opgenomen die kenmerkend waren voor het C.V.V.-materiaal als teksten die meer karakteristiek waren voor het B.K.E.-materiaal.

TEKSTSOORT TOTAAL N=213 NEDERLANDERS N=143 NIET-NEDERLANDERS N=66
C.V.V.-teksten 55.4 58.8 46.4
Andere teksten 64.8 71.3 50.6

Tabel 3: Moeilijkheidsgraad van verschillende tekstsoorten (in %)

 

Voor beide groepen blijken C.V.V.-teksten moeilijker dan de andere (zie tabel 3). Hoewel niet-Nederlandstaligen bij beide tekstsoorten lager scoren, blijken zij - gezien het geringere scoreverschil - niet in dezelfde mate als de Nederlanders profijt te hebben van het feit dat teksten meer redundant zijn,

[p. 159]

Behalve naar het verschil in tekstsoort is gekeken naar verschillen tussen subvaardigheden bij lezen. Hiertoe zijn de items gegroepeerd naar de subvaardigheid die zij verondersteld werden te meten.

SUB-
VAARDIG-
HEID
TOTAAL N=213 NEDER-
LANDERS N=143
NIET-NEDER-
LANDERS N=66
1 Signaal-
woorden
46.8 56.9 37.6 -
o2 Impliciete informatie 59.0 67.3 47.8 -
o3 Expliciete informatie 60.6 67.9 39.8 -
o4 Verwijzingen 71.8 78.6 54.0 -
5 Combineren van gegevens 52.9 56.4 46.1 +
6 Betekenis van woorden 56.3 60.3 46.6 +

Tabel 4: Moeilijkheidsgraad van subvaardigheden voor tekstbegrip (in %)

 

Wat voor Nederlanders het gemakkelijkst (4) en het moeilijkst (1) lijkt, lijkt dat ook te zijn voor niet-Nederlanders (zie tabel 4). Over alle subtoetsen is de volgorde echter niet identiek. Met behulp van een Classical Latent Additive Test Model (Moosbrugger & Müller, 1982) is nagegaan of de subtoetsen voor beide populaties wel op dezelfde wijze schaalbaar zijn. Dit bleek niet het geval en daarom mogen we de gegevens niet zonder meer vergelijken. In tabel 4 is met een ‘+’ aangegeven dat subtoetsen voor niet-Nederlandstaligen relatief gemakkelijker en met een ‘-’ dat ze relatief moeilijker zijn.

Tot dusver is steeds gesproken over het scoreverschil tussen Nederlandstaligen en niet-Nederlandstaligen. Dit levert wel een beeld op van de relatieve moeilijkheidsgraad van subvaardigheden voor beide populaties en laat tevens zien dat ook Nederlanders deze niet geheel beheersen, maar we hebben nog geen indicatie van het belang van het functioneren in de opleidingen. Om dat te achterhalen hebben we de toetsresultaten gerelateerd aan de mate van succes waarmee de getoetsten binnen de opleiding functioneren. Zowel aan praktijkdocenten als aan theoriedocenten is gevraagd om een oordeel over het functioneren van de cursisten. Dit geschiedde op een driepuntsschaal met als antwoord-alternatieven: ‘heel goed’, ‘doorsnee’ en ‘slecht’. Vervolgens is als criterium voor het beheersen van een (sub)vaardigheid rond 80% correcte antwoorden genomen. Daarna is gekeken of het percentage niet-beheersers bij de goed-functionerende significant verschilde van dat bij de slecht-functionerenden. Voor tekstbegrip in zijn totaliteit bleek dit het geval te zijn, en tevens voor de in tabel 4

[p. 160]

met een ‘o’ gemerkte subvaardigheden: impliciete en expliciete informatie en verwijzingen, afgaande op het docentenoordeel over het functioneren in de theorielessen. Noch de vaardigheid tekstbegrip in zijn totaliteit, noch een van de subvaardigheden leverde significante verschillen op, uitgaande van het oordeel van de praktijkdocenten. Bovendien kan opgemerkt worden dat bij het oordeel over het functioneren in de praktijklessen geen duidelijk beeld ontstaat. Bij de goed-functionerenden vinden we soms meer en soms minder niet-beheersers. Op basis van de oordelen van de theoriedocenten zijn de verschillen weliswaar niet in alle gevallen significant, maar ze wijzen wel nagenoeg allemaal in dezelfde richting, nl. steeds meer niet-beheersers bij de slecht-functionerenden dan bij de goed-functionerenden. Hieruit mogen we concluderen dat tekstbegrip en subvaardigheden daarbinnen een rol spelen bij het al dan niet goed functioneren in de opleiding voor wat betreft de theoretische kant, maar dat niet lijken te doen voor de praktijk. Op grond van het feit dat de subtoetsen voor Nederlandstaligen en niet-Nederlandstaligen niet op dezelfde wijze schaalbaar zijn, zouden de analyses die gebaseerd zijn op de oordelen over het functioneren binnen de opleiding eigenlijk voor beide groepen apart bekeken moeten worden. Het geringe aantal niet-Nederlandstaligen maakt dit echter onmogelijk, zodat conclusies getrokken moeten worden uit de gegevens over beide groepen samen.

2.2.2. Studievaardigheid, woordenschat en grammatica2

Deze toetsen zijn op dezelfde wijze geanalyseerd als de hierboven beschreven (sub)toetsen voor tekstbegrip. De toets die we - bij gebrek aan beter - ‘studievaardigheid’ genoemd hebben, laat eveneens significante verschillen zien tussen goed- en slecht-functionerenden voor de theorie maar niet voor de praktijk. In deze zeer korte toetsen worden vaardigheden getoetst als het kunnen omgaan met tabellen, alfabetische ordening en dergelijke.

 

Om de voor de woordenschattoets te selecteren woorden te categoriseren is gebruik gemaakt van drie criteria: spreiding over de verschillende vakgebieden, frequentie binnen het corpus (De Koning, 1982) en frequentie in het algemeen Nederlands (Uit den Boogaart, 1975). Combinatie van de criteria levert acht categoriee op die elk driemaal met drie woordsoorten in de toets vertegenwoordigd zijn. Ook hier scoren de niet/Nederlandstaligen op alle categorieën lager dan de Nederlandstaligen. En ook hier blijken de subtoetsen voor beide groepen niet op dezelfde wijze schaalbaar te zijn. De relatieve verschillen zijn echter veel geringer dan bij de leestoetsen. Gerelateerd aan praktijk- en theorieoordelen van docenten levert de totale toets geen significante verschillen op tussen functionerenden en niet-functionerenden. De afzonderlijke categorieën doen dat ook niet voor de praktijkoor-

[p. 161]

delen. Op basis van de theorieoordelen zijn de verschillen bij de categorieën LHL (specifieke vakwoorden) en HLL (niet hoog-fre-quent, maar goed gespreid over alle vakken) significant. Bovendien zien we hier hetzelfde beeld als bij tekstbegrip: in alle gevallen overtreft het aantal niet-beheersers in de groep niet-functionerenden dat in de groep functionerenden aanzienlijk.

 

Binnen de grammaticatoets kunnen tien subtoetsen onderscheiden worden. Acht daarvan worden door Nederlanders voor 80% of meer goed beheerst. Moeilijk voor Nederlanders bleken ontkenningen en passiefconstructies. De scores voor niet-Nederlandstaligen lagen in alle gevallen lager dan voor Nederlandstaligen. Op de beide voor Nederlandstaligen problematische onderdelen scoorden ook de niet-Nederlandstaligen het laagst. Verder bleken de grammatica-subtoetsen eveneens voor beide groepen niet op dezelfde manier schaalbaar; relatief gezien waren die twee subtoetsen voor niet-Nederlandstaligen niet zo moeilijk als voor Nederlandstaligen. Gerelateerd aan het docentenoordeel over het functioneren in de praktijk en in de theorie, levert de grammaticatoets geen significante verschillen op. Wel wijst het theorieoordeel in tegenstelling tot het praktijkoordeel weer steeds in dezelfde richting. De enige subtoets die gelet op het functioneren zowel in de theorie als in de praktijk significante verschillen blijkt op te leveren is de toets die te maken heeft met woordgeslacht, (on)-bepaaldheid van lidwoorden e.d.

 

De gegevens uit de analyses met betrekking tot het al dan niet functioneren vormen een houvast bij het selecteren van doelstellingen die zeker getoetst moeten worden. De resultaten van de itemanalyses geven aanwijzingen voor de formulering van verschillende niveaus binnen de toetsbatterij. Bij de ontwikkeling van toetsen is overigens niet alleen van belang wat getoetst wordt, maar ook de wijze waarop gemeten wordt. Daarover wordt gerapporteerd in de volgende paragraaf.

3. Onderzoek naar zelfbeoordeling

De te ontwikkelen toetsbatterij zal gebruikt worden voor volwassen leerders van het Nederlands. In de volwasseneneducatie wordt in toenemende mate gestreefd naar selfmanagement en individualisering. Een van de mogelijkheden om beide te stimuleren is zelfbeoordeling. Dat is een van de redenen dat besloten is om naast een ‘gewone’ toets een instrument voor zelfbeoordeling te ontwikkelen. Zelfbeoordeling door volwassen migranten wordt met veel succes toegepast in Zweden, waar Von Elek (1985) een omvangrijke zelfbeoordelingstoets Zweeds als tweede taal ontwikkelde. In een eerder rapport (Von Elek, 1982) maakt hij melding van het enthousiasme zowel van de zijde van de cursisten als van de docenten.

[p. 162]

Door Zelfbeoordeling kunnen leerders niet alleen een beter beeld krijgen van hun eigen taalvaardigheid, maar ook van de gewenste of vereiste einddoelen. Bovendien kunnen reflectie op eigen taalvaardigheid en het verkrijgen van meer inzicht in gehanteerde evaluatiecriteria de motivatie en doeloriëntatie bevorderen. Een vrij algemene bevinding in het onderzoek naar toepassing van zelfbeoordeling (voor een overzicht zie Oskarsson, 1984) is dat zelfbeoordeling beter geschiedt als leerders erin getraind zijn. Gebrek aan dergelijke training is een van de redenen dat er, naast zelfbeoordelingsinstrumenten, ‘normale’ toetsen ontwikkeld zullen worden die beogen hetzelfde te meten. Een andere reden is dat de volwasseneneducatie voor (im)migranten in Nederland minder goed georganiseerd is dan in Zweden, waardoor een systematische toepassing van zelfbeoordeling niet in alle gevallen mogelijk zal zijn.

 

Om inzicht te krijgen in de betrouwbaarheid en de validiteit van zeifbeoordeling Nederlands door volwassen nietNederlandstaligen, hebben we twee pilotstudies uitgevoerd voor lezen en grammatica. In een eerste sessie gaven proefpersonen aan, of ze dachten dat ze bepaalde vragen al dan niet konden beantwoorden of daar niet zeker van waren. In een volgende sessie, die binnen een week plaatsvond, beantwoordden ze de vragen daadwerkelijk. De criteriumtoetsen waren identiek aan de zelfbeoordelingstoetsen. Bij set eerste vooronderzoek (Bouwhuis), 1985) werden bestaande toetsen in aangepaste vorm gebruikt. Voor grammatica werden 75 items ontleend aan de Instaptoets Nederlands voor Anderstaligen (1983) en voor lezen werden onderdelen van de leestoetsen van het Certificaat Nederlands als vreemde taal (1981 e.v.) gebruikt. Zowel de zelfbeoordelingstoetsen als de criteriumtoetsen bleken hoogst betrouwbaar. Cöefficiënt α lag in alle gevallen boven .90 De correlatie tussen zelfbeoordeling en criteriumtoets was .66 voor grammatica en .79 voor lezen. De grammaticatoetsen waren voor deze proefgroep aan de gemakkelijke kant. Daarom zijn voor het tweede onderzoek moeilijker items toegevoegd en een aantal gemakkelijke verwijderd. Bovendien werd in verband met de tijds-druk het aantal items gereduceerd tot 45. De leestoetsen zijn in het tweede onderzoek compleet vervangen, omdat we de eerder gebruikte toetsen minder geschikt vonden voor tweede-taalleerders. In de eerste plaats zou men met dit soort, bovendien vereenvoudigde, teksten buiten een lessituatie nauwelijks geconfronteerd worden. Bovendien waren de vragen meer gericht op het toetsen van irrelevante details dan op het halen van belangrijke informatie uit de tekst. Naast de zelfbeoordelingstoets voor lezen werd een globale vragenlijst toegevoegd waarin leerders gevraagd werd hoe goed zij dachten bepaalde tekstsoorten te kunnen lezen. Alle bevraagde tekstsoorten waren vertegenwoordigd in de criteriumtoets. In tabel 5 zijn de bevindingen van het tweede onderzoek weergegeven.

[p. 163]

TOTAAL NIVEAU 1 NIVEAU 2 NIVEAU 3
VL ZT CT ZT CT ZT CT ZT CT
LEZEN (N=50)    
Schaal 0-48 0-64 0-64 0-12 0-12 0-27 0-27 0-25 0-25
Gemid-
delde
31.5 52.2 38.8 10.5 9.7 22.8 17.8 18.9 11.4
St.dev. 10.5 11.7 9.0 2.1 2.1 4.7 4.3 6.2 4.0
Moeil. graad .66 .82 .61 .88 .81 .84 .66 .76 .46
Coëff. α .94 .96 .86 .83 .67 .90 .75 .94 .70
GRAM-
MATICA (N=62)
   
Schaal 0-45 0-45 0-14 0-14 0-16 0-16 0-15 0-15
Gemid-
delde
37.5 24.8 12.7 11.1 13.4 9.5 11.4 4.2
St.dev. 5.8 7.9 1.6 2.6 2.2 3.2 2.7 3.0
Moeil. graad .83 .55 .91 .79 .84 .59 .76 .28
Coëff. α .89 .88 .70 .71 .73 .69 .78 .76

Tabel 5: Gegevens over vragenlijst (VL), zelfbeoordelingstoetsen (ZT) en criteriumtoetsen (CT), totaal en per niveau (schaal = theoretische minimum/maximum-score)

 

Bij lezen is de betrouwbaarheidscoëfficiënt bij de zelfbeoordeling steeds hoger dan bij de criteriumtoetsen. Twee mogelijke verklaringen dringen zich op. De ene is dat de scores voor zelfbeoordeling betrouwbaarder zijn dan die van de criteriumtoetsen. De andere dat volgens het ooreel van de leerders de toets homogener is dan in werkelijkheid. Omdat individuele itemscores bij de zelfbeoordeling in het algemeen niet veel varistie vertonen, lijkt de laatste verklaring het meest waarschijnlijk. Dit betekent verschillen in moeilijkheidsgraad tussen de items onvoldoende herkend worden. Voorzover deze verschillen herkend worden, ervaren leerders met een vergelijkbare zelfbeoordelingsscore dezelfde items als moeilijk en gemakkelijk, hoewel in grotere mate voor lezen dan voor grammatica. Uit de hoge betrouwbaarheidscoëfficiënten kunnen we de conclusie trekken dat er een hoge mate van consensus bestaat tussen de leerders over de rangorde van de items met betrekking tot hun moeilijkheidsgraad. Uit de gemiddelde scores kunnen we opmaken dat de toetsen voor deze proefgroep aan de moeilijke kant waren. De verschillen tussen de zelfbeoor-

[p. 164]

delingsscores en de criteriumscores wijzen op overschatting. Zelfbeoordeling via de globale vragenlijst lijkt op het eerste gezicht meer realistisch. Kijken we naar de resultaten op de drie in de toetsen veronderstelde niveaus, lopend van gemakkelijk naar moeilijk, dan vinden we die niveaus terug zowel in de zelfbeoordelingsscores als in de criteriumscores, zij het niet in dezelfde mate.

Met betrekking tot de validiteit van de zelfbeoordelingsscores biedt tabel 6 een overzicht van de correlaties met de criteriumscores.

VL ZTL ZTG CTL
ZTL .70  
ZTG .50 .69  
CTL .48 .63(.83) .62  
CTG .45 .50 .60(.58) .75

Alle correlaties zijn significent (p. < .001)

 

Tabel 6: Correlaties tussen zelfbeoordelingstoetsen en criteriumtoetsen

 

De zelfbeoordelingstoetsen met concrete vragen bij teksten blijken betere voorspellers te zijn voor de criteriumscores dan de globale vragenlijst. De relatie tussen enerzijds de twee zelfbeoordelingstoetsen onderling en anderzijds de twee criteriumtoetsen onderling is sterker dan het verband tussen zelfbeoordeling en criterium voor dezelfde vaardigheid. De verschillen zijn echter niet zodanig dat duidelijk gesproken kan worden van een methede-effect (principale factoranalyse) van de drie zelfbeoordelingsvariabelen en de twee criteriumvariabelen leverde slechts een factor op). In tegenstelling tot de resultaten van Von Elek (1982) waar de validiteitscoëfficiënt voor lezen aanzienlijk hoger ligt dan die voor grammatica, is het verschil hier niet groot. De lagere coëfficiënt voor lezen lijkt echter het resultaat te zijn van de toepassing van verschillende scoringsmethodes. Samengevat komt het verschil hierop neer, dat in de methode van Von Elek de onderschatting niet wordt meegerekend. Passen we dezelfde scoringsmethode toe op onze gegevens, dan vinden we voor lezen een validiteitscoëfficiënt van .83 en voor grammatica van een idee te geven van de ‘correctheid’ of het ‘waarheidsgehalte’ van de zelfbeoordeling is de proportie juiste inschatting weergegeven in tabel 7. Omdat we het idee hadden dat de moeilijkheidsgraad van de toetsen van invloed was geweest op de hoeveelheid juiste inschatting, hebben we de proefgroep op grond van de totale toetsresultaten ingedeeld in drie niveaugroepen en de resultaten per toetsniveau weergegeven.

[p. 165]

NIVEAU TOETS CORRECTE INSCHATTING INCORR.INSCHATTING
GROEP NIVEAU ZT/CT ZT/CT TOT. ZT/CT ZT/CT TOT.
- - + + + - - +
Hoog Hoog 4   53   57 29   3   33
n=15 Midden 1   78   79 16   1   17
  Laag 1   86   86 7   3   10
  Totaal 2   70   72 20   2   22
   
Midden Hoog 9   33   42 42   6   98
n=22 Midden 6   55   61 26   4   30
  Laag 2   73   74 14   5   19
  Totaal 6   50   56 30   5   35
   
Laag Hoog 27   16   43 30   10   41
n=13 Midden 14   36   50 27   12   38
  Laag 10   47   57 24   13   37
  Totaal 18   30   49 28   12   39
Totaal Hoog 12   35   47 35   6   42
N=50 Midden 6   57   63 23   5   28
  Laag 3   70   73 15   6   21
  Totaal 8   51   59 26   6   32

NIVEAU TOETS ONZEKERHEID
GROEP NIVEAU ZT/CT ZT/CT TOT.
? - ? +
Hoog Hoog 5   5   10
n=15 Midden 1   3   4
  Laag 0   4   4
  Totaal 2   4   6
   
Midden Hoog 6   4   10
n=22 Midden 5   5   10
  Laag 1   5   7
  Totaal 5   5   9
   
Laag Hoog 11   5   16
n=13 Midden 3   4   12
  Laag 3   3   6
  Totaal 8   4   13
Totaal Hoog 7   5   12
N=50 Midden 5   4   9
  Laag 1   4   6
  Totaal 5   4   9

- = ZT: nee Niveaugroep:
  CT: incorrect Hoog: gem.score op de 2 CT-toetsen ligt boven 70%
+ = ZT: ja Midden: gem.score op de 2 CT-toetsen ligt tussen 50 en 70%
  CT: correct Laag: gem.score op de 2 CT-toetsen ligt beneden 50%

Tabel 7: Lezen: combinaties van antwoorden op ZT en CT voor 3 niveaugroepen en 3 toetsniveaus (in %)

 

Als we kijken naar de gegevens van de totale groep over de totale toets, zien we dat gemiddeld 59% correct is ingeschat en 32% verkeerd, waarbij overschatting ruim viermaal zo vaak voorkomt als onderschatting. Bij de 9% onzekere inschatting zijn over- en onderschatting nagenoeg gelijk vertegenwoordigd. Als we kijken naar de drie niveaugroepen, zien we dat voor elke groep de proportie correcte inschatting toeneemt als de moeilijkheid van de toetsen afneemt. Het is opvallend dat onderschatting meer voorkomt naarmate het vaardigheidsniveau lager is. Deze bevinding wordt niet bevestigd door andere resultaten van zelfbeoordelingsonderzoek. In gevallen van onzekerheid valt echter geen toename van onderschatting te constateren naarmate het niveau lager wordt. Voor grammatica vinden we hetzelfde beeld als voor lezen, met dit ver-

[p. 166]

schil dat hier onderschatting in veel mindere mate toeneemt met het dalen van het beheersingsniveau (zie tabel 8).

NIVEAU TOETS CORRECTE INSCHATTING INCORR.INSCHATTING
GROEP NIVEAU ZT/CT ZT/CT TOT. ZT/CT ZT/CT TOT.
- - + + + - - +
Hoog Hoog 3   45   48 34   2   36
n=15 Midden 0   72   72 13   1   14
  Laag 0   92   92 5   0   5
  Totaal 1   69   70 17   1   18
   
Midden Hoog 8   22   30 52   2   54
n=25 Midden 3   56   60 26   2   28
  Laag 0   79   80 11   3   14
  Totaal 4   52   56 30   2   32
   
Laag Hoog 29   8   37 46   2   49
n=22 Midden 16   29   44 39   5   45
  Laag 6   48   55 28   5   34
  Totaal 17   28   45 38   4   42
Totaal Hoog 14   22   37 46   2   48
N=62 Midden 7   50   57 28   3   30
  Laag 2   71   74 16   3   19
  Totaal 8   47   55 30   3   33

NIVEAU TOETS ONZEKERHEID
GROEP NIVEAU ZT/CT ZT/CT TOT.
? - ? +
Hoog Hoog 8   9   17
n=15 Midden 7   8   15
  Laag 1   2   4
  Totaal 6   6   12
   
Midden Hoog 12   4   16
n=25 Midden 5   8   13
  Laag 2   4   6
  Totaal 6   5   12
   
Laag Hoog 14   1   15
n=22 Midden 7   5   12
  Laag 4   7   11
  Totaal 9   4   13
Totaal Hoog 12   4   16
N=62 Midden 6   7   13
  Laag 3   5   7
  Totaal 7   5   12

Tabel 8: Grammatica: combinaties van antwoorden op ZT en CT voor 3 niveaugroepen en 3 toetsniveaus (in %)

 

Geen van de proefpersonen kan beschouwd worden als beheerser van het hoogste toetsniveau, wanneer men het criterium voor beheersing bij 80% legt. Slechts 6 van de 50 proefpersonen behaalden 80% of meer op niveau 2 van de leestoets en 18 van hen bereikten zelfs het 80% criterium op het laagste niveau van deze toets niet. Als we eveneens voor ogen houden dat de proefpersonen niet getraind waren in zelfbeoordeling maar onverwacht geconfronteerd werden met deze wijze van bevragen, dan kunnen we concluderen dat deze resultaten de toepassing van zelfbeoordeling rechtvaardigen. Verder kunnen we vaststellen dat, althans voor dit doel, globale vragenlijsten minder geschikt lijken dan directe vragen bij teksten. Op grond van het feit dat de afname van de zelfbeoordelingstoetsen even lang duurde als het maken van de criteriumtoetsen, kunnen we ons bovendien afvragen of het aanbieden van antwoordmogelijkheden bij de zelfbeoordelingsvragen niet van invloed geweest is op de relatief grote proportie overschatting. Getoetsten hadden de neiging lang naar het correcte antwoord te zoeken.

[p. 167]

Daarom is het waarschijnlijk beter de antwoordmogelijkheden weg te laten in de zelfbeoordelingsinstrumenten en deze te reserveren voor de criteriumtoetsen.

Aangezien de inschatting juister blijkt te zijn naarmate het verschil tussen beheersingsniveau en toetsniveau kleiner is, zou het aan te bevelen zijn om alleen te bevragen rond het feitelijke niveau van de cursist. Een van de voordelen van zelfbeoordelingstoetsen is echter dat de cursist inzicht verwerft in de afstand tot een te bereiken doelstelling. Een mogelijke oplossing voor dit probleem is een reductie van het aantal items boven dit feitelijke niveau, zodat men niet zo vaak nee hoeft te zeggen.

Omdat uiteindelijk twee toetsvormen, zelfbeoordelingsinstrumenten en ‘normale’ toetsen, naast elkaar aangeboden zullen worden, zal bj de implementatie het doel en de toepassing van zelfbeoordeling zorgvuldig en nadrukkelijk toegelicht moeten worden. Alleen dan kan worden voorkomen dat criteriumtoetsen misbruikt gaan worden om leerders te ontmaskeren als onbetrouwbaar in plaats van hun feedback en inzicht te verschaffen in gehanteerde evaluatiecriteria.
1

Bibliographie

Bouwhuis, M. (1985), Zelfbeoordeling van taalvaardigheid Nederlands als tweede taal. Doctoraalscriptie KUN: Nijmegen.
Certificaat Nederlands als vreemde taal. Louvain-la-Neuve 1981, 1982, 1984.
[p. 168]
Elek, T. von, (1982), Test of Swedish as a second language: an experiment in selfassessment. Göteborg.
Elek, T. von, (1985), Självbedömning av färdigheter i Svenska som andra sprak. Orebro.
Instaptoets anderstaligen. CITO: Arnhem 1983.
Koning L. de (1982), Een onderzoek naar het taalgebruik op het centrum vakopleiding voor volwassenen ten behoeve van buitenlandse cusrsiten. Doctoraalscriptie KUN, Nijmegen.
Kraijenhoff, L. (1986), Mondeling taalgebruik binnen een centrum voor vakopleiding voor volwassenen. Doctoraalscriptie KUB: Tilburg.
Linden, T. van der & A. Janssen-van Dieten (1984), Een instaptoets voor anderstalige volwassenen. Projectaanvrage CITO/ITT: Arnhem/Nijmegen.
Moosbrugger, H. & H. Müller, A classical latent additive test model. In: The German Journal of Psychology (1982), 6, 145-149.
Oskarsson, M. (1984), Self-assessment of foreign language skills: a survey of research and development work. Council of Europe: Strasbourg.
Ree J. de (1985), Eindverslag woord- en tekstanalyse van leermiddelen gebruikt binnen de technische sector van de B.K.E.-opleidingen. Stageverslag CITO: Arnhem.
Uit den Boogaart, P. (1975), Woordfrequenties. Utrecht.