Reflecteren complexiteit, accuratesse en vloeiendheid de taalgroei?

Als taaldocenten willen we altijd graag weten hoe leerlingen vooruitgaan. Een volledige taaltest is een manier om hun vaardigheid te beoordelen, maar we kunnen ook kijken naar specifieke aspecten van de prestaties, zoals hoe complex hun zinnen zijn, hoeveel fouten leerlingen maken of hoe vloeiend ze spreken of schrijven. Deze drie dimensies, complexiteit, accuratesse en vloeiendheid (of fluency, in het Engels), afgekort CAF, worden veel gebruikt in onderzoek en soms in de lespraktijk om taalvaardigheid te beschrijven. CAF richt zich op concrete taalkundige kenmerken in de taal van leerlingen, voornamelijk op schrijf- en spreekvaardigheid.

CAF-maten worden vaak uitgedrukt in de vorm van frequenties, verhoudingen of vergelijkingen. Zo kan de verhouding van inhoudswoorden (d.w.z. het aandeel inhoudswoorden zoals werkwoorden en zelfstandige naamwoorden van alle woorden in een tekst) in een tekst inzicht geven in de complexiteit van de woordenschat van een leerling. Evenzo kan de frequentie van pauzes midden in een zin tijdens een spreekbeurt de mate van (on)vloeiendheid van een leerling weergeven. Tegenwoordig kunnen veel van de CAF-maten worden beoordeeld met behulp van geautomatiseerde tools, en de CAF-categorieën zijn veelvuldig uitgebreid met andere linguïstische kenmerken, zoals cohesie en communicatieve adequaatheid. Deze ontwikkelingen in CAF maken het mogelijk om een gedetailleerder beeld te krijgen van het niveau van leerlingen dan een algehele score op een test. Met CAF-scores voor verschillende linguïstische kenmerken kunnen docenten hierdoor geïndividualiseerdere feedback geven, terwijl leerlingen een duidelijker beeld krijgen van hun eigen niveau en voortgang.

Het gebruik van CAF-maten ter ondersteuning van het lesgeven en leren van een tweede taal lijkt daarom een goed plan. Maar hier komt het belangrijkste punt: de betrouwbaarheid van CAF-maten bij taaltoetsen heeft tot nu toe zeer beperkte aandacht gekregen in onderzoek. Voordat CAF-scores gebruikt kunnen worden om de vaardigheden van leerders te meten, is het essentieel om te bepalen of het herhaaldelijk testen van dezelfde persoon consistente CAF-resultaten oplevert wanneer de taalvaardigheid en de testomstandigheden constant blijven. Als een leerder bijvoorbeeld drie schrijfopdrachten op één en dezelfde dag voltooit en scores van 9/10, 2/10 en 5/10 behaalt op een accuratessemaat, kunnen we geen betrouwbare conclusies trekken over het werkelijke niveau van de leerder – de accuratessemaat is dan dus onbetrouwbaar.

Deze zorg vormde de basis van mijn promotieonderzoek. Ik heb een reeks experimenten uitgevoerd om de betrouwbaarheid van CAF-maten in zowel schrijven als spreken te testen om te zien of CAF-scores stabiel zouden blijven, wanneer ervan uit kan worden gegaan dat de taalvaardigheid niet heeft kunnen veranderen (bijv. binnen één dag). Dit onderzoek werpt licht op welke CAF-maten we kunnen vertrouwen en wat dit betekent voor beoordelingen in de klas.

Hoe betrouwbaar zijn CAF-maten in schrijftoetsen?

In het eerste experiment schreven 18 Chinese studenten Engels (allemaal kandidaten voor het IELTS-examen) drie essays voor IELTS Academic Task 2 op één en dezelfde dag. Elke taak duurde 40 minuten, net als bij het echte examen. Omdat de taalvaardigheid van de studenten waarschijnlijk niet verandert in zo’n korte tijd, en de IELTS-schrijfmodule zelf een gevestigde, betrouwbare test is, zijn eventuele verschillen in CAF-scores tussen de drie essays te wijten aan de gebruikte maten zelf en niet aan daadwerkelijke verschillen in taalvaardigheid.

Ik beoordeelde de teksten met behulp van vijf CAF-maten: drie voor complexiteit, één voor accuratesse en één voor vloeiendheid. De scores werden vervolgens geanalyseerd met de Generalizability Theory (G-theorie), een statistische benadering om de betrouwbaarheid van examens te toetsen. De resultaten toonden aan dat geen van de maten zeer betrouwbaar was, waarbij de maat voor vloeiendheid het meest consistent was. Dit betekent dat de scores waarschijnlijk nog steeds aanzienlijk zullen verschillen, als een student twee schrijftoetsen achter elkaar aflegt en we de voorbeelden beoordelen met (onbetrouwbare) complexiteits- en accuratesse-maten, zelfs als er geen veranderingen in de vaardigheid van de student zijn. Als diezelfde twee essays daarentegen worden beoordeeld met een betrouwbare methode, zoals de officiële IELTS-beoordeling met getrainde beoordelaars, zullen de resultaten waarschijnlijk veel meer op elkaar lijken.

Hoe betrouwbaar zijn CAF-metingen in de spreektest?

Misschien waren de onbetrouwbare resultaten in het eerste experiment simpelweg te wijten aan mijn beperkte selectie van maten of had ik misschien pech met mijn keuzes. Ik heb immers maar vijf van de vele CAF-maten getoetst. Om CAF-maten een eerlijkere kans te geven, heb ik een tweede onderzoek uitgevoerd, gericht op 57 verschillende criteria in een spreektest. Dit keer deden 54 studenten mee. Elke student voltooide vijf taken uit de IELTS Speaking Test Deel 2 (monoloog), waarbij ze twee minuten spraken over alledaagse onderwerpen, zoals een dag met mooi weer of een interessante plek. In totaal verzamelde ik 270 spraakopnames die ik allemaal heb beoordeeld met de 57 criteria. Ik heb de G-Theory-tests opnieuw afgenomen, en deze keer was er goed nieuws: 12 criteria bleken betrouwbaar – maar wederom waren het allemaal criteria voor vloeiendheid. De rest, met name die gericht op complexiteit of accuratesse, waren niet consistent.

Wat gebeurt er als onbetrouwbare CAF-maten worden gebruikt bij de beoordeling van studenten?

Uit de eerste twee experimenten leerde ik dat veel CAF-maten onbetrouwbaar leken, maar wat zou er gebeuren als we daadwerkelijk zowel betrouwbare als onbetrouwbare maten zouden gebruiken om de taalontwikkeling van leerlingen te volgen? Deze vraag zette me ertoe om de Engelse taalontwikkeling van twee studenten gedurende 13 maanden te volgen. Elke maand voltooiden ze vijf taken uit IELTS Speaking Test Deel 2 achter elkaar op dezelfde dag. Vervolgens beoordeelde ik hun opnames met één maat met hoge betrouwbaarheid (voor vloeiendheid), één maat met gemiddelde betrouwbaarheid en één maat met lage betrouwbaarheid (beide voor de complexiteit van het woordgebruik). Voor de betrouwbare maten waren de scores van de studenten stabiel op dezelfde dag en vertoonden ze duidelijke veranderingen van maand tot maand, wat de daadwerkelijke voortgang van de studenten in de loop van de tijd weerspiegelde. Voor de maten met gemiddelde betrouwbaarheid waren er ook verschillen in de scores van studenten tussen maanden waarneembaar, hoewel veel minder duidelijk. Voor de maten met lage betrouwbaarheid fluctueerden de scores echter sterk, zowel op dezelfde dag als tussen de maanden. Ik kon geen duidelijke ontwikkelingstrend waarnemen. Met andere woorden, onbetrouwbare maten maakten het bijna onmogelijk om iets zinnigs te zeggen over de voortgang van de leerlingen.

Interessant genoeg waren de maten met lage en gemiddelde betrouwbaarheid beide versies van de type-token ratio (een maatstaf voor woordenschatdiversiteit), maar slechts één ervan was consistent genoeg om ontwikkelingsveranderingen aan te tonen. Dit betekent dat de leerlingen wel vooruitgang boekten, maar dat een onbetrouwbare maat deze niet kon vastleggen. Kortom, zelfs wanneer ze op hetzelfde taalkundige kenmerk mikken, kan de manier waarop een maat wordt geoperationaliseerd de betrouwbaarheid ervan sterk beïnvloeden.

Wat doen we met CAF-maten?

CAF is verhelderend voor taaldocenten en -leerders en helpt bij het identificeren van gebieden waar leerlingen mogelijk extra ondersteuning nodig hebben. Mijn onderzoek toont echter aan dat we voorzichtig moeten zijn met het gebruik van CAF. Veel maten, met name wat betreft complexiteit en accuratesse, zijn niet stabiel genoeg om te worden gebruikt als het belangrijkste bewijs voor de voortgang van leerlingen. Vloeiendheidsmaten presteren over het algemeen beter, maar zelfs dan is voorzichtigheid geboden. Er is meer onderzoek nodig om de betrouwbaarheid van CAF-maten te verbeteren. Voor gebruik in de klas kan het het beste zijn om betrouwbare CAF-maten in te zetten en onbetrouwbare te vermijden; maten met een gemiddelde betrouwbaarheid kunnen nog steeds nuttig zijn, maar alleen wanneer er bij elk beoordelingspunt meerdere steekproeven worden genomen.

Geplaatst op 27/10/2025

terug

taalwijs.nu

Reflecteren complexiteit, accuratesse en vloeiendheid de taalgroei?