Reflecteren complexiteit, accuratie en vloeiendheid de taalgroei?
Als taaldocenten willen we altijd graag weten hoe leerlingen vooruitgaan. Een volledige taaltest is een manier om hun vaardigheid te beoordelen, maar we kunnen ook kijken naar specifieke aspecten van de prestaties, zoals hoe complex hun zinnen zijn, hoeveel fouten leerlingen maken of hoe vloeiend ze spreken of schrijven. Deze drie dimensies, complexiteit, accuratie en vloeiendheid (CAV), worden veel gebruikt in onderzoek en soms in de lespraktijk om taalvaardigheid te beschrijven. CAV richt zich op concrete taalkundige kenmerken in de taal van leerlingen, voornamelijk op schrijf- en spreekvaardigheid.
CAV-metingen worden vaak uitgedrukt in de vorm van frequenties, verhoudingen of vergelijkingen. Zo kan de verhouding van inhoudelijke woorden (d.w.z. het aandeel inhoudelijke woorden zoals werkwoorden en zelfstandige naamwoorden van alle woorden in een tekst) in een schrijfsteekproef inzicht geven in de complexiteit van de woordenschat van een leerling. Evenzo kan de frequentie van pauzes midden in een zin tijdens een toespraak de mate van (on)vloeiendheid van een leerling weergeven. Tegenwoordig kunnen veel van de CAV-metingen worden beoordeeld met behulp van geautomatiseerde tools, en de CAV-categorieën zijn sindsdien uitgebreid met andere linguïstische kenmerken, zoals cohesie en communicatieve adequaatheid. Deze ontwikkelingen in CAV maken het mogelijk om een gedetailleerder beeld te krijgen van het niveau van leerlingen dan een enkele algehele testscore. Met CAV-scores voor verschillende linguïstische kenmerken kunnen docenten meer geïndividualiseerde feedback geven, terwijl leerlingen een duidelijker beeld krijgen van hun eigen niveau en voortgang.
Het gebruik van CAV-metingen ter ondersteuning van het lesgeven en leren van een tweede taal lijkt daarom een goed plan. Maar hier komt het kernpunt: de betrouwbaarheid van CAV-metingen bij taaltoetsen heeft tot nu toe zeer beperkte aandacht gekregen in onderzoek. Voordat CAV-scores gebruikt kunnen worden om de vaardigheden van leerders te meten, is het essentieel om te bepalen of het herhaaldelijk testen van dezelfde persoon consistente CAV-resultaten oplevert wanneer de vaardigheid en de testomstandigheden constant blijven. Als een leerder bijvoorbeeld drie schrijfopdrachten op één dag voltooit en scores van 9/10, 2/10 en 5/10 behaalt op een accuratiemeting, kunnen we geen betrouwbare conclusies trekken over het werkelijke nauwkeurigheidsniveau van de leerder – de accuratie-meting is dan dus onbetrouwbaar.
Deze zorg vormde de basis van mijn promotieonderzoek. Ik heb een reeks experimenten uitgevoerd om de betrouwbaarheid van CAV-metingen in zowel schrijven als spreken te testen om te zien of CAV-scores stabiel zouden blijven wanneer de vaardigheid onmogelijk had kunnen veranderen. Dit onderzoek werpt licht op welke CAV-metingen we kunnen vertrouwen en wat dit betekent voor beoordelingen in de klas.
Hoe betrouwbaar zijn CAV-metingen in schrijftoetsen?
In het eerste experiment schreven 18 Chinese studenten Engels (allemaal kandidaten voor het IELTS-examen) drie essays voor IELTS Academic Task 2 op één dag. Elke taak duurde 40 minuten, net als bij het echte examen. Omdat de taalvaardigheid van de studenten waarschijnlijk niet zou veranderen in zo’n korte tijd, en de IELTS-schrijfmodule zelf een gevestigde, betrouwbare test is, zouden eventuele verschillen in de CAV-scores tussen de drie essays voort moeten komen uit de metingen zelf en niet uit daadwerkelijke verschillen in taalvaardigheid.
Ik beoordeelde de teksten met behulp van vijf CAV-metingen: drie voor complexiteit, één voor accuratie en één voor vloeiendheid. De scores werden vervolgens geanalyseerd met de Generalizability Theory (G-theorie), een statistische benadering om de betrouwbaarheid van examens te testen. De resultaten toonden aan dat geen van de metingen zeer betrouwbaar was, hoewel de vloeiendheidsmeting het meest consistent was. Dit betekent dat de scores waarschijnlijk nog steeds aanzienlijk zullen verschillen, als een student twee schrijftoetsen achter elkaar aflegt en we de voorbeelden beoordelen met (onbetrouwbare) complexiteits- en accuratie-metingen, zelfs als er geen veranderingen in de vaardigheid van de student zijn. Als diezelfde twee essays daarentegen zouden worden beoordeeld met een betrouwbare methode, zoals de officiële IELTS-beoordeling met getrainde beoordelaars, zouden de resultaten waarschijnlijk veel meer op elkaar lijken.
Hoe betrouwbaar zijn CAV-metingen in de spreektest?
Misschien waren de onbetrouwbare resultaten in het eerste experiment simpelweg te wijten aan mijn beperkte selectie van metingen of had ik misschien pech met mijn keuzes. Ik heb immers maar vijf van de vele CAV-metingen getest. Om CAV-metingen een eerlijkere kans te geven, heb ik een tweede onderzoek uitgevoerd, gericht op 57 verschillende criteria in een spreektest. Dit keer deden 54 studenten mee. Elke student voltooide vijf taken uit de IELTS Speaking Test Deel 2 (monoloog), waarbij ze twee minuten spraken over alledaagse onderwerpen, zoals een dag met mooi weer of een interessante plek. In totaal verzamelde ik 270 opnames, allemaal beoordeeld met de 57 criteria. Ik heb de G-Theory-tests opnieuw afgenomen, en deze keer was er goed nieuws: 12 criteria bleken betrouwbaar – maar wederom waren het allemaal criteria voor vloeiendheid. De rest, met name die gericht op complexiteit of accuratie, waren niet consistent.
Wat zou er gebeuren als onbetrouwbare CAV-metingen worden gebruikt bij de beoordeling van studenten?
Uit de eerste twee experimenten leerde ik dat veel CAV-metingen onbetrouwbaar leken, maar wat zou er gebeuren als we daadwerkelijk zowel betrouwbare als onbetrouwbare metingen zouden gebruiken om de taalontwikkeling van leerlingen te volgen? Deze vraag zette me ertoe om de Engelse taalontwikkeling van twee studenten gedurende 13 maanden te volgen. Elke maand voltooiden ze vijf taken uit IELTS Speaking Part 2 achter elkaar op dezelfde dag. Vervolgens beoordeelde ik hun opnames met één met hoge betrouwbaarheid (voor vloeiendheid), één met gemiddelde betrouwbaarheid en één met lage betrouwbaarheid (beide voor de complexiteit van het woordgebruik). Voor de betrouwbare meting waren de scores van de studenten stabiel binnen dezelfde dag en vertoonden ze duidelijke veranderingen van maand tot maand, wat de daadwerkelijke voortgang van de studenten in de loop van de tijd weerspiegelde. Voor de meting met gemiddelde betrouwbaarheid waren er ook verschillen in de scores van studenten tussen maanden waarneembaar, hoewel veel minder duidelijk. Voor de meting met lage betrouwbaarheid fluctueerden de scores echter sterk, zowel binnen dezelfde dag als tussen de maanden. Ik kon geen duidelijke ontwikkelingstrend waarnemen. Met andere woorden, onbetrouwbare metingen maakten het bijna onmogelijk om iets zinnigs te zeggen over de voortgang van de leerlingen.
Interessant genoeg waren de metingen met lage en gemiddelde betrouwbaarheid beide versies van de type-token ratio (een maatstaf voor woordenschatdiversiteit), maar slechts één ervan was consistent genoeg om ontwikkelingsveranderingen aan te tonen. Dit betekent dat de leerlingen wel vooruitgang boekten, maar dat een onbetrouwbare meting deze niet kon vastleggen. Kortom, zelfs wanneer ze op hetzelfde taalkundige kenmerk mikken, kan de manier waarop een meting wordt geoperationaliseerd de betrouwbaarheid ervan sterk beïnvloeden.
Wat doen we met CAV-metingen?
CAV is verhelderend voor taaldocenten en -leerders en helpt bij het identificeren van gebieden waar leerlingen mogelijk extra ondersteuning nodig hebben. Mijn onderzoek toont echter aan dat we voorzichtig moeten zijn met het gebruik van CAV-metingen. Veel metingen, met name wat betreft complexiteit en accuratie, zijn niet stabiel genoeg om te worden gebruikt als het belangrijkste bewijs voor de voortgang van leerlingen. Vloeiendheidsmetingen presteren over het algemeen beter, maar zelfs dan is voorzichtigheid geboden. Er is meer onderzoek nodig om de betrouwbaarheid van CAV-metingen te verbeteren. Voor gebruik in de klas kan het het beste zijn om de betrouwbare CAV-metingen te gebruiken en de onbetrouwbare te vermijden; metingen met een gemiddelde betrouwbaarheid kunnen nog steeds nuttig zijn, maar alleen wanneer er bij elk beoordelingspunt meerdere steekproeven worden genomen.
terug