La miglior scuola in città

“Scusi Dr. Koretz, puo’ dirmi per cortesia la miglior scuola in città a cui iscrivere mio figlio?”

E’ questa la domanda che si sente fare tutti i giorni Daniel Koretz.

Poiché per vivere valuta le scuole attraverso i test scolastici – il suo libro “Measuring Up è una Bibbia – la cosa non dovrebbe destare meraviglia.

Ma la sua risposta ricevuta delude quasi sempre.

Di solito invita a valutare la descrizione dei programmi…

… the strength of the school’s music or athletic programs, some special curricular emphasis, school size, social heterogeneity, and so on…

Poi consiglia di visitare di persona le scuola per dare un’occhiata al posto per vedere se è promettente.

Osservare e descrivere, dunque. Una roba faticosissima.

Il genitore che ha interpellato Koretz di solito lo congeda velocemente e freddamente, è palpabile la sua insoddisfazione, vuole evidentemente qualcosa di meno complicato da un progettista di test. Qualcosa di meno ambiguo. Diciamolo chiaramente: vuole sapere qual è la scuola che fa meglio nei test…

… They wanted something simpler: the names of the schools with the highest test scores…

C’è una risposta standard da dare a questi scocciatori…

… “If all you want is high average test scores, tell your realtor that you want to buy into the highest-income neighborhood you can manage. That will buy you the highest average score you can afford.”…

Segui il denaro: andate nei quartieri alti della città, quelli a più alto reddito medio e lì troverete le scuole che fanno meglio nei test.

Ma il nervosismo registrato è frutto di un’incomprensione: c’è chi crede che conoscere l’esito di un test ci dica l’essenziale su uno studente o  una scuola.

Un’altra credenza malriposta è che progettare e somministrare un test sia una cosa semplice: detto, fatto.

Le parole del Presidente Bush presentando il programma “No Child Left Behind” tradiscono questa credenza…

… “A reading comprehension test is a reading comprehension test. And a math test in the fourth grade—there’s not many ways you can foul up a test … It’s pretty easy to ‘norm’ the results.”…

Sbagliato: non c’è niente di più facile che “sporcare” un test e renderlo inutile, nella fortunata ipotesi che il test non sia già fallato di per sé.

I test sembrano semplici ma sono difficilissimi da preparare e somministrare. Farlo in massa è praticamente impossibile.

Ormai si parla dei test scolastici anche al bar

… For many years, Parade magazine has featured a regular column by Marilyn vos Savant, who is declared by the magazine to have the highest IQ in the country. Rather than simply saying that Ms. vos Savant is one damned smart person, if indeed she is, the editors use the everyday vocabulary of “IQ”…

Ma pochi frequentatori di bar sanno cos’è l’ IQ e come si testa? C’è da dubitarne, il concetto non è affatto immediato.

Altro mito: credere che i test siano indicatori potentissimi

… it is just another way of saying that she is smart. But it does seem to give the assertion more weight, a patina of scientific credibility…

Sarebbe molto più appropriato dire che Tizio è un tipo intelligente (come facevano i nostri nonni) che far riferimento al suo IQ.

***

Cosa complica maledettamente le cose?

Innanzitutto il fatto che i test siano moltissimi, praticamente infiniti.

Non esiste un test che ci dia un’immagine completa del lavoro fatto da una scuola. E nemmeno tutti i test messi insieme riescono nell’impresa.

Innanzitutto perché considerano solo un sottoisieme degli scopi educativi. Poi perché non sono misurazione diretta di qualcosa ma semplici stime che utilizzano campionature.

Un test scolastico è come un sondaggio. Si guarda a poche cose per farsi un’idea del tutto.

***

Un problema dei test è la loro frequente invalidità: si presenta quando due test in teoria equivalenti danno esiti diversi. Un esempio:

… For example, for more than three decades the federal government has funded a large-scale assessment of students nationwide called the National Assessment of Educational Progress, often simply labeled NAEP (pronounced “nape”), which is widely considered the best single barometer of the achievement of the nation’s youth. There are actually two NAEP assessments, one (the main NAEP) designed for detailed reporting in any given year, and a second designed to provide the most consistent estimates of long-term trends. Both show that mathematics achievement has been improving in both grade four and grade eight—particularly in the fourth grade, where the increase has been among the most rapid nationwide changes in performance, up or down, ever recorded. But the upward trend in the main NAEP has been markedly faster than the improvement in the long-term-trend NAEP. Why? Because the tests measure mathematics somewhat differently,…

Invalsi, Pisa, Timss… le graduatorie su questo e quello cambiano sempre.

Cambiano anche nel tempo. Quando un test ha conseguenze sostanziali (carriera, stipendi…), guarda caso, i miglioramenti sono iperbolici. L’esempio del Texas…

… The experience in Texas during George Bush’s tenure as governor provides a good illustration. At that time, the state used the Texas Assessment of Academic Skills (TAAS) to evaluate schools, and high-school students were required to pass this test in order to receive a diploma. Texas students showed dramatically more progress on the TAAS than they did on the National Assessment of Educational Progress…

Ma si tratta di miglioramenti ben poco rassicuranti, in genere frutto della pratica “teaching to test”.

***

C’è poi un problema di attendibilità: studenti che fanno due volte lo stesso test e ottengono risultati differenti.

Il SAT si somministra più volte, per esempio. Ma non sempre è possibile fare prove ripetute, specie se la massa degli studenti sotto esame è cospicua.

Molti test progettati per essere “equivalenti” hanno contenuti diversi (è ovvio, non si puo’ sottoporre lo stesso identico test), ma i contenuti non sono mai neutrali.

Parte della fluttuazione è dovuta dallo stato di forma dell’allievo. Magari il soggetto è nervoso o ha dormito poco.

Morale, non ha senso dare grande peso a piccole differenze.

***

Poi ci sono i problemi di scala: come riportare gli esiti?

Noi siamo abituati con i voti: una scala arbitraria che rende chiaramente impossibile ogni confronti…

… We know that to obtain a grade of “A” can require much more in one class than in another…

Ma non è facile eliminare questo problema: scale diverse danno comunque rappresentazioni diverse della performance, quale sarà la più fedele?

***

Poi c’è il problema dei test lacunosi (o fallati): sono i test che non funzionano come dovrebbero.

Esempio di test fallato in sfavore degli immigrati

… For example, a mathematics test that requires reading complex text and writing long answers may be biased against immigrant students who are competent in mathematics but have not yet achieved fluency in English…

Qui si pongono problemi: se un test è perfettamente neutrale risulta fallato per i poveri. Che fare? La cosa desta imbarazzo e non ci sono posizioni unanimi in merito…

… For instance, if poor students in a given city attend inferior schools, a completely unbiased test is likely to give them lower scores because the inferior teaching they received impeded their learning…

E che dire dei test fallati contro le donne? Qui si entra in questioni filosofiche. Il fatto è che il test discrimina, è inevitabile: lo facciamo proprio per poter discriminare!

***

Poi c’è un problema di settaggio: un test deve essere mirato al suo scopo, di solito molto più angusto di quel che si crede.

Per esempio, voglio valutare la scuola o gli studenti? Occorrono test molto differenti a seconda dei due obbiettivi…

… For example, the assessment designs that are best for providing descriptive information about the performance of groups (such as schools, districts, states, or even entire nations) are not suitable for systems in which the performance of individual students must be compared. Adding large, complex, demanding tasks to an assessment may extend the range of skills you can assess, but at the cost of making information about individual students less trustworthy….

***

Riassumiamo i cinque problemi chiave: invalidità, attendibilità, rappresentazione, lacunosità e settaggio.

Si tratta di problemi che richiedono soluzioni complicate e fragili. Purtroppo, c’è sempre chi tende ad associare il “complicato” al “poco importante”.

***

Ma poi ci sono almeno un paio di problemi ancora più rilevanti, vediamoli.

Cos’è un test? Essenzialmente un sondaggio.

Per risolvere un certo problema, per esempio, noi attiviamo 1000 abilità differenti ma non possiamo misurarle tutte per prevedere così in modo attendibile la nostra performance. Tra queste è necessario selezionare un campione rappresentativo della totalità. Se sbagliamo campione, il test si puo’ buttare.

La logica dei test è la medesima dei sondaggi…

… ON SEPTEMBER 10, 2004, a Zogby International poll of 1,018 likely voters showed George W. Bush with a 4-percentage-point lead over John Kerry in the presidential election campaign. These results were a reasonably good prediction: Bush’s margin when he won two months later was about 2.5 percent…

A volte sondaggi del genere falliscono miseramente: un esempio storico è la corsa Dewey vs Truman. Ma anche di recente Trump e Brexit.

Eppure non possiamo farne a meno, di solito ci prendono. Una cosa è certa: la bontà del sondaggio dipende dal campione prescelto. Ma anche da come sono poste le domande. Esempio…

… Original question: “What is the average number of days each week you have butter?” Revised question: “The next question is just about butter. Not including margarine, what is the average number of days each week you have butter?”…

Questo qui sopra è il caso di due domande equivalenti a cui si è risposto in modo molto diverso.

Poi conta la voglia di rispondere in modo onesto. Ci sono domande che incentivano la “disonestà”; se chiedo a un tale quanto guadagna magari costui non ha voglia di dirmelo.

Onnipresente poi è il “social desirability bias”, ovvero la voglia di compiacere l’intervistatore dicendo la “cosa giusta”. Nei sondaggi nessuno è razzista o sessista, e tutti fanno volontariato…

… For example, a study published in 1950 documented substantial overreporting of several different types of socially desirable behavior. Thirty-four percent of respondents reported that they had contributed to a specific local charity when they had not, and 13 to 28 percent of respondents claimed to have voted in various elections in which they had not…

I test scolastici sono sondaggi e hanno dunque tutte le pecche dei sondaggi…

… Educational achievement tests are in many ways analogous to this Zogby poll in that they are a proxy for a better and more comprehensive measure that we cannot obtain… The full range of skills or knowledge about which the test provides an estimate—analogous to the votes of the entire population of voters in the Zogby survey—is generally called the domain by those in the trade…

***

Ma cosa misuriamo esattamente in un test scolastico? Quanto è rappresentativo il campione prescelto?

Qui comincia la diatriba che divide. Ci sono i critici

… there are some aspects of the goals of education that achievement tests are unable to measure…

E ci sono gli entusiasti…

… Tests measure what is important, their argument goes, and those who focus on other “goals” are softies…

I critici hanno molte frecce al loro arco, non si puo’ non riconoscere dei limiti alla capacità di quantificare l’istruzione passata nel discente.

A dirlo non è il sindacalista anti-meritocratico ma un padre della psicometria come E. F. Lindquist in un articolo dove oltre mezzo secolo fa c’era già tutto: “Preliminary Considerations in Objective Test Construction”.

Lindquist anticipò le controversie attuali affermando che gli scopi educativi sono vari e solo alcuni possono essere standardizzati.

Esempio di scopi non standardizzabili: la voglia di apprendere. Oppure: l’abilità nell’applicare in modo pertinente cio’ che si è appreso.

L’ esperienza ci dice che i test misurano variabili di grande importanza. Ma altre – non meno importanti – sono inevitabilmente trascurate.

Un esempio di atteggiamento accorto

… ITBS manual advises school administrators explicitly to treat test scores as specialized information that is a supplement to, not a replacement for, other information about students’ performance….

C’è poi un’altra lacuna…

… Second, Lindquist argued that even many of the goals of schooling that are amenable to standardized testing can be assessed only in a less direct fashion than we would like

Lo scopo dell’istruzione è troppo lontano e generico per capire se stiamo misurando le variabili giuste.

Per esempio, perché insegniamo l’algebra? Un’ipotesi…

… to teach students how to reason algebraically so that they can apply this reasoning to the vast array of circumstances outside of school to which it is relevant. This sort of very general goal, however, is remote from decisions about the algebra content to be taught in a given middle school this Thursday morning… curriculum designers and teachers must make a large number of specific decisions about what algebra to teach. For example, do students learn to factor quadratic equations? Many considerations shape these decisions, not just a subject’s possible utility in a wide range of work-related and other contexts years later…

Ma è un’ipotesi vaga: si rischia di misurare abilità che non verranno mai chiamate in causa o attivate dal soggetto.

Si possono imparare tante cose ma se poi non si sarà in grado di capire quando e come usare cio’ che si è imparato? Un aneddoto gustoso

… Many years ago, I had Sunday brunch in Manhattan with three New Yorkers. All were highly educated, and all had taken at least one or two semesters of mathematics beyond high school. In my experience, New York natives make their way about town in part by drawing on a prodigious knowledge of the location of various landmarks, such as the original Barnes and Noble store on Fifth Avenue. That Sunday morning, I found to my surprise that none of the three New Yorkers could figure out the location of the restaurant where we were to have brunch. It was on one of the main avenues, and they knew the address, but they could not figure out the cross street. I suggested that the problem might turn out to be a very simple one. I asked if they knew where the addresses on the avenues in that part of Manhattan reached zero and, if so, whether they reached zero at the same street. They quickly agreed that they did and gave me the name of the cross street. I then asked if the addresses increased at the same rate on these avenues, and if so, at what rate. That is, how many numbers did the addresses increase with each cross street? They were quite certain that the rate was the same, but it took a little more work to figure out what it was. Using a few landmarks they knew (including the original Barnes and Noble store), they figured out the rate for a couple of avenues. The rates were the same. At that point, they had the answer, although they had not yet realized it…

Per orientarsi gli studenti avrebbero dovuto risolvere una semplice equazione di promo grado. Non lo hanno capito, anche se di solito all’università risolvevano problemi matematici enormemente più difficili…

… All three were competent in dealing with algebra much more complex than this, but they had not developed the habit of thinking of real-world problems in terms of the mathematics they had learned in the classroom…

Nel mondo ideale dovremmo valutare le persone osservandole direttamente all’opera sui problemi che saranno chiamati ad affrontare anche dopo, ma i test scolastici sono lontanissimi dal mondo ideale della valutazione, ci si arrabatta quindi in qualche modo…

… a test author usually has to focus on the proximate goals of educators, even if these are only proxies for the ultimate social goals of education…

Lindquist raccomandava di testare le conoscenze specifiche

… Lindquist wanted as much as practical to isolate specific knowledge… tests to include tasks that focus narrowly on these specifics… attempting to create test items that present complex, “authentic” tasks more similar to those students might encounter out of school…

La tendenza è stata di segno opposto.

***

Come si puo’ concludere sulla base di queste considerazioni?

Che i test sono uno strumento utile ma incompleto.

Che è temerario abbinare all’esito dei test conseguenze così importanti come lo stipendio o la carriera (test high stake).

Che i giudizi vanno espressi tenendo conto dei test ma non solo (una componente tra le altre). Un po’ come fanno le migliori università

… they conduct a “holistic” review of applicants, considering not only SAT or ACT scores but also grades, personal statements, persistence in extracurricular activities, and so on…

studying

 

 

Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...