Domanda:
Perché alcuni test hanno un punteggio minimo (diverso da zero)?
BowlesCR
2016-01-07 02:15:09 UTC
view on stackexchange narkive permalink

Alcuni test prevedono dei minimi nella loro possibile fascia di punteggio. Vengono in mente l'intervallo di 300-1000 punti di Cisco e l'intervallo di 200-800 punti per sezione del SAT.

A cosa serve questo? Presumo che dietro ci sia una logica statistica. Forse avrebbe più senso per me se capissi come fanno a calcolare il punteggio da un dato numero di domande (in) corrette.

Non c'è una ragione statistica per questo, poiché spostare i punteggi verso il basso di 200 comporterebbe la stessa varianza e una media spostata di 200. Ho sempre pensato che fosse per risparmiare i sentimenti delle persone che hanno ottenuto punteggi molto bassi.
Ad esempio, un test di stile a scelta multipla con 5 opzioni per ogni domanda, una persona con zero conoscenza riceverà ~ 20% di risposte corrette per puro caso, quindi può avere senso impostare il 20% come punteggio minimo, riconoscendo così che ottenere Il 20% di risposte nel test non indica un'abilità maggiore rispetto a ottenere in qualche modo solo il 10% di risposte giuste.
[Alcuni sistemi di valutazione] (https://en.wikipedia.org/wiki/Academic_grading_in_Denmark) hanno un punteggio minimo * negativo * diverso da zero.
Sono sorpreso di vedere che nessuno ha contestato l'assunto della domanda. Non ho preso SAT da solo, ma se questo (http://www.snopes.com/college/exam/sat.asp) è vero, allora * è * possibile ottenere meno di 200 punti in SAT. Le autorità semplicemente "non riportano punteggi inferiori a 200". (È una domanda valida chiedere "perché?", Ma questa è una domanda diversa e probabilmente meno interessante.)
@gerrit: Link pulito. Mi chiedo perché gli equivalenti numerici dei voti siano 8, 7, 5, 1, -7 e -23. Che strana sequenza.
Sette risposte:
ff524
2016-01-07 02:33:19 UTC
view on stackexchange narkive permalink

Secondo l ' Encyclopedia of Research Design (pagina 629), segnala che si tratta di variabili di intervallo, non di variabili di rapporto:

Test standardizzati, tra cui Intelligence Quotient (IQ), Scholastic Achievement Test (SAT), Graduate Record Examination (GRE), Graduate Management Admission Test (GMAT) e Miller Analogies Test (MAT) sono anche esempi di una scala di intervallo. Ad esempio, nella scala IQ, la differenza tra 150 e 160 è uguale a quella tra 80 e 90. Allo stesso modo, la distanza nei punteggi GRE tra 350 e 400 è la stessa della distanza tra 500 e 550.

I test standardizzati non si basano su un "vero zero" che rappresenta la mancanza di intelligenza. Questi test standardizzati non hanno nemmeno un punto zero. Il punteggio più basso possibile per questi test standardizzati non è zero. A causa della mancanza di un "vero zero", i test standardizzati non possono fare dichiarazioni sul rapporto tra i loro punteggi. Coloro che hanno un punteggio QI di 150 non sono intelligenti il ​​doppio di quelli che hanno un punteggio QI di 75. Allo stesso modo, tale rapporto non può essere applicato ad altri test standardizzati inclusi SAT, GRE, GMAT o MAT.

Salkind, Neil J., ed. Enciclopedia del design della ricerca . Vol. 1. Sage, 2010.

Non sono sicuro che questo risponda molto bene alla domanda: è certamente vero che i punteggi sono misurazioni dell'intervallo, ma sembra strano che i punteggi vengano compensati SOLO per indicarlo - sembra stranamente sottile.
@Matt Penso che ciò che dice ff524 sia la relazione tra Celsius e Kelvin. Perché 0C! = 0K ma 0C = 273,15K? La risposta è xC - yC = xK - yK per tutte le x e y. E nessun altro rapporto soddisferà questa equazione.
La citazione in blocco sembra autorevole e preziosa e per me non è abbastanza chiara per capirla completamente. Sottolineare che la differenza tra 150 e 160 è uguale a quella tra 80 e 90 non mi illumina nulla perché è ciò che normalmente accade per i punteggi che ** iniziano ** da 0. In breve: indosso ancora capito.
@ToddWilcox Hai ragione: il primo paragrafo è vero anche per le scale di rapporto (che hanno un "vero zero"). Il secondo paragrafo è vero per le scale di intervallo ma * non * vero per le scale di rapporto, cioè operazioni valide per scale di rapporto ma non valide per scale di intervallo. Vedi anche [questo wikibook] (https://en.wikibooks.org/wiki/Handbook_of_Descriptive_Statistics/Types_of_Statistical_Variables).
L'ho notato ma non ne capisco il significato. Mi vengono in mente due domande: 1) Perché usare una scala a intervalli invece di qualsiasi altro tipo di scala (questo sembra essere il fulcro della domanda originale)? E 2) È possibile convertire un punteggio su una scala di intervalli in un punteggio su una scala di rapporti? In caso contrario, cosa ci dice in primo luogo un punteggio su scala di intervallo?
Ok, ho seguito il link del commento e suggerisco che questa risposta sarebbe migliorata molto spiegando parte di ciò che c'è dentro. Se ho capito bene, i punteggi dei test che non hanno punto zero possono solo dirti se hai fatto meglio o peggio degli altri che hanno sostenuto il test, ** e ** possono dirti quanto hai fatto meglio o peggio, ** e * * possono dirti se hai fatto meglio o peggio dell'ultima volta, ma ** non ** ti dicono nulla su quante domande hai risposto correttamente. Lo capisco correttamente?
@cagirici, certo, non sono d'accordo sul fatto che i punteggi debbano essere misurazioni di intervalli (cioè "Celsius"), ma penso che aggiungere un offset ai punteggi (e sperando che le persone lo notino) sia un modo strano e sottile per indicarlo . Non sarebbe più facile scrivere "MISURAZIONE INTERVALLO" o qualcosa da qualche parte nella guida per interpretare i punteggi?
@Todd Non proprio. L'idea chiave è che la scala dell'intervallo non ha un punto di riferimento reale ("zero assoluto") e le relazioni che implicano divisione o moltiplicazione (ad esempio "il doppio") non hanno alcun significato senza un punto di riferimento reale. Ad esempio: un punteggio di 800 è doppio rispetto a un punteggio di 400? Se sposto tutti i punteggi verso il basso di 200 (cosa che posso fare, perché non c'è un vero punto di riferimento), allora quegli stessi punteggi diventano 600 e 200 - 600 è il doppio di 200? No ad entrambi. Questa è l'idea.
Questo non risponde affatto alla domanda. La domanda non era "quali sono le proprietà di una scala a intervalli", ma perché qualcuno riceve 200 punti per aver consegnato un foglio bianco (zero sforzo)?
@Falco Quando dici "ottieni 200 punti" presumi che il riferimento sia 0 (cioè che ottieni 200 punti in più di 0.) Questo non è valido su una scala di intervalli, dove non c'è un riferimento assoluto. Potresti anche dire che il punteggio minimo di 200 significa che ottieni 400 punti per lo sforzo zero (400 in più di -200) o 1 punto per lo sforzo zero (1 in più di 199). Tutte queste affermazioni sono prive di significato su una scala di intervallo.
@ff524 esattamente questo rende il 200 completamente arbitrario! La pagina vuota potrebbe anche contenere 5 milioni di punti. Ma la maggior parte delle persone probabilmente assegnerebbe intuitivamente 0 punti per zero sforzo, solo perché sembra naturale. Allora perché il 200 arbitrario? Anche 100 sembra più naturale di 200.
@Falco Il motivo per cui spesso iniziamo le scale degli intervalli con un numero diverso da zero è per segnalare che non esiste un vero riferimento e che le persone * non dovrebbero * applicare operazioni che "sembrano naturali" a questa scala. La maggior parte delle persone associa intuitivamente uno zero a un riferimento assoluto, come sai, cosa che sarebbe una cosa sbagliata da fare in questo caso. (La scelta specifica di un numero diverso da zero non è significativa, ma il fatto che sia diverso da zero è una convenzione che funge da segnale deliberato.)
Hai scritto "non proprio". Quale delle mie affermazioni è / non è corretta?
@ToddWilcox "non ti dicono nulla su quante domande hai fatto bene". - È possibile che il punteggio di un esame su * qualsiasi * tipo di scala, inclusa la scala dei rapporti, non ti dica quante domande hai risposto. (ad esempio, se le domande non sono ponderate in modo uniforme.) Ma per una spiegazione dettagliata dei diversi tipi di scale di misurazione, prova [stats.se] - è probabilmente fuori dallo scopo di questa risposta.
TMP4
2016-01-08 07:31:30 UTC
view on stackexchange narkive permalink

Potrei essere in grado di rispondere a questa domanda da un background in psicometria. Dove lavoro produciamo molti test che sono tutti standardizzati e poi equiparati per essere messi sulla stessa scala. Queste scale, tuttavia, da un test all'altro, non sono correlate, a meno che, naturalmente, i due diversi test non abbiano completato uno studio di equiparazione per determinare il fattore di spostamento per trasferire una scala da, ad esempio, Test 1 alla scala del Test 2.

Per costruire una scala, analizziamo prima i dati del test, quindi i dati di risposta degli studenti e i dati dell'elemento (domanda). Facciamo l'analisi utilizzando il modello Rasch, che prende in considerazione solo due variabili, le abilità degli studenti e le difficoltà degli item. Questo ci permette di costruire un set di dati che contiene i livelli logit delle abilità degli studenti e delle difficoltà degli oggetti.

Definizione di Logit:

Un logit è un'unità di misurazione per riportare le differenze relative tra le stime delle capacità candidate e le difficoltà degli oggetti. I log sono un livello di misurazione dell'intervallo uguale, il che significa che la distanza tra ogni punto della scala è uguale (1-2 = 99-100).

Una volta create le tabelle logit possono essere usati per creare una scala applicando una semplice trasformazione lineare, come:

punteggio scala = 10 * difficoltà logit + 250

In alcuni del lavoro che svolgo abbiamo punteggi di scala che in realtà sono inferiori a 0, tuttavia la maggior parte del lavoro che svolgo, i punteggi di scala sono costruiti in modo tale che il minimo sia intorno a 200 circa. La costruzione della scala è per la maggior parte del tutto arbitraria.

Se desideri vedere come vengono calcolati i logit di studenti e oggetti, leggi:

https://en.wikipedia.org/wiki/Rasch_model#The_mathematical_form_of_the_Rasch_model_for_dichotomous_data

Anche come nota extra: ci sono altri modelli per fare analisi di test, come il 2PL (introduce un parametro aggiuntivo al modello Rasch (1PL), la discriminazione degli elementi), il 3PL (introduce un parametro aggiuntivo al 2PL, che è un fattore di ipotesi, questo crea una probabilità minima di ottenere l'articolo errato che dipende dal valore della tua ipotesi), c'è anche un 4PL che aggiunge un parametro aggiuntivo (lo slip paremeter, che crea una probabilità di soffitto, che non è 1, per ottenere un articolo corretto).

Spero che questo aiuti e fornisca alcune informazioni extra che potrebbero essere utili.

Questo mi sembra il più utile e plausibile. Inoltre, l'ho trovato sul SAT: https: //sat.collegeboard.org/scores/how-sat-is-scored "Facciamo un'analisi statistica per assicurarci che il test è una rappresentazione accurata delle tue abilità ...... l'equazione regola le lievi differenze di difficoltà tra le edizioni del test e garantisce che il punteggio di uno studente ... su un'edizione di un test rifletta la stessa abilità ... su un'altra edizione del test. L'equazione garantisce inoltre che il punteggio di uno studente non dipenda da quanto bene hanno fatto gli altri ... "
Federico Poloni
2016-01-07 02:38:48 UTC
view on stackexchange narkive permalink

Oltre ai motivi già citati: perché vogliamo una scala più naturale per le risposte : a volte i punteggi per una singola risposta sono su una scala 1-5 o 1-10, perché è più umano di 0-4 o 0-9 (a meno che l'umano non sia un programmatore). Sommando i punteggi individuali si ottiene un valore minimo diverso da zero.

Potete fornire un esempio di una domanda in cui ha senso dire "è impossibile sbagliare completamente" (che è ciò che sembra implicare una scala da 1 a 5)?
@MikeOunsworth Sembra una domanda trabocchetto. :) A mio avviso, una scala 1-5 non implica che sia impossibile ottenere una domanda completamente sbagliata. È solo un intervallo arbitrario.
Inteso. Sembra completamente bizzarro ottenere un punteggio diverso da zero per aver consegnato una pagina bianca, nulla di ciò sembra naturale.
@MikeOunsworth Controlla ad esempio https://en.wikipedia.org/wiki/Grading_systems_by_country. Le percentuali sono il sistema più utilizzato, sono d'accordo, ma ci sono ancora molte scale basate su 1 nell'elenco.
Quelle scale riguardano i voti cumulativi. La tua risposta a questa domanda riguarda la valutazione delle * risposte * individuali su una scala diversa da zero.
@MikeOunsworth Hai ragione. Non ho dati simili per le risposte individuali, sfortunatamente.
Per esami come SAT, GRE, la somma dei punteggi delle risposte ("punteggio grezzo") inizia da zero. Quindi, almeno per quegli esami, questo non è un motivo probabile.
Esistono molti, molti questionari su questioni soggettive che impiegano [Likert scale] (https://en.wikipedia.org/wiki/Likert_scale), che tipicamente vanno da 1 a 5 o 7 o 10. I punteggi di più elementi in scala Likert sono tipicamente sommati per dare un punteggio totale, che necessariamente è almeno il numero di elementi. Sì, questo non è il SAT o il GRE.
@FedericoPoloni non puoi davvero confrontare i sistemi di valutazione con la somma dei punti. I sistemi di valutazione sono solitamente un'etichettatura fissa per determinate percentuali (quindi più del 90% di ragione ti darà un A o un "1" o un "10") ma nella maggior parte dei paesi di solito non aggiungi questi voti (sarebbe essere come sommare As e Bs negli Stati Uniti) di solito calcoli un punteggio medio sulla stessa scala. - Quindi, quando distribuisci punteggi assoluti AKA quanti punti hai ottenuto, quasi tutti i test normali ti daranno zero punti per non fare nulla.
user283885
2016-01-08 01:31:37 UTC
view on stackexchange narkive permalink

Il mio insegnante di matematica del liceo diceva che solo presentarsi e scrivere il proprio nome sulla carta vale qualcosa .. rispetto al minimo indispensabile .. così si ottiene qualcosa per lo sforzo di esserci. Da un dato Dal punto di vista della gestione, è sicuramente più facile usare lo zero per casi speciali come assente o espulso, ecc. Dal punto di vista statistico, se tali punteggi sono combinati in un GPA finale, uno zero danneggerebbe la tua media su un lato pessimistico e gli educatori cercano di essere ottimisti riguardo ai loro alunni.

Sospetto che questo sia qualcosa che gli insegnanti dicono quando non hanno abbastanza domande per far arrivare i punti dell'esame a 100.
Non necessariamente. Dal mio background educativo il voto parte da 1 a 10, dove 10 è il più alto, tuttavia la regola generale era di votare da 4 in su, perché questo smussava la scala dei bambini che imparavano e provano ma fallivano con un margine. Cerchiamo di incoraggiare quei ragazzi a passare. Abbiamo anche "punti bonus". La convenzione prevedeva il voto da 4 muggiti come punizione per cattivo comportamento. Ricorda che ci sono bambini che cercano di imparare ma hanno difficoltà, e ci sono marmocchi che hanno un disperato bisogno di correzione.
Il ragionamento per camminare sulla linea 4 era che se il bambino aveva un punteggio di 2 soggetti con un punteggio inferiore a 5, sarebbe stato trattenuto un anno. O se il bambino è un fastidio, quindi trasferito in una classe speciale. Quindi usiamo anche voti come 4.5 con l'opzione di un 5 roundup se il bambino accetta di prendere i compiti supplementari, ad esempio. per schiacciarlo sotto un segno di causa persa. Tuttavia c'è solo così tanto che puoi fare come insegnante e in nessun modo posso aggiustare i voti o parlare male dei genitori ..
Tutto sommato, penso che il punteggio che ti dà qualcosa in cambio di nulla sia utilizzato anche negli esami critici che influenzano il risultato del bambino e sono usati come correzione per diminuire le probabilità di fallimento. Questi tipi di esami di solito mettono molto stress sull'individuo e alcuni bambini potrebbero semplicemente bloccarsi e congelarsi sotto pressione.
Matt
2016-01-08 13:07:48 UTC
view on stackexchange narkive permalink

Può dipendere dal test.


Il test Wechsler SD15 IQ ha lo scopo di produrre punteggi tali che il punteggio medio sia 100 con una deviazione standard di 15, quindi circa il 5% della popolazione ha un punteggio QI inferiore a 75 punti. Supponendo che i punteggi siano normalmente distribuiti, i soggetti che ricevono un punteggio pari a zero sarebbero così incredibilmente rari (un miliardesimo di percento dei partecipanti al test) che sarebbe impossibile garantire che i punteggi rimangano validi fino a quando non sono arrivati ​​alla coda. Sarebbe anche molto difficile garantire che questi soggetti molto indeboliti si rendano conto che / come vengono esaminati. Individuare il valore preciso potrebbe non avere molto valore clinico, quindi punteggi estremamente bassi possono essere riportati come <20 (o qualsiasi altra cosa).
Il SAT utilizza un sistema di punteggio che penalizza le ipotesi casuali:
  • Le risposte corrette aumentano il punteggio di un punto
  • Le risposte vuote non guadagnano né perdono punti
  • Le risposte errate riducono il punteggio di una frazione di punto.

Scegliendo una frazione appropriata per la penalità, puoi assicurarti che la supposizione abbia un valore atteso pari a zero. Tuttavia, a meno che non venga aggiunto un offset, i soggetti possono potenzialmente ricevere punteggi inferiori allo zero se hanno prestazioni peggiori del caso. Questi risultati molto bassi potrebbero non essere particolarmente informativi, quindi forse ETS riporta qualcosa come max (punteggio guadagnato, possibilità).

Il College Board non riporta il massimo (punteggio ottenuto, 0) per il SAT. Se ottieni un punteggio grezzo negativo, viene ridimensionato a un voto corretto (inferiore) diverso rispetto a quando ottieni un punteggio grezzo zero (ad esempio consegnando un foglio bianco).
[Questo grafico] (http://blog.prepscholar.com/how-is-the-sat-scored-scoring-charts) dice che tutti i punteggi grezzi inferiori a -1 (matematica) o -2 (lettura) sono riportati come a 200.
In quel particolare esame, sì (ogni amministrazione dell'esame può essere ridimensionata in modo leggermente diverso). E un punteggio grezzo 0 viene scalato a 220, che è più alto.
Ezra
2016-01-09 21:14:40 UTC
view on stackexchange narkive permalink

Nei Paesi Bassi, la maggior parte dei bambini alla fine della scuola primaria effettua il test Cito, che è molto simile al test SAT, ma con un punteggio compreso tra 501 e 550. Secondo questo (olandese ) è fatto per impedire ai genitori di associare il punteggio ai voti scolastici, da 1 a 10, e ai test del QI, con una media di 100.

user47063
2016-01-07 02:34:50 UTC
view on stackexchange narkive permalink

Credo che questo numero inferiore per i punteggi dei test e l'intervallo siano scelti arbitrariamente a caso, forse per far sentire meglio le persone quando ottengono un punteggio basso come 300-500 o su Cisco e 200 per dire 400 o giù di lì SAT quindi è fatto in questo modo per ragioni psicologiche ed è arbitrario ... Spero che questo risponda alla tua domanda, potrebbero esserci altre possibili possibilità, ma penso che questa sia la più alta probabilità.

Hai qualche prova per sostenere i tuoi suggerimenti qui, o sono solo supposizioni?
@DavidRicherby Non credo che lo sia neanche. Sembra più una deduzione plausibile, se non dell'intento della scala, di quello che è certamente un effetto e, in questo, desiderato. (Sto un po 'facendo eco alla risposta, che risponde abbastanza chiaramente alla tua domanda in primo luogo).
Il punto è che le supposizioni di qualche sconosciuto anonimo su Internet non hanno molto peso, dal momento che non abbiamo alcun modo di valutare se è probabile che la tua ipotesi sia corretta. Il motivo per cui ti ho chiesto se avevi delle prove è che la risposta avrebbe potuto essere "sì". Era possibile che tu avessi formulato la tua risposta con molta cautela perché la stavi basando su qualcosa che ricordavi vagamente di aver letto dieci anni fa, per esempio.
@DavidRicherby Da questa risposta, ho imparato che l'impostazione di un punteggio minimo di 200 contro 0 ha un importante impatto psicologico sui partecipanti al test. La risposta non ha presentato prove formali ma ha sottolineato questo effetto. Adesso ci credo. Sono contento che questa risposta sia stata pubblicata.
@djechlin Credi dopo aver letto questa risposta a qualcosa che non credevi prima di averla letta? Se è così, ciò non è intrinsecamente prezioso e in effetti sarebbe dannoso se ciò che credi ora non fosse dimostrabilmente il caso. Le deduzioni plausibili sono preziose come punti di partenza per la ricerca, non come risposte finali. La mia comprensione è che quest'ultimo è preferito nello scambio di stack. Per me una deduzione perfettamente plausibile è che un punteggio minimo di 200 non ha alcun beneficio psicologico se tutti sanno che è il minimo. I partecipanti al test stanno probabilmente sottraendo mentalmente 200 dal punteggio ottenuto.
@ToddWilcox Sarebbe dannoso se leggessi una risposta e in seguito si scopre che non è in modo dimostrabile il caso. La tua deduzione non è plausibile per me poiché contraddice molto la psicologia, vale a dire il fatto che di solito non eseguiamo la matematica ogni volta che guardiamo qualcosa.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...