Domanda:
Come scegliere una buona curva di valutazione per gli esami sì / no?
Erel Segal-Halevi
2018-06-15 16:30:50 UTC
view on stackexchange narkive permalink

Insegno in un determinato corso in cui penso che il modo migliore per testare la conoscenza sia usare domande sì / no. Tuttavia, con un semplice esame sì / no, uno studente può semplicemente rispondere in modo casuale a tutte le domande e ottenere, in attesa, un punteggio del 50%, il che non è molto equo. Ho pensato a diverse soluzioni, ma ognuna di esse ha uno svantaggio:

  1. Assegna un punteggio negativo a una risposta sbagliata, in modo tale che il valore atteso di uno studente che risponde in modo casuale sia 0. Tuttavia, questa regola ha reso alcuni studenti molto ansiosi e mi sono reso conto che questa ansia potrebbe danneggiare ingiustamente le loro prestazioni.

  2. Chiedi agli studenti di spiegare ogni risposta. Assegna punti solo per correggere le risposte con spiegazioni corrette. Il problema è che ci vuole molto più tempo per scrivere e valutare, annullando uno dei principali vantaggi di un esame a scelta multipla.

  3. Assegna un voto di 0 a qualsiasi studente con meno del 50% di risposte corrette e dare il doppio dei punti per ogni risposta superiore al 50% (ad esempio, uno studente con il 90% di risposte corrette riceverà 2 · (90-50) = 80% di punteggio). Tuttavia, temo che questo potrebbe non essere accettato dall'università, il che incoraggia il punteggio additivo. Ad esempio, gli studenti con il 60% di risposte corrette si lamenteranno che non è giusto dare loro solo il 20% di voti.

Qual è un buon modo per scrivere un esame basato su sì / nessuna domanda?

La conversazione sui pro e contro della scelta multipla è stata [spostata in chat] (https://chat.stackexchange.com/rooms/78983/discussion-on-question-by-erel-segal-halevi-how-to-scegli-una-buona-curva-di-valutazione-f).Utilizzare i commenti solo per suggerire miglioramenti alla domanda e simili.
Nessuno schema di voto migliorerà la situazione in cui le domande sì / no soffrono di un raggio di segnale non molto utile (se si tiene conto dell'errore occasionale) sopra lo sfondo (50%).
Hai considerato di estendere il numero di possibili risposte a una domanda da (1: sì; 2: no) a (1: sì, perché XYZ; 2: sì, perché ABC; 3: no, perché PQR; 4: potrebbe esseretrue a seconda dell'IJL), in modo che il punteggio previsto di un indovino casuale sarà 100% * 1 / n?Distinguere il giusto ragionamento (oltre la risposta) mostra una conoscenza più profonda nel tuo corso?
Matematicamente, 0 per sbagliato, 1 per giusto (e 0,5 per vuoto) è del tutto equivalente a -1 per sbagliato, 1 per giusto (e 0 per vuoto).Quindi i punti esatti che dai per ciascuna opzione non hanno molta importanza.Con questo in mente, dare agli studenti la preoccupazione aggiuntiva di sentirsi _penalizzati_ per aver dato una risposta sbagliata non è una buona idea secondo me.Quindi una risposta sbagliata dovrebbe dare 0, non negativo.
Che dire di "Confident Yes (3 / -2)"."Non sicuro Sì (1/0)", Non sicuro No (1/0) "," Sicuro No (3 / -2) "
Gli studenti di @FourOhFour con ansia da esame mi hanno detto che, in tal caso, selezioneranno sempre solo le opzioni "non sicure", poiché hanno paura di perdere punti.Quindi, il loro punteggio massimo possibile sarà piuttosto basso.
Tredici risposte:
Peter K.
2018-06-15 16:48:35 UTC
view on stackexchange narkive permalink

Per questa situazione, fornisco tre opzioni di risposta:

  • Sì.
  • No.
  • Non lo so.

La griglia di valutazione è:

  • Risposta corretta: +1
  • Risposta errata: 0
  • Non sapere: +0,5

In questo modo, se lo studente davvero non lo sa, viene garantita l'aspettativa di un'ipotesi casuale e ricevi feedback sui buchi conoscenza degli studenti, che può essere utilizzata per intraprendere azioni correttive. Se il tuo obiettivo è un apprendimento degli studenti più efficace, questa può essere una buona strategia.

Ho cercato di evitare voti negativi per un paio di motivi:

Immagina due candidati che ottengono lo stesso punteggio finale in un esame valutato negativamente. Un candidato risponde solo una parte del foglio, perdendo alcuni punti per le risposte sbagliate. L'altro risponde a quasi tutto il foglio, ottenendo molto più corretto ma anche sbagliare parecchi e facendo sottrarre voti. Quale ne sa di più?

Il secondo problema è che l'uso del voto negativo estende la gamma teorica di voti per l'esame. Ad esempio, se viene assegnato un punteggio per ogni risposta corretta e uno dedotto per ogni risposta sbagliata, l'intervallo teorico dell'esame è compreso tra - 100 e +100%.

-

Dai commenti spostati in chat: qualcuno ha chiesto un valore leggermente diverso per l'opzione "Non lo so". Questa è la mia risposta:

Tendo a non usare domande Sì / No, ma a scelta multipla per alcune valutazioni. In questi casi, faccio l'opzione "Non so" che vale 1 / (N-1) dove N è il numero di altre opzioni. In questo modo, se ci sono altre 3 opzioni, un'ipotesi casuale si aspetterebbe di ottenere 1/3 ma l'opzione Non so guadagna 1/2 --- il valore atteso se lo studente può eliminare una delle tre opzioni. .

I commenti non sono per discussioni estese;questa conversazione è stata [spostata in chat] (https://chat.stackexchange.com/rooms/78992/discussion-on-answer-by-peter-k-how-to-choose-a-good-grading-curve-per-si-no-e).
Gli studenti che non rispondono affatto (selezionare nessuna delle due opzioni) vengono trattati come "Non lo so"?
@Bergi In questo caso, sono parziale nel dire che non controllare alcuna opzione è uno 0. Se non conosci la risposta, allora non conosci la risposta e dovresti essere in grado di ammetterlo.Incentivare gli studenti a dare attivamente una risposta (e quindi almeno in una certa misura considerare effettivamente la domanda) sarebbe una buona cosa, penso.
Un vero accademico dovrebbe ammettere quando non lo sa.C'è molto di più che non so di quanto so.
sds
2018-06-16 00:38:13 UTC
view on stackexchange narkive permalink

In sostanza, stai valutando un predittore binario. Il punteggio usuale è noto come accuratezza (cioè probabilità di dare la risposta corretta). Per un predittore casuale (lancio di una moneta) otterrai il 50% (se le risposte corrette sono distribuite equamente tra e no).

Nota che la condizione che le risposte corrette siano distribuite% 50:% 50 tra yes e no è di per sé un enorme suggerimento per gli studenti se lo sanno in anticipo.

Suggerisco di considerare due metriche alternative:

coefficiente di correlazione di Matthews

uguale al coefficiente Phi, Coefficiente di correlazione di Pearson.

  1. Intervallo: da -1 a 1
  2. Tutto corretto: 1
  3. Tutto sbagliato: -1
  4. Casuale: 0

Competenza

Misura la quota di informazioni (percentuale di bit) contenuti nelle risposte vere che vengono catturate dalle risposte inviate ( informazione qui significa entropia della distribuzione).

  1. Intervallo: da 0 a 1
  2. Tutto corretto: 1
  3. Tutto sbagliato: 1 (sic!)
  4. Casuale: 0

Nota che i punteggi di "all corr ect "e" tutto il contrario "sono la stessa cosa. Questa è una caratteristica, non un bug: la persona che ha sbagliato tutte le risposte ha probabilmente confuso le etichette ("sì" e "no") ma conosce l'argomento.

Assegna anche un punteggio inferiore a " risultati quasi casuali rispetto a MCC.IOW, distingue meglio i buoni risultati.

Avvertenze

Risposte mancanti

Se manca una risposta, dovrebbe essere sostituita con una risposta casuale / no .

Questo è corretto statisticamente, ma pedagogicamente sbagliato perché la risposta onesta "Non so" mostra conoscenza del secondo ordine che dovrebbe essere incoraggiata.

Corretta distribuzione delle risposte

Le metriche si comportano allo stesso modo indipendentemente dalla distribuzione delle risposte corrette, tranne quando tutte le risposte corrette sono le stesse (nel qual caso nessuna delle due metriche è definita). Questo viene risolto dallo shuffle di Bernoulli (passaggio 2 nel protocol).

Queste sono statistiche metriche

Queste metriche rendono poco senso quando ci sono pochissime domande. In particolare, un errore in una domanda può avere un costo molto diverso a seconda della domanda (questo può essere risolto ripetendo lo shuffle di Bernoulli molte volte e prendendo il punteggio medio - vedere il protocollo passaggio 2 di seguito).

Additivity

Queste metriche sono non additivo : non puoi segnare due metà del test separatamente e in qualche modo combinarle per ottenere il punteggio totale del test (per non parlare di aggiungere i punteggi per le due metà).

Ciò può rendere queste metriche una vendita molto difficile sia per gli studenti che per gli amministratori.

Protocollo

Considerato quanto sopra, il protocollo corretto per queste metriche è:

  1. Prepara centinaia di domande ( va accettabile che tutte le domande abbiano la stessa risposta corretta r).
  2. Utilizzando un Bernoulli rng con p = 1/2 , per ogni domanda, mappa yes / no a A / B (cioè, per circa il 50% delle domande, yes sarà A e per il 50% sarà B e per metà delle domande la risposta corretta è A ) - questo viene fatto completamente dietro lo schermo. Né gli studenti né il professore devono essere consapevoli di quale sia la mappa effettiva.
  3. Assegna un punteggio ai predittori binari risultanti (ora sia il tasso di base reale che i tassi di base previsti sono gli stessi - 50%).

La dipendenza dall'Rng di Bernoulli introduce del rumore (ordine 1 / N dove N è il numero di domande di prova). Cioè, la deviazione standard di mcc e competenza su un test con 100 domande sarà inferiore all'1%. Poiché i passaggi 2 & 3 sono automatici, possono essere ripetuti molte volte e il punteggio medio o mediano utilizzato.

In quanto nerd delle statistiche, * amo * questa risposta, ma sospetto che alcuni studenti potrebbero non capirla e concludere che stai valutando in modo ingiusto.
Sembra buono.Mi chiedo se riesco a convincere l'università ad accettare una scala del genere.
Come verrebbe gestita una risposta vuota con questi sistemi?
@JohnK: Tratterei lo spazio vuoto come l'invio di una risposta _random_.
Il coefficiente di Matthews ha un comportamento (presumibilmente) indesiderato nel non trattare le domande allo stesso modo.Ad esempio, se il test ha cinque affermazioni, tre delle quali sono effettivamente vere, allora uno studente che sbaglia solo una otterrà 0,61 se l'errore stava pensando che un'affermazione falsa fosse vera, ma segnerà 0,67 se l'errore stava pensando una veritàl'affermazione era falsa.
@EspeciallyLime: sì, vedi modifiche.
Probabilmente, qualcuno che sbaglia tutto ha mostrato un po 'meno di informazioni.
erfink
2018-06-16 02:44:03 UTC
view on stackexchange narkive permalink

Certo, uno studente che registra ipotesi casuali in un esame sì / no o vero / falso avrà un punteggio previsto del 50%. Così? Nella maggior parte degli schemi di valutazione, questa è una F solida.

Una domanda più pertinente da porre è "Qual è la probabilità che uno studente che indovina casualmente riceva un voto positivo / a B o superiore / un A ? "

Per questo problema, la durata dell'esame è tuo amico! Supponiamo che ogni domanda sia una prova indipendente e che le risposte corrette e sbagliate siano ugualmente probabili (p = 0,5) . Questo ci colloca nel contesto della distribuzione binomiale. Considero un voto positivo come un punteggio del 70% o superiore e un A come un 90% o più in alto, con una risposta corretta che ottiene 1 punto e una risposta errata che ottiene 0 punti su ogni domanda (che soddisfa le preferenze del tuo istituto per la valutazione additiva).

  • Per un breve esame di 10 domande, un indovino casuale ha una probabilità del 17,2% di superarlo e una probabilità dell'1,07% di ottenere un A .
  • Per un esame di 20 domande, un indovino casuale ha una probabilità del 5,77% di superarlo e una probabilità dello 0,0201% di ottenere un A .
  • Per un esame di 50 domande, un indovino casuale ha solo una probabilità dello 0,330% di superarlo e una probabilità dello 0,000000210% di ottenere un A .
  • Per un esame di 100 domande, un indovino casuale ha solo una probabilità dello 0,00393% di superarlo e una probabilità dell'1,52 * 10 ^ {- 15}% di ottenere un A .

Sebbene ci siano molti avvertimenti in questa analisi approssimativa, ciò dovrebbe evidenziare che l'ipotesi casuale non è una strategia praticabile per un esame di lunghezza ragionevole. Tieni presente che la probabilità di superamento è anche la stessa probabilità che ottengano meno del 30% all'esame! Sulla falsariga di questa analisi statistica, ci sono molti suggerimenti simili: uno studente che può fare un'ipotesi plausibile (diciamo p = 0,7) a ciascuna domanda, quasi sempre supererà un indovino casuale; uno studente che conosce la risposta alle prime n-1 domande e poi indovina casualmente l'ultima domanda farà ancora meglio. Un altro aspetto da considerare sarebbe che un esame a scelta multipla ha maggiori probabilità di punire un indovino casuale rispetto a un esame sì / no.

Personalmente, non trovo che un esame a scelta multipla o sì / no sia così eccezionale per valutare l'apprendimento degli studenti, poiché generalmente tende al rigurgito di fatti e tecnicismi della formulazione, al contrario di dimostrare analisi critica e sintesi. Se insisti con la valutazione sì / no o la scelta multipla, ecco alcune opinioni personali:

  • Utilizza un processo casuale (o pseudo-casuale) per determinare le risposte. Gli esami in cui ogni risposta corretta è una scelta (B) sono carini, ma non sono un buon strumento di valutazione. Gli studenti raccoglieranno anche schemi nell'ordine delle risposte corrette, portando al meta-gioco.
  • Utilizza una metrica semplice (0 punti errati / 1 punti corretti o simili) e assicurati di spiegare se saranno penalizzati o meno per aver indovinato --- gli esami sono abbastanza stressanti senza dover considerare la teoria dei giochi durante la registrazione di ciascuno risposta.
  • Rendi l'esame sufficientemente lungo. Ciò contribuirà a uniformare il rumore di supposizioni casuali e renderà ogni singola domanda meno stressante. Considera il caso estremo di come sarebbe sostenere un esame con una singola domanda T / F.
  • D'altro canto, assicurati che ci sia tempo sufficiente per dare una risposta ragionata a ciascuna domanda.

Modifica

Non ero a conoscenza delle diverse correlazioni tra il punteggio percentuale grezzo e i voti tipici, come sottolineato nei commenti. I miei ringraziamenti a @curiousdanii e @cfr per avermelo fatto notare e le mie sincere scuse per l'etnocentrismo! Apprezzo molto le informazioni di academia.stackexchange che possono aiutarci a guardare oltre le nostre bolle istituzionali.

Avendo valutato solo all'interno del sistema americano, non ho una buona sensazione qualitativa per i vari voti in altri sistemi. Tuttavia, credo che valga ancora la pena considerare un tema centrale della mia risposta: l'ipotesi casuale è quasi sempre una strategia inferiore allo studio e alla risposta corretta alle domande. In quanto tale, vorrei riflettere seriamente sul fatto che sia davvero un problema che è necessario controllare quando si progetta una rubrica.

Se premuto, penso che il modo più naturale per tenere conto di un valore atteso inaccettabilmente alto (relativo a un dato schema di voto) sarebbe passare a un formato a scelta multipla. Come con una buona domanda T / F, sforzati di rendere tutte le risposte esteriormente plausibili. Avere una risposta "scherzosa" che può essere immediatamente esclusa serve a poco.

[In Australia] (https://en.wikipedia.org/wiki/Academic_grading_in_Australia) Il 50% è un passaggio.Un singolo docente non sarebbe autorizzato a cambiare questo.C'è un modo per adattare la tua strategia a una situazione del genere?
Nel Regno Unito, il 40% è un passaggio;Il 50% è un 2.2.
Dove passa il 70%?Veramente curioso
@AzorAhai un 70% sarebbe nella gamma di un C / C- sotto la maggior parte delle scale di valutazione degli Stati Uniti, che sarebbe un voto positivo.Le classi richieste per il tuo maggiore nelle università statunitensi generalmente hanno una soglia minima C o superiore per ottenere il credito per la classe.https://en.wikipedia.org/wiki/Academic_grading_in_the_United_States#Numerical_and_letter_grades
@kuhl Sì, lo so, sono andato a scuola negli Stati Uniti.Avrei dovuto essere più chiaro.Dov'è il 70% del voto minimo?Nel modo in cui erfink ha formulato la loro risposta, stanno considerando un 69% un voto negativo.
Penso che questa risposta manchi un po 'il punto.Se uno studente conosce solo la metà delle risposte e ipotizza l'altra metà, otterrebbe un 75% (invece del 50% come farebbe per un test di stile da compilare). Il problema non è"Indovinare tutto è una strategia valida" - è "Indovinare tutto ciò che non sai" * è * e ti darà una percentuale molto più alta di quella che meriti.
@Kevin Concordo sul fatto che la mia risposta è un po 'un approccio da avvocato del diavolo, ma sinceramente (non cercando di trollare nessuno qui!).Immagino che la mia domanda sarebbe se il tuo ipotetico studente (conosce metà delle risposte, suppone sul resto) meriti un voto più alto o più basso di uno studente che conosce 3/4 delle risposte ed è assolutamente convinto della veridicità delle sue risposte errate suil restante 1/4.Dati i limiti della valutazione additiva e il solo ritorno al voto di un foglio delle risposte T / F, c'è anche un modo per distinguere tra due di questi studenti?
@erfink - Solo su un foglio T / F?Sì, non c'è davvero alcun modo per distinguere quale aveva risposte sbagliate di cui erano certi e di quali era solo un'ipotesi (e d'altro canto, nessun modo per determinare una risposta giusta che è solo una supposizione vs una conoscenza-a-fact.) La mia opinione personale è che mi piace "Pieni punti per una risposta corretta, sottrai una parte di punti per una risposta sbagliata."Perché penso che "Sapere quello che sai e non sai" sia un'abilità sottovalutata.Sono un programmatore e * odio * i programmatori che non sanno cose * ma non sono abbastanza consapevoli da rendersene conto *.
Kevin
2018-06-16 01:27:03 UTC
view on stackexchange narkive permalink

Una possibilità che risolve tutti i problemi elencati: la valutazione su una curva.

Certo, la valutazione della curva è qualcosa che fa arrabbiare molte persone (a favore o contro) ma questa è una situazione per la quale è praticamente costruito: hai una gamma di risultati che non si allineano con voti equi in lettere ma che sono ordinati / classificati in base al grado di conoscenza.

Prima, il 75% di uno studente sarebbe una `` C '', anche se in realtà conoscevano solo le risposte a metà delle domande (e immaginavano l'altra metà). Su una curva, tuttavia, il 75% di quello studente probabilmente gli darebbe un voto basso o fallimentare poiché si spera che la maggior parte delle altre persone nella classe avrebbe una percentuale di successo più alta.

Modifica: per chiarimenti, quando dico "Valutazione su una curva", intendo che l'X% della classe otterrà un 'A ', Y% otterrà una "B", ecc. Diamine, ad essere onesti, se mi spiegassi in anticipo, "lo assegnerò su una curva perché, beh, se non lo facessi, le persone potrebbero ottenere il 50% solo per aver indovinato tutto a caso! " e se rendessi la curva semi-generosa, genereresti pochissimo rancore tra gli studenti.

Allo stesso modo, puoi ottenere lo stesso risultato ed evitare la curva controversa assegnando voti in lettere predeterminati: il 94% sarà una A, l'85% una B, ecc. Questi sono standard piuttosto elevati (insoliti nelle classi STEM), ma gli studentiavrà familiarità con tale schema ed è appropriato poiché il 50% è casuale.L'unico svantaggio è che poiché i tuoi peggiori studenti dovrebbero ottenere il 60-70% e i migliori dovrebbero ottenere il 90-100%, devi assicurarti che queste differenze relativamente piccole si propagino al voto finale (piuttosto che essere soffocate dai compiti, ecc.., dove la variazione potrebbe essere maggiore)
@cag51 Sono d'accordo con te ma vorrei sottolineare che un tale schema amplifica piccole variazioni nei voti, rendendo le persone con livelli simili di conoscenza in una materia più propensi ad avere diversi voti in lettere.Non credo che il problema sia facilmente risolvibile.
Questo non porta all'ostilità tra gli studenti?Poiché uno studente che supera l'esame, fa abbassare il punteggio degli altri ...
No, genererai sempre cattiva volontà per la valutazione su una curva poiché è intrinsecamente ingiusta e IMO, non etica.
@curiousdannii Ma se non voti su una curva, ciò che finisci per valutare è la capacità del professore di scrivere un test equo che soffoca le reali capacità degli studenti.
Eh, se fossi uno studente e mi dicessi: "Per il prossimo quiz, valuteremo su una curva. In media, i miei test hanno il 15% di A, il 50% di B e il 35% di C, ma per questo test, Lo curverò in modo che il 30% sia di A, il 60% di B e solo il 10% di C "- Sarei estatico.Gli studenti in genere odiano la curva quando è dura o quando percepiscono che stanno ottenendo un voto inferiore a quello che otterrebbero normalmente.Ecco perché suggerisco di rendere la curva semi-generosa: chiarisci in anticipo che gli studenti stanno ottenendo un voto * più alto * di quello che probabilmente otterrebbero senza di esso.
Daniel R. Collins
2018-06-15 18:07:36 UTC
view on stackexchange narkive permalink

Sono stati pubblicati numerosi articoli nel corso degli anni. Una tabella di opzioni è mostrata di seguito da Bandaranayake, et. al., Using Multiple Response True-False Multiple Choice Questions, Royal Australian College of Surgeons, 1999. Alcuni di questi considerano la costruzione di domande "multiple true / false", cioè domande che hanno una "radice" e diverse (debolmente o fortemente) affermazioni vero-false collegate:

enter image description here

Un'altra opzione è suggerita da Frank Reid, An Alternative Scoring Formula for Multiple-Choice e True False Tests, Journal of Educational Research, 2001:

enter image description here

Alcuni altri documenti che ho trovato includono quanto segue:

  • Molteplici domande vero-falso; Hill, G. C .; Woods, G. T. Education in Chemistry, 11, 3, 86-87, 74 maggio
  • Punteggio di test multipli vero / falso: alcune considerazioni; Gross, Leon J., Evaluation and the Health Professions, v5 n4 p459-68 Dec 1982
  • Burton, Test a scelta multipla e vero / falso: misure di affidabilità e alcune implicazioni del punteggio negativo, Assessment & Evaluation in Higher Istruzione, 2004.
  • Burton R. Disinformazione, conoscenza parziale e supposizioni nei test vero / falso. Medical Education [serial online], 2002.
  • Tsai F, Suen H. Un breve rapporto su un confronto di sei metodi di punteggio per più elementi vero-falso. Educational & Psychological Measurement, 1993.
  • Muijtjens, Mameren H, Hoogenboom, Evers, Vleuten C, Muijtjens. L'effetto di un'opzione "non so" sui punteggi dei test: numero corretto e punteggio della formula a confronto. Educazione medica, 1999.
Interessante.Sono anche interessato a sapere come vengono valutate queste domande.
Molto bello!Grazie per tutti i bei riferimenti.
Davy M
2018-06-15 23:24:53 UTC
view on stackexchange narkive permalink

Un altro modo per ridurre il punteggio ipotizzabile e allo stesso tempo ricompensare gli studenti che si sono preparati per gli esami è raggruppare le domande in una, dove rispondere a tutte le domande su un argomento dimostra padronanza di quell'argomento e guadagna pieno credito, mentre solo conoscere alcune delle risposte vale meno credito.

Questo è più facile da spiegare con un esempio. Diciamo che sto preparando un esame per un corso di storia degli Stati Uniti per l'unità sugli eventi che hanno portato alla guerra rivoluzionaria. Alcuni degli eventi che potrei voler essere sicuro che i miei studenti abbiano studiato e compreso potrebbero essere The Establishment of Jamestown, Virginia, come il primo insediamento inglese permanente, Bacon's Rebellion, The Boston Massacre, The Boston Tea Party e alcuni altri.

Quando preparo la domanda su Bacon's Rebellion, potrei voler controllare che gli studenti sappiano quando e dove si trovava. Quindi ho potuto impostare la domanda in questo modo:

Ribellione di Bacon (4 punti. Possibili punteggi: 4, 1, 0):

  • A) Ribellione di Bacon era nel 1676 . TF
  • B) Nathaniel Bacon ha guidato la ribellione a Jackson, Mississippi. TF

(Risposte: A) Vero, B) Falso, era a Jamestown, Virginia)

Se lo studente risponde correttamente a entrambe le domande, ottiene tutti e 4 i punti . Se ne ottengono solo uno, ottengono comunque un punto. Se sbagliano entrambe le domande, ottengono 0 punti.

Questo sistema di punteggio dovrebbe essere spiegato accuratamente agli studenti in anticipo e scritto all'inizio del test, ma per darti un'idea di come questo distribuisce i punteggi dell'esame, se l'esame è composto da domande ciascuna con due parti come questa e uno studente indovina semplicemente su ogni domanda, ha un punteggio medio previsto di 1,5 punti per domanda, o 37,5% sull'intero esame. Tuttavia, uno studente che conosce la maggior parte del materiale e conosce il 95% delle risposte dovrebbe ottenere circa il 92% all'esame.

Assegnando un punto invece di 0 per la risposta parzialmente corretta, questo aiuta a mitigare le lamentele degli studenti di "Ma sapevo che la ribellione era nel 1676, ho solo dimenticato dov'era!" perché stanno ancora ottenendo un credito parziale, ma non tanto quanto otterrebbero se mostrassero una padronanza del materiale essendo in grado di rispondere a entrambe le domande.

Non dando mai alcun punto negativo, questo aiuta con l'ansia che stavi menzionando che i tuoi studenti devono affrontare con quel potenziale cliente.

Due suggerimenti se decidi di implementare questa idea:

  1. Attenersi allo stesso formato per l'intero esame e assicurarsi di spiegare agli studenti cosa intendono fare vedere. O fai tutte le domande con due parti o fai qualcos'altro, ma non mischiarle. Gli studenti potrebbero rimanere coinvolti nel tentativo di capire come vengono valutate le domande e perderanno tempo prezioso che dovrebbe essere utilizzato per mostrare la loro conoscenza del materiale.
  2. Non cercare di raggruppare più di due domande insieme in questo modo. La matematica potrebbe sembrare carina come il punteggio previsto della persona che indovina diminuisce notevolmente con ogni domanda che aggiungi sulla ribellione di Bacon, ma dal punto di vista dello studente, se lui o lei ha studiato e conosce la maggior parte del materiale ma non ne ricorda neanche un po dettaglio che sembra essere qualcosa che chiedi, quello studente perde immediatamente la maggior parte del credito per una domanda di cui potrebbe sapere molto.
Mi piace il tuo schema di valutazione, ma penso che avresti meno litigi con gli studenti se assegnassi punti su una scala di tipo logaritmico piuttosto che su scala esponenziale.In altre parole, se ci sono 10 problemi in un set, il divario in punti assegnati tra 9 esatti e 10 esatti è minore di 5 esatti e 6 esatti.
Molto interessante.In effetti, se un gruppo ha $ n $ domande, allora uno studente con $ k $ risposte corrette riceve $ k ^ 2 / n $ punti su quel gruppo (es. Se $ n = 2 $ allora $ k = 2 $ dà un punteggiodi $ 2 $ e $ k = 1 $ dà un punteggio di $ 1/2 $).
user21820
2018-06-16 12:18:38 UTC
view on stackexchange narkive permalink

Uno schema semplice che è stato utilizzato da alcune olimpiadi matematiche è quello di rendere la risposta di ogni domanda un numero intero compreso tra 1 e 999. Se stai attento nell'impostare la domanda, di solito puoi fare la probabilità di indovinare la risposta corretta ( anche dopo l'eliminazione del buon senso) non essere superiore al 10%. Ad esempio, se la domanda chiede di trovare la lunghezza di un segmento di linea in una costruzione geometrica, ingegnerizza la costruzione in modo che non ci siano disuguaglianze evidenti che possano limitare la lunghezza a meno di 100.

I vantaggi di questo schema è che l'esame è facile da valutare e tuttavia difficile per gli studenti ottenere crediti immeritati. Sono fermamente dell'opinione che gli studenti di matematica dovrebbero essere valutati sulla base di prove, ma se stai prendendo in considerazione domande a scelta multipla almeno questo schema è un'opzione di gran lunga migliore.

Superbest
2018-06-16 07:43:22 UTC
view on stackexchange narkive permalink

uno studente può semplicemente rispondere a tutte le domande in modo casuale e ottenere, in aspettativa, un punteggio del 50%, il che non è molto equo

Non proprio, a meno che il tuo schema di valutazione dà anche un voto elevato a punteggi superiori al 50%. Se si presume che i punteggi seguano una distribuzione simile a quella normale (quasi sempre lo faranno), la media uscirà da qualche parte ben al di sopra del 50% e chi ha ottenuto il 50% finirà con un punteggio z piuttosto negativo, e quindi grado (possibilmente F, a seconda di come lo imposti).

Penso che il vero problema con le domande vero / falso sia che in realtà hai buone probabilità di vincere alla lotteria e ottenere un buon voto senza conoscere il materiale. Per questo motivo, almeno la scelta multipla o il riempimento delle domande vuote sono molto migliori. Le domande di saggio, come hai detto, sono ovviamente le migliori ma molto più laboriose da valutare.

Tieni presente che puoi sempre convertire le domande T / F a scelta multipla, utilizzando "quale delle tre affermazioni precedenti sono vere? ". In questo modo è impossibile indovinare in modo indipendente, quindi il punteggio previsto può scendere dal 50% al 12% (ma in realtà sarà del 20% o del 25% a causa del numero di scelte).

curiousdannii
2018-06-17 04:11:00 UTC
view on stackexchange narkive permalink

Dopo aver esaminato tutte le risposte precedentemente pubblicate, non riesco a vedere alcun modo in cui i problemi intrinseci di un esame sì-no possano essere superati. Semplicemente non è un buon formato per gli esami. Non puoi estrarre una quantificazione utile delle conoscenze e abilità dei tuoi studenti da essa.

Tu non puoi, ma i tuoi studenti sì. Quindi, se vuoi impostare esami sì-no, fallo con lo scopo di dare ai tuoi studenti uno scopo regolare per rivedere ciò che hanno imparato. Dai a questi esami un contributo nominale dell'1-2% al voto finale, con un massimo del 10% per tutti gli esami sì-no combinati, quindi imposta una o due valutazioni più coinvolte per completare il resto del voto finale.

Joel Reyes Noche
2018-06-15 18:19:58 UTC
view on stackexchange narkive permalink

È possibile rispondere a ciascuna domanda sì o no in tre modi: sì, no, (vuoto).

Dichiara all'inizio che ogni risposta corretta ha un punteggio +1, ogni vuoto ha un punteggio 0 e ogni risposta errata ha, diciamo, un punteggio di -0,5. Questo scoraggia le supposizioni, ma ha una penalità minore di un punteggio -1. L'intervallo di voti possibili sarebbe quindi compreso tra -50% e 100%.

Mi piace abbastanza questo schema in teoria, ma in pratica è probabile che sia di parte di genere poiché ci sono prove che le donne hanno meno probabilità di indovinare rispetto agli uomini se c'è una penalità per indovinare e meno probabilità di completare le risposte di cui non sono sicure:per esempiohttps://mpra.ub.uni-muenchen.de/39987/1/MPRA_paper_39987.pdf
Penso che uno dei documenti nella mia risposta suggerisse di aumentare la penalità sbagliata per affrontare quella questione generale.
fedja
2018-06-15 20:13:48 UTC
view on stackexchange narkive permalink

Puoi anche creare una combinazione di una scala lineare e una non lineare. Supponiamo che tu dia 5 problemi con 4 domande sì / no in ciascuno. Per determinare il punteggio del problema, diciamo, da 0 a 20 puoi usare qualsiasi funzione ragionevole (= monotona e spiegabile agli studenti) su $ {0,1} ^ 4 $ che desideri (puoi anche assegnare valori diversi a domande diverse) ma poi aggiungi solo i punteggi per i problemi. Questo elimina l'effetto soglia che è il principale svantaggio di qualsiasi "amplificazione di cutoff" di un solo punteggio finale, ma preserva l'idea generale che una corretta ipotesi casuale non valga molto.

Per quanto riguarda le comuni tecniche di amplificazione regolare, quelle che ho visto in azione sono $ x ^ 2/100 $ (quindi il fortunato ragazzo casuale con il 60% nominale ne ottiene solo 36) e $ 10 \ sqrt x $ (se tutti hanno un punteggio davvero basso, questo allunga la parte inferiore e aumenta un po 'il morale).

Michael Richardson
2018-06-16 00:34:15 UTC
view on stackexchange narkive permalink

Se c'è un motivo per cui stai considerando il 50% come un vantaggio, potresti ristrutturare la struttura di valutazione del corso in modo che non sia basata sul punteggio (percentuale), ma basandoti invece sul voto (AF), utilizzando la stessa scala del calcolo GPA (A = 4, F = 0).

Ciò significherebbe che un punteggio 0-59% su qualsiasi test o compito risulterebbe in 0 punti che contribuiscono al voto finale del corso.

Questo renderà statisticamente inutile semplicemente indovinare su un test Vero / Falso o Sì / No.

Affermerò che credo che preoccuparsi per uno studente in modo improprio "giocare" il sistema per segnare un voto non superato che potrebbe essere più alto di un altro voto non superato che avrebbe ricevuto se avesse sostenuto correttamente il test, ti sta stressando senza uno scopo utile.


Più ci penso più ho problemi con l'utilizzo di GPA all'interno di una classe. Per prima cosa, sarebbe quasi impossibile ottenere un A, poiché sarebbe un punteggio perfetto.

Forse il punteggio per i compiti potrebbe essere

  • F = 0
  • D = 2
  • C = 4
  • B = 6
  • A = 8

Con il il voto finale del corso è

  • '> = 7 dà A
  • '> = 5 dà B
  • '> = 3 dà C
  • '> = 1 restituisce D
  • ' <1 restituisce F
Acccumulation
2018-06-19 01:07:45 UTC
view on stackexchange narkive permalink

Vedo tre problemi principali:

  1. Qualcuno senza alcuna conoscenza del dominio può comunque ottenere punti. Dici che è ingiusto, ma ingiusto nei confronti di chi? Le persone senza alcuna conoscenza ottengono punti, ma quelle con conoscenza ottengono più punti. E le soglie di voto tendono a tenerne conto; le soglie tendono a variare da circa il 50% (F) al 90% (A), quindi quando prendi in considerazione i punti gratuiti, questo è effettivamente 0% di conoscenza è una F, mentre l'80% di conoscenza è una A.

  2. I punti negativi fanno sentire male le persone. L'importanza che dovresti dare dipende dal livello. Per la scuola elementare, i problemi psicologici sono importanti, ma dall'università dovrebbe essere un problema minore (sebbene non del tutto eliminato). Questo può essere ridotto presentando agli studenti situazioni matematicamente equivalenti con formulazioni diverse. Ad esempio, con un test di 100 punti, potresti dire agli studenti che iniziano il test con -50 punti, ma ottengono 0,5 punti indietro ogni volta che saltano una domanda.

  3. Le persone che suppongono fanno meglio di quelle che lasciano vuote le domande che non conoscono. Questo crea un certo tipo di "lavoro impegnato" per studenti, facendoli scegliere tra la compilazione casuale di risposte che non conoscono o la perdita di "punti gratuiti". Nota che questo non viene risolto includendo un'opzione "non so", dal momento che avranno ancora il duro lavoro di contrassegnare "non so" per tutte quelle domande, invece di saltarle. C'è, tuttavia, un vantaggio qui in cui in pratica chiedi agli studenti "Ok, non sai quale sia la risposta qui. Ma quale pensi sia più probabile ?"

Non è possibile risolvere completamente tutti e tre questi problemi, quindi dovrai sceglierne almeno uno da ignorare. Puoi dare mezzo punto a ogni domanda lasciata vuota, che si occupa completamente di (3) e principalmente di (2) (gli studenti non ottengono punti negativi per aver sbagliato le domande, ma stanno perdendo i punti che avrebbe potuto ottenere se li avessero lasciati vuoti). Puoi lasciare le cose come stanno, che indirizzi completamente (2), ma non indirizzi (1) o (3). Oppure puoi dare punti negativi, quali indirizzi (1) e (3), ma non (2).



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 4.0 con cui è distribuito.
Loading...