PLS STATISTICA - Liceo Scientifico “Edoardo Amaldi”

Anno scolastico 2017 - 2018, classe 3°F

Tutors: proff. Laura Terzera, Aldo Solari - Università di Milano Bicocca

dott. Silvia Offredi, Paolo Maranzano

Tutor scolastico: prof.Monica Invernizzi


Il presente report è il risultato di un’indagine statistica e della relativa rielaborazione dei dati effettuata con il software R. L’indagine è stata svolta nell’ambito di un progetto PLS di Statistica promosso dall’Università di Milano Bicocca. L’attività ha portato alla realizzazione di un Project Work nell’ambito dell’Alternanza Scuola Lavoro.

Gli obiettivi del lavoro

Analizzare la conoscenza della popolazione intervistata in riferimento al progresso mondiale (economico, sociale, sanitario …) Riflettere sul tema dell’EURISTICA DELL’ANCORAGGIO

Il questionario somministrato

Il questionario “Verifica la tua conoscenza!”, rivolto a studenti e famiglie, docenti e personale ata del Liceo, è suddiviso in tre parti:

  1. domande di carattere anagrafico e personale, finalizzate a conoscere alcuni caratteri delle singole unità statistiche intervistate: es. anno di nascita, genere, titolo di studio…

  2. dieci domande sulla CONOSCENZA RELATIVA AL PROGRESSO MONDIALE; es. qual è la percentuale di adulti nel mondo di oggi in grado di leggere e scrivere?

  3. tre domande che hanno l’obiettivo di testare l’effetto dell’EURISTICA DELL’ANCORAGGIO;

Cosa si intende per EURISTICA?

Quando è necessario prendere una decisione in risposta ad uno stimolo esterno, non è sempre possibile riflettere valutando ogni aspetto della questione e scegliere la strategia migliore; molto spesso si attivano processi automatici, inconsapevoli, che sfuggono al controllo. Le Euristiche sono abilità cognitive acquisite dal cervello nel corso dell’evoluzione; sono metodi inferenziali che permettono di prendere decisioni e fare scelte nel minor tempo possibile e con minor dispendio di risorse cognitive.

L’euristica dell’ANCORAGGIO

Con il termine ancoraggio si indica la tendenza, quando si deve fare una scelta o prendere una decisione, ad affidarsi alla prima informazione che viene fornita, l’ancora appunto, che viene presa come riferimento: il giudizio viene effettuato per differenza da questo. L’effetto dell’ancoraggio può essere molto rilevante e spesso la decisione si discosta in modo non significativo dall’ancora fornita, anche quando questa non ha particolari significati o attinenze al fenomeno considerato.



1. COMPOSIZIONE DELLA POPOLAZIONE INTERVISTATA

Distribuzione in relazione al genere

Tabella delle frequenze assolute

## 
## Femmina Maschio 
##     144     142


Distribuzione in relazione al titolo di studio

## 
## Licenza elementare      Licenza media            Diploma 
##                  2                239                  9 
##  Laurea magistrale 
##                 36
## 
## Licenza elementare      Licenza media            Diploma 
##                0.7               83.6                3.1 
##  Laurea magistrale 
##               12.6

Dal si nota che quasi l’84% dei candidati possiede la licenza media e solo un piccolo spicchio, meno dell’1%, la licenza elementare.

Distribuzione per anno di nascita

Questo grafico evidenzia che le persone che hanno risposto maggiormente sono quelle nate nel secondo millennio, in particolare nel 2001, invece, la minoranza, è rappresentata dagli anni 1954 e 1957.

Distribuzione in relazione all’occupazione

## 
##      Altro  Casalinga Lavoratore   Studente 
##        1.4        1.0       14.7       82.9

La maggior parte della popolazione considerata è composta da studenti (82,9%), come si può vedere anche dal grafico:

Distribuzione in relazione all’abitudine a risolvere quiz o parole crociate

## 
##                       Mai Meno di una volta al mese 
##                      9.79                     60.84 
##  Una volta alla settimana         Quasi ogni giorno 
##                     17.48                     10.14 
##           Quotidianamente 
##                      1.75


Distribuzione in relazione all’abitudine a leggere news di attualità su internet

## 
##                       Mai Meno di una volta al mese 
##                         9                        30 
##  Una volta alla settimana         Quasi ogni giorno 
##                        77                       109 
##           Quotidianamente 
##                        61
## 
##                       Mai Meno di una volta al mese 
##                         3                        10 
##  Una volta alla settimana         Quasi ogni giorno 
##                        27                        38 
##           Quotidianamente 
##                        21

Più della metà delle persone legge news di attualità in internet meno di una volta al mese, mentre un minuscolo spicchio, che sfiora di poco il 2%, lo fa ogni giorno. Suddividendo la popolazione in adulti (> 19 anni) e giovani(< 19 anni) si ha questa distribuzione delle frequenze assolute:

##             
##              Mai Meno di una volta al mese Una volta alla settimana
##   meno di 19   7                        26                       68
##   più di 19    2                         4                        9
##             
##              Quasi ogni giorno Quotidianamente
##   meno di 19                95              40
##   più di 19                 14              21

Considerando la distribuzione di frequenza per i giovani si ha:

##             
##              Mai Meno di una volta al mese Una volta alla settimana
##   meno di 19   7                        26                       68
##   più di 19    2                         4                        9
##             
##              Quasi ogni giorno Quotidianamente
##   meno di 19                95              40
##   più di 19                 14              21
##                       Mai Meno di una volta al mese 
##                       3.0                      11.0 
##  Una volta alla settimana         Quasi ogni giorno 
##                      28.8                      40.3 
##           Quotidianamente 
##                      16.9

E per gli adulti:

##                       Mai Meno di una volta al mese 
##                         4                         8 
##  Una volta alla settimana         Quasi ogni giorno 
##                        18                        28 
##           Quotidianamente 
##                        42

Si osserva che l’abitudine a leggere news su internet è maggiormente diffusa tra i giovani.



2. ANALISI DELLE DOMANDE RELATIVE ALLA CONOSCENZA DEL PROGRESSO MONDIALE

2.1. Analisi della distribuzione delle risposte corrette fornite dalla popolazione intervistata

Si calcolano alcuni indici statistici per comprendere in che modo abbia risposto la popolazione. Gli indici si dividono in: indici di posizione e di dispersione. Gli indici di posizione, come la media e la mediana, sintetizzano in un singolo valore numerico l’intera distribuzione di frequenza dei dati presi in considerazione.

Media

Si calcola facendo il rapporto tra la somma del numero di risposte corrette date da ciascun individuo e del numero di individui a cui è stato sottoposto il questionario.

\[ x_{medio} = \frac{\sum_{i=1}^{n} x_{i}}{n}\]

## [1] 3.01049

Mediana

Disponendo in ordine crescente i dati, la mediana è il valore centrale di questo elenco; visto che il numero delle unità statistiche considerate nell’ndagine è pari, la mediana è la media aritmetica dei due valori centrali.

## [1] 3

Valore massimo

## [1] 10

Valore minimo

## [1] 0

Gli indici di dispersione permettono di stimare quanto i dati si discostino dall’indice di posizione considerato.

Deviazione Standard

E’ la dispersione delle singole osservazioni intorno alla media aritmetica. E’ la radice quadrata del rapporto tra la somma dei quadrati degli scarti di ogni dato dalla media e il numero dei dati.

\[\sigma= \sqrt{\frac{\sum_{i=1}^n (x_{i}-x_{medio})^2}{n}}\]

## [1] 2.139822

Confronto con le risposte casuali

Rispondendo casualmente alle domande si ha una possibilità su 3 di indovinare la risposta corretta, a cui corrisponde una percentuale del 33,3%.

Media

Statisticamente, le persone che rispondono in modo casuale hanno una media di risposte corrette maggiore rispetto al nostro campione, infatti:

\[3.01049 < 3,33333\]

Mediana

La mediana della distribuzione casuale è \(3,33333\): Si considera la distribuzione binomiale per mostrare la mediana dei valori, che corrisponde al valore massimo raggiunto dalla funzione.
La distribuzione binomiale definisce la distribuzione di probabilità di \(n\) prove ripetute e indipendenti, come il lancio di una moneta, oppure nel nostro caso le risposte casuali alle 10 domande del questionario.

\[P(k) = P \sum_{i=1}^n(x_{n}) = {N\choose k} p^kq^{n-k}\]

Ogni successione con \(k\) successi e \(n-k\) insuccessi ha probabilità:

\[{N\choose k} p^k q^{n-k}\]

Dove \({N\choose k}= C(N;k) = \frac{N!}{k!(N-k)!}\)

In rosso troviamo il grafico delle risposte casuali e in nero troviamo quelle reali fornite dalla popolazione.

Valore Massimo

Il massimo delle risposte casuali corrette è 10, con una probabilità percentuale del:

## [1] 0.001693509

Utilizzando un campione pari al nostro (quindi 286 individui), si ottiene che il numero di persone che realizzerebbero 10 risposte corrette sarebbe:

## [1] 0.00484198

In opposizione alle 7 persone del nostro campione.

Valore Minimo

Il minimo delle risposte casuali è 0, con una proabilità percentuale del:

## [1] 1.734153

Utilizzando un campione pari al nostro (quindi 286 individui), si ottiene che il numero di persone che realizzerebbero 0 risposte corrette sarebbe:

## [1] 495.9678
## [1] 4.959526

In opposizione alle 16 persone del nostro campione.

Deviazione Standard

La deviazione standard delle risposte corrette per il nostro campione è:

## [1] 2.139822

Mentre quella del modello delle risposte casuali è:

## [1] 0.09828601

Nei grafici che seguono vengono sintetizzati tutti gli indici calcolati. Si osserva che una persona, rispondendo alle 10 domande del questionario in modo casuale, potrebbe ottenere risultati migliori in confronto a quanto fatto mediamente dalla popolazione statistica considerata.

Dati relativi alla popolazione rispondente al questionario:

Dati inerenti alle risposte casuali:



2.2. Analisi della distribuzione del numero di risposte corrette per ciascuna domanda

Si vuole ora analizzare la distribuzione delle risposte corrette relativamente alla singola domanda. La tabella e il grafico che seguono indicano, per ciascuna delle 10 domande, la percentuale di risposte corrette:

##   C1   C2   C3   C4   C5   C6   C7   C8   C9  C10 
## 18.9 30.8 29.4 35.3 14.0 26.6 15.7 63.6 28.7 38.1

Dal grafico è evidente che le domande critiche sono state:

  • D1 relativa alla distribuzione della popolazione mondiale,

  • D5 relativa alla percentuale di bambini vaccinati contro il morbillo,

  • D7 relative alla povertà a livello globale.

La domanda col maggior numero di risposte corrette date dalla popolazione è stata la D8 sul numero medio di figli per ogni donna.

Si considera inoltre il boxplot e alcuni indici statistici:

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   13.99   20.80   29.02   30.10   34.18   63.64

Dal grafico e dagli indici si ha la conferma che:

  • una sola domanda ha ottenuto una percentuale di risposte oltre il 60% , risultato anomalo rispetto alle altre;

  • mediamente la percentuale di risposte corrette per domanda è del 29%, con una non rilevante variabilità ad eccezione del dato anomalo.


2.3. Analisi della distribuzione del numero di risposte corrette fornite da ciascun individuo in relazione alle caratteristiche degli individui della popolazione

Relazione fra il numero di risposte corrette e il genere di appartenenza (femmina/maschio)

In questo grafico si nota che il genere non influenza significativamente il numero di risposte corrette; la mediana per entrambi i gruppi è 3, quindi il 50% di uomini e donne ha risposto correttamente a meno di 3 domande; il range per gli uomini è più alto.

Relazione fra il numero di risposte corrette e il titolo di studio

In questo grafico il titolo di studio sembra non influenzare il numero di risposte corrette, ma, al contrario di quello che ci si potrebbe aspettare, le persone che possiedono una laurea magistrale hanno ottenuto risultati inferiori a coloro che hanno solo una licenza elementare.

Relazione tra il numero di risposte corrette e l’età

La popolazione statistica viene divisa in due sottogruppi: giovani (con meno di 19 anni) e adulti.
Individui che hanno ottenuto un dato numero di risposte corrette e distribuzione delle frequenze nel sottogruppo dei GIOVANI:

##  0  1  2  3  4  5  6  7  8  9 10 
## 13 46 51 51 31 23  4  3  5  3  6
##     0     1     2     3     4     5     6     7     8     9    10 
##  5.51 19.49 21.61 21.61 13.14  9.75  1.69  1.27  2.12  1.27  2.54

Individui che hanno ottenuto un dato numero di risposte corrette e distribuzione delle frequenze nel sottogruppo degli ADULTI:

##  0  1  2  3  4  5  6  7  8  9 10 
##  3 10 10 13  3  6  1  2  1  0  1
##  0  1  2  3  4  5  6  7  8  9 10 
##  6 20 20 26  6 12  2  4  2  0  2

Dai grafici si deduce che in entrambi i sottogruppi la maggior parte degli individui ha riposto correttamente da 1 a 3 domande; una minoranza in entrambi i sottogruppi ha risposto correttamente a più di 5 domande.

Si nota che entrambi i sottogruppi hanno mediana di risposte corrette uguale, che corrisponde alla media dell’intera popolazione; il range per gli adulti è più ampio; tra i giovani ci sono tre valori anomali, contro uno negli adulti.

Relazione tra il numero di risposte corrette e l’occupazione

In questo grafico, si osserva come le categorie Casalinga,Lavoratore e Studente hanno conseguito un punteggio con mediana pari a 3, mentre l’unica che si discosta è la categoria Altro con una mediana pari a 2.

Relazione tra l’aggiornamento sull’attualità e il numero di risposte corrette