Intervallo di confidenza

Cos'è l'intervallo di confidenza:

È una stima di un intervallo utilizzato nelle statistiche, che contiene un parametro di popolazione. Questo parametro di popolazione sconosciuto viene rilevato attraverso un modello di esempio calcolato dai dati raccolti .

Esempio: la media di un campione raccolto x̅ può o meno corrispondere alla media della popolazione reale μ. Per questo, è possibile prendere in considerazione una serie di mezzi di campionamento in cui questa media della popolazione può essere contenuta. Più questo intervallo è lungo, maggiore è la probabilità che ciò si verifichi.

L'intervallo di confidenza è espresso in percentuale, denominato in base al livello di confidenza, con il 90%, il 95% e il 99% come il più indicato. Nell'immagine seguente, ad esempio, abbiamo un intervallo di confidenza del 90% tra i suoi limiti superiore e inferiore (a e -a ).

Esempio di intervallo di confidenza del 90% tra i suoi limiti superiore (a) e inferiore (-a).

L'intervallo di confidenza è uno dei concetti più importanti all'interno dei test di ipotesi in statistica, perché è usato come misura dell'incertezza. Il termine fu introdotto dal matematico e statista polacco Jerzy Neyman nel 1937.

Qual è la rilevanza di un intervallo di confidenza?

L'intervallo di confidenza è importante per indicare il margine di incertezza (o imprecisione) rispetto a un calcolo effettuato. Questo calcolo utilizza il campione di studio per stimare la dimensione effettiva del risultato nella popolazione di origine.

Il calcolo di un intervallo di confidenza è una strategia che considera il campionamento degli errori. La dimensione dell'esito del tuo studio e il tuo intervallo di confidenza caratterizzano i valori presunti per la popolazione originale.

Più stretto è l'intervallo di confidenza, maggiore è la probabilità che la percentuale della popolazione in studio rappresenti il numero reale della popolazione di partenza, dando maggiore certezza sull'esito dell'oggetto di studio.

Come interpretare un intervallo di confidenza?

L'interpretazione corretta dell'intervallo di confidenza è probabilmente l'aspetto più impegnativo di questo concetto statistico. Un esempio dell'interpretazione più comune del concetto è il seguente:

Esiste una probabilità del 95% che, in futuro, il valore reale del parametro della popolazione (ad esempio la media) rientri nell'intervallo X (limite inferiore) e Y (limite superiore).

Pertanto, l'intervallo di confidenza è interpretato come segue: è sicuro al 95% che l'intervallo tra X (limite inferiore) e Y (limite superiore) contenga il valore reale del parametro di popolazione.

Sarebbe del tutto scorretto affermare che: esiste una probabilità del 95% che l'intervallo tra X (limite inferiore) e Y (limite superiore) contenga il valore reale del parametro popolazione.

L'affermazione di cui sopra è il malinteso più comune sull'intervallo di confidenza. Dopo aver calcolato l'intervallo statistico, può contenere solo il parametro della popolazione oppure no.

Tuttavia, gli intervalli possono variare tra i campioni, mentre il parametro della popolazione reale è lo stesso indipendentemente dal campione.

Pertanto, la dichiarazione di confidenza dell'intervallo di confidenza può essere effettuata solo nel caso in cui gli intervalli di confidenza vengano ricalcolati per il numero di campioni.

Le fasi di calcolo dell'intervallo di confidenza

L'intervallo è calcolato utilizzando i seguenti passaggi:

Raccogliere i dati di esempio: n ;
Calcola la media campionaria x̅;
Determina se una deviazione standard della popolazione ( σ ) è conosciuta o sconosciuta;
Se è nota una deviazione standard della popolazione, è possibile utilizzare un punto z per il corrispondente livello di confidenza;
Se una deviazione standard della popolazione è sconosciuta, possiamo usare una statistica t per il livello di confidenza corrispondente;
Pertanto, i limiti inferiore e superiore dell'intervallo di confidenza vengono rilevati utilizzando le seguenti formule:

a) Deviazione standard di una popolazione nota :

Formula per il calcolo della deviazione standard di una popolazione nota.

b) Deviazione standard di una popolazione sconosciuta :

Formula per il calcolo della deviazione standard di una popolazione sconosciuta.

Esempio pratico di un intervallo di confidenza

Uno studio clinico ha valutato l'associazione tra la presenza di asma e il rischio di sviluppare apnea ostruttiva del sonno negli adulti.

Alcuni adulti sono stati reclutati a caso da una lista di funzionari statali da seguire per quattro anni.

I partecipanti con asma, rispetto a quelli senza, hanno avuto un rischio maggiore di sviluppare apnea in quattro anni.

Nel condurre ricerche cliniche come questo esempio, viene solitamente reclutato un sottoinsieme della popolazione di interesse per aumentare l'efficienza dello studio (meno costi e meno tempo).

Questo sottogruppo di individui, la popolazione studiata, è composto da coloro che soddisfano i criteri di inclusione e accettano di partecipare allo studio, come mostrato nell'immagine qui sotto.

Grafico esplicativo della popolazione studiata nell'esempio.

Quindi, lo studio è completato e una dimensione dell'effetto (ad esempio, una differenza media o rischio relativo ) viene calcolata per rispondere alla domanda di ricerca.

Questo processo, chiamato inferenza, implica l'uso di dati raccolti dalla popolazione dello studio per stimare l'entità dell'effetto effettivo sulla popolazione di interesse, cioè la popolazione di origine.

Nell'esempio fornito, i ricercatori hanno reclutato un campione casuale di dipendenti statali (popolazione di origine) che erano ammissibili e hanno accettato di partecipare allo studio (popolazione di studio) e hanno riferito che l'asma aumenta il rischio di sviluppare apnea nella popolazione dello studio.

Per giustificare un errore di campionamento dovuto all'assunzione di un solo sottogruppo della popolazione di interesse, hanno anche calcolato un intervallo di confidenza del 95% (attorno alla stima) di 1, 06-1, 82, indicando una probabilità di 95 % che il vero rischio relativo nella popolazione di origine sarebbe tra 1, 06 e 1, 82 .

Intervallo di confidenza per la media

Quando si ha l'informazione della deviazione standard di una popolazione, si può calcolare un intervallo di confidenza per la media o la media di quella popolazione.

Quando una caratteristica statistica che viene misurata (come reddito, QI, prezzo, altezza, quantità o peso) è numerica, nella maggior parte dei casi si stima che venga trovato il valore medio per la popolazione.

Quindi, cerchiamo di trovare la media della popolazione ( μ ) usando una media campionaria ( x̅ ), con un margine di errore. Il risultato di questo calcolo è chiamato intervallo di confidenza per la media della popolazione .

Quando la deviazione standard della popolazione è nota, la formula per un intervallo di confidenza (CI) per una media della popolazione è:

dove:

x̅ è la media campionaria;
σ è la deviazione standard della popolazione;
n è la dimensione del campione;
Ζ * rappresenta il valore appropriato della distribuzione normale standard per il livello di confidenza desiderato.

I seguenti sono i valori per i vari livelli di confidenza ( Ζ * ):

Livello di fiducia	Valore di Z * -
80%	01:28
90%	1, 645 (convenzionale)
95%	1.96
98%	02:33
99%	02:58

La tabella sopra mostra i valori z * per i livelli di confidenza forniti. Si noti che questi valori sono ottenuti dalla distribuzione normale standard (Z-).

L'area tra ciascun valore z * e il negativo di questo valore è la percentuale di confidenza (approssimativa). Ad esempio, l'area tra z * = 1.28 e z = -1.28 è di circa 0.80. Pertanto, questa tabella può anche essere estesa ad altre percentuali di confidenza. La tabella mostra solo le percentuali di fiducia più comunemente utilizzate.

Vedi anche il significato di Ipotesi.