Variabile Risposta (R).
La variabile risposta (identificata con la lettera R) é la variabile che verrà
appunto utilizzata come variabile risposta nella stima del modello.
Tale variabile, chiaramente, deve sempre esserci e deve essere unica.
Variabile Nominale (C).
Per variabile nominale (C) si intende quel tipo di variabile (formattata come numero o come carattere)
che é suddivisa in classi e tali classi non possono essere unite fra di loro secondo una logica numerica:
un esempio di tale tipologia può essere il colore degli occhi (castano, blu, verde, nero, ...).
Tali variabili saranno trattate appunto come variabili qualitative (utilizzando l'apposita opzione
class della procedura genmod di SAS), senza alcun intervento su di esse.
Nell'analisi delle correlazioni sono trattate in maniera
maggiormente complessa rispetto alle altre: per valutarle si é deciso di utilizzare un valore derivato
dall'indice di concentrazione di Simpson.
Entrando nel dettaglio, confronteremo singolarmente le variabili nominali con le altre variabili
di tipo Q - O - X - C: in primo luogo definiremo una matrice a due entrate contenente le numerosità per
le n modalità della prima variabile contro le m modalità della seconda.
Utilizzando questa matrice calcoleremo l'indice di concentrazione di Simpson sulle distribuzioni di probabilità
marginali di riga e di colonna, ottenendo quindi (m + n) indici.
A questo punto calcoleremo la media pesata (sulle numerosità marginali di riga) degli m indici relativi alle
righe e la media pesata (sulle numerosità marginali di colonna) degli n indici relativi alle colonne.
Calcoleremo quindi la media dei due macroindici cosí ottenuti: questo valore sarà il nostro
pseudo indice di correlazione. Se tale valore risulterá superiore alla nostra soglia (il parametro di input
taglio_correlazione) allora considereremo le due variabili correlate.
Proprio perché tale calcolo non rappresenta realmente un indice di correlazione tra variabili, é stato
inserito il parametro di input simpson che, posto a zero (di default é
pari a uno), inibisce l'utilizzo
dell'indice sopra descritto come indice di correlazione tra le variabili.
Variabile Nominale da compattare sulla base della concentrazione (K).
Se abbiamo delle variabili nominali che desideriamo raggruppare in base alla concentrazione
della variabile risposta nelle differenti modalità possiamo decidere di utilizzare
questa opzione (K).
Si può utilizzare tale scelta, per esempio, se la variabile ha un numero
eccessivo di modalità e si vogliono creare dei macrogruppi omogenei.
Sia per quanto riguarda il metodo di compressione della variabile (prima e durante la regressione),
sia per quanto riguarda il calcolo della correlazione, le variabili K si possono comportare in due modi:
se il numero di modalità iniziali é superiore al numero di modalità
scelte per la compressione delle variabili X (vedi sotto),
si comporteranno come queste.
Altrimenti verranno classizzate come una variabile ordinale
(vedi sotto).
In entrambi i casi l'ordinamento sarà dato dalla concentrazione
della variabile risposta nelle classi.
Variabile Ordinale (O).
Per variabili ordinali (O) si intendono quelle variabili che sono raggruppate
in classi già definite, e che, al contrario delle precedenti,
possiedono un ordinamento intrinseco. Un esempio di tale tipologia puó
essere una variabile che identifichi il livello di istruzione di una persona
(0 = nessuno, 1 = elementare, 2 = medio, 3 = superiore, 4 = universitario, ...).
Per verificare se una variabile ordinale é correlata ad un'altra variabile si utilizza la
correlazione
di Spearman (tranne quando la si confronta con una variabile nominale).
Nella fase di costruzione del modello di regressione le variabili ordinali seguono un iter
piuttosto macchinoso:
Variabile Numerica da Classizzare (X).
Se nei dati da analizzare sono presenti variabili quantitative si può decidere
di utilizzarle in due maniere: o provando ad inserirle cosí come sono
all'interno del modello (vedi qui sotto)
o provando a "classizzarle", ovvero trasformare la variabile numerica in una variabile qualitativa
dividendo la popolazione in percentili.
Se, da una parte, la classizzazione richiede minore sforzo pratico da parte dell'utente,
che non deve controllare la monotonicità della concentrazione della variabile risposta
nei confronti della variabile in esame, dall'altra tale opzione può risultare fuorviante
per la stima del modello (rischio di sovradattamento del modello ai dati) e può far
aumentare i tempi di elaborazione in maniera considerevole (si rimanda, analogamente alle
variabili O, a questa pagina esplicativa).
A tal proposito si ricorda che l'utente può decidere l'ampiezza (percentuale) delle classi
impostando il parametro di input passo.
Per quanto riguarda l'analisi della correlazione, le variabili X vengono valutate con indici differenti
a seconda del tipo di variabile con cui vengono confrontate: se la seconda é ordinale sarà
utilizzata la
correlazione
di Spearman, se é nominale sarà utilizzato
l'indice di concentrazione di Simpson
e negli altri casi (variabili Q o X) sarà utilizzata la
correlazione di Pearson.
Variabile Quantitativa (Q).
Se la variabile che utilizziamo é numerica possiamo provare ad inserirla nel modello
senza effettuare classizzazioni: sta all'utente verificare prima dell'elaborazione la monotonicità
della concentrazione della variabile risposta nei confronti della variabile in esame. In caso contrario
sta sempre all'utente correggere il problema effettuando delle modifiche sul dato (caso tipico sono
le variabili che presentano massima concentrazione alle due estremità della distribuzione: in
casi di questo tipo si interviene solitamente "ribaltando" la variabile originaria per ottenerne
una nuova in cui gli estremi precedenti siano sovrapposti).
Per quanto riguarda l'analisi della correlazione, le variabili Q vengono valutate analogamente alle X,
ovvero vengono utilizzati indici differenti a seconda del tipo di variabile
con cui vengono confrontate: se la seconda é ordinale sarà utilizzata la
correlazione
di Spearman, se é nominale sarà utilizzato
l'indice di concentrazione di Simpson
e negli altri casi (variabili Q o X) sarà utilizzata la
correlazione di Pearson.
Variabile Identificativa (I).
Nel caso si voglia mantenere una variabile nei file di output senza però
utilizzarla nella regressione (perché magari ci serve ad identificare le singole osservazioni)
bisogna etichettare tale variabile come I.
Variabile da Non Utilizzare (N).
Nel caso in cui non si voglia utilizzare in alcun modo una variabile, questa deve essere etichettata N.
Poiché una variabile senza alcuna etichetta non verrà in alcun modo presa in considerazione,
l'etichetta N é presente unicamente per completezza.
Riassunto correlazione.
Al fine di una maggior chiarezza sul metodo usato per valutare la correlazione tra le differenti
variabili, si riporta qua sotto una tabella riassuntiva.
O (Var.Ordinale) | X (Var.Da Classizzare) | Q (Var.Quantitativa) | C (Var.Nominale) | |
O (Var.Ordinale) | Spearman (S) | Spearman (S) | Spearman (S) | Simpson (C) |
X (Var.Da Classizzare) | Spearman (S) | Pearson (P) | Pearson (P) | Simpson (C) |
Q (Var.Quantitativa) | Spearman (S) | Pearson (P) | Pearson (P) | Simpson (C) |
C (Var.Nominale) | Simpson (C) | Simpson (C) | Simpson (C) | Simpson (C) |
Indice principale | Indice dei Programmi | Indice dell'Autoreg |
Go to English version |
Data creazione: 17 Settembre 2010
Data ultima modifica: 28 Gennaio 2013