AutoReg

Tipologia di variabili

Al fine di ottimizzare la creazione del modello si é deciso di dividere le possibili variabili indipendenti in differenti tipologie: in questo modo é possibile sfruttare il potenziale dei dati in maniera più precisa.
Qui di seguito verranno descritte le possibili scelte che l'utente ha nell'indicare alla procedura come utilizzare una variabile.


Variabile Risposta (R).
La variabile risposta (identificata con la lettera R) é la variabile che verrà appunto utilizzata come variabile risposta nella stima del modello. Tale variabile, chiaramente, deve sempre esserci e deve essere unica.


Variabile Nominale (C).
Per variabile nominale (C) si intende quel tipo di variabile (formattata come numero o come carattere) che é suddivisa in classi e tali classi non possono essere unite fra di loro secondo una logica numerica: un esempio di tale tipologia può essere il colore degli occhi (castano, blu, verde, nero, ...).
Tali variabili saranno trattate appunto come variabili qualitative (utilizzando l'apposita opzione class della procedura genmod di SAS), senza alcun intervento su di esse.
Nell'analisi delle correlazioni sono trattate in maniera maggiormente complessa rispetto alle altre: per valutarle si é deciso di utilizzare un valore derivato dall'indice di concentrazione di Simpson.
Entrando nel dettaglio, confronteremo singolarmente le variabili nominali con le altre variabili di tipo Q - O - X - C: in primo luogo definiremo una matrice a due entrate contenente le numerosità per le n modalità della prima variabile contro le m modalità della seconda.
Utilizzando questa matrice calcoleremo l'indice di concentrazione di Simpson sulle distribuzioni di probabilità marginali di riga e di colonna, ottenendo quindi (m + n) indici.
A questo punto calcoleremo la media pesata (sulle numerosità marginali di riga) degli m indici relativi alle righe e la media pesata (sulle numerosità marginali di colonna) degli n indici relativi alle colonne.
Calcoleremo quindi la media dei due macroindici cosí ottenuti: questo valore sarà il nostro pseudo indice di correlazione. Se tale valore risulterá superiore alla nostra soglia (il parametro di input taglio_correlazione) allora considereremo le due variabili correlate.
Proprio perché tale calcolo non rappresenta realmente un indice di correlazione tra variabili, é stato inserito il parametro di input simpson che, posto a zero (di default é pari a uno), inibisce l'utilizzo dell'indice sopra descritto come indice di correlazione tra le variabili.


Variabile Nominale da compattare sulla base della concentrazione (K).
Se abbiamo delle variabili nominali che desideriamo raggruppare in base alla concentrazione della variabile risposta nelle differenti modalità possiamo decidere di utilizzare questa opzione (K). Si può utilizzare tale scelta, per esempio, se la variabile ha un numero eccessivo di modalità e si vogliono creare dei macrogruppi omogenei.
Sia per quanto riguarda il metodo di compressione della variabile (prima e durante la regressione), sia per quanto riguarda il calcolo della correlazione, le variabili K si possono comportare in due modi: se il numero di modalità iniziali é superiore al numero di modalità scelte per la compressione delle variabili X (vedi sotto), si comporteranno come queste. Altrimenti verranno classizzate come una variabile ordinale (vedi sotto).
In entrambi i casi l'ordinamento sarà dato dalla concentrazione della variabile risposta nelle classi.


Variabile Ordinale (O).
Per variabili ordinali (O) si intendono quelle variabili che sono raggruppate in classi già definite, e che, al contrario delle precedenti, possiedono un ordinamento intrinseco. Un esempio di tale tipologia puó essere una variabile che identifichi il livello di istruzione di una persona (0 = nessuno, 1 = elementare, 2 = medio, 3 = superiore, 4 = universitario, ...).
Per verificare se una variabile ordinale é correlata ad un'altra variabile si utilizza la correlazione di Spearman (tranne quando la si confronta con una variabile nominale).
Nella fase di costruzione del modello di regressione le variabili ordinali seguono un iter piuttosto macchinoso:

Si sottolinea che, se si vuole utilizzare una variabile con questa caratteristica, tale colonna deve essere numerica.
Si fa inoltre presente che, prima di far partire la procedura, sarebbe utile conoscere il numero di differenti modalità che la variabile può assumere. Analogamente alle variabili X, si rimanda a questa pagina esplicativa.


Variabile Numerica da Classizzare (X).
Se nei dati da analizzare sono presenti variabili quantitative si può decidere di utilizzarle in due maniere: o provando ad inserirle cosí come sono all'interno del modello (vedi qui sotto) o provando a "classizzarle", ovvero trasformare la variabile numerica in una variabile qualitativa dividendo la popolazione in percentili.
Se, da una parte, la classizzazione richiede minore sforzo pratico da parte dell'utente, che non deve controllare la monotonicità della concentrazione della variabile risposta nei confronti della variabile in esame, dall'altra tale opzione può risultare fuorviante per la stima del modello (rischio di sovradattamento del modello ai dati) e può far aumentare i tempi di elaborazione in maniera considerevole (si rimanda, analogamente alle variabili O, a questa pagina esplicativa).
A tal proposito si ricorda che l'utente può decidere l'ampiezza (percentuale) delle classi impostando il parametro di input passo.
Per quanto riguarda l'analisi della correlazione, le variabili X vengono valutate con indici differenti a seconda del tipo di variabile con cui vengono confrontate: se la seconda é ordinale sarà utilizzata la correlazione di Spearman, se é nominale sarà utilizzato l'indice di concentrazione di Simpson e negli altri casi (variabili Q o X) sarà utilizzata la correlazione di Pearson.


Variabile Quantitativa (Q).
Se la variabile che utilizziamo é numerica possiamo provare ad inserirla nel modello senza effettuare classizzazioni: sta all'utente verificare prima dell'elaborazione la monotonicità della concentrazione della variabile risposta nei confronti della variabile in esame. In caso contrario sta sempre all'utente correggere il problema effettuando delle modifiche sul dato (caso tipico sono le variabili che presentano massima concentrazione alle due estremità della distribuzione: in casi di questo tipo si interviene solitamente "ribaltando" la variabile originaria per ottenerne una nuova in cui gli estremi precedenti siano sovrapposti).
Per quanto riguarda l'analisi della correlazione, le variabili Q vengono valutate analogamente alle X, ovvero vengono utilizzati indici differenti a seconda del tipo di variabile con cui vengono confrontate: se la seconda é ordinale sarà utilizzata la correlazione di Spearman, se é nominale sarà utilizzato l'indice di concentrazione di Simpson e negli altri casi (variabili Q o X) sarà utilizzata la correlazione di Pearson.


Variabile Identificativa (I).
Nel caso si voglia mantenere una variabile nei file di output senza però utilizzarla nella regressione (perché magari ci serve ad identificare le singole osservazioni) bisogna etichettare tale variabile come I.


Variabile da Non Utilizzare (N).
Nel caso in cui non si voglia utilizzare in alcun modo una variabile, questa deve essere etichettata N.
Poiché una variabile senza alcuna etichetta non verrà in alcun modo presa in considerazione, l'etichetta N é presente unicamente per completezza.


Riassunto correlazione.
Al fine di una maggior chiarezza sul metodo usato per valutare la correlazione tra le differenti variabili, si riporta qua sotto una tabella riassuntiva.


O (Var.Ordinale) X (Var.Da Classizzare) Q (Var.Quantitativa) C (Var.Nominale)
O (Var.Ordinale) Spearman (S) Spearman (S) Spearman (S) Simpson (C)
X (Var.Da Classizzare) Spearman (S) Pearson (P) Pearson (P) Simpson (C)
Q (Var.Quantitativa) Spearman (S) Pearson (P) Pearson (P) Simpson (C)
C (Var.Nominale) Simpson (C) Simpson (C) Simpson (C) Simpson (C)




  Indice principale     Indice dei Programmi     Indice dell'Autoreg  
Go to English version

Data creazione: 17 Settembre 2010
Data ultima modifica: 28 Gennaio 2013