AutoReg
Il Metodo
Innanzi tutto la procedura sviluppata basa il suo funzionamento sulla regressione logistica:
nonostante le grandi potenzialità di tale metodo questa scelta rappresenta una limitazione al processo;
tale ostacolo potrà essere superato nei successivi sviluppi del codice.
Il programma si sviluppa in diverse fasi il cui nucleo principale é caratterizzato dalla regressione.
Le fasi possono essere distinte facilmente: qui sotto elencheremo in maniera schematica lo svolgimento del processo
prendendo come riferimento il codice cosí come é riportato nell'apposita
pagina (in particolare utilizzeremo i numeri di riga segnati sul pdf).
Macro di utilità
- Fase 0 - Definizione delle macro di supporto alla procedura principale (riga 25 - 200):
- viene definita la macro simpson_c, utilizzata nel codice per il calcolo
dell'indice di pseudo correlazione di Simpson (riga 25 - 130)
- viene definita la macro mod_b_meno_a, utilizzata per il confronto
statistico tra due modelli differenti (riga 130 - 200)
Macro principale (classizz)
- Fase 1 - Caricamento e controllo dei parametri e dei
dati di input (riga 200 - 560):
- in queste righe vengono effettuati controlli sulla presenza e sulla validità
delle informazioni passate in input dall'utente.
- Fase 2 - Gestione e riorganizzazione delle informazioni di input (riga 560 - 1370):
- vengono copiati i dati al fine di preservare l'integrità del dataset di partenza (riga 560 - 603)
- vengono gestite le variabili nominali 'K' (riga 603 - 850)
- vengono gestite le variabili ordinali 'O' (riga 850 - 1030)
- vengono gestite le variabili da classizzare 'X' (riga 1030 - 1275)
- vengono eliminate le variabili che hanno una singola modalità (e che risultano quindi
inutili ai fini di un'analisi statistica) (riga 1275 - 1370)
- Fase 3 - Analisi di correlazione tra le variabili (riga 1370 - 1700):
- viene analizzata la correlazione tra le coppie di variabili con le modalità
presentate in questa pagina
(si riporta sotto lo schema relativo al tipo di indice utilizzato).
|
O (Var.Ordinale) |
X (Var.Da Classizzare) |
Q (Var.Quantitativa) |
C (Var.Nominale) |
O (Var.Ordinale) |
Spearman (S) |
Spearman (S) |
Spearman (S) |
Simpson (C) |
X (Var.Da Classizzare) |
Spearman (S) |
Pearson (P) |
Pearson (P) |
Simpson (C) |
Q (Var.Quantitativa) |
Spearman (S) |
Pearson (P) |
Pearson (P) |
Simpson (C) |
C (Var.Nominale) |
Simpson (C) |
Simpson (C) |
Simpson (C) |
Simpson (C) |
- Fase 4 - Regressione (riga 1700 - 3445):
- vengono inizializzate variabili e tabelle che verranno utilizzate durante il processo di
stima del modello (riga 1700 - 1810)
- tutte le variabili potenzialmente utilizzabili (ovvero tutte le variabili che non sono giá
entrate nel modello e che non risultano correlate con altre variabili giá nel modello)
vengono testate, aggiungendole al modello di partenza e valutando la performance conseguente.
La variabile con la quale si ottiene il modello piú performante, se statisticamente significativa,
viene inserita nel modello (passo stepwise - riga 1810 - 2980)
- si escludono singolarmente le variabili del modello e viene eliminata la variabile la cui esclusione
determina il modello piú performante (se il modello ottenuto non risulta statisticamente
differente dal modello di partenza) (passo backward - riga 2980 - 3393)
- il ciclo di regressione termina (riga 3393 - 3445)
- Fase 5 - Pulizia del sistema e scrittura dei file di output (riga 3445 - 3960):
- terminata la regressione il processo si occupa di ripulire le librerie dai file temporanei
e di creare i file di output per l'utilizzo del modello
Data creazione: 17 Settembre 2010
Data ultima modifica: 27 Gennaio 2013