AutoReg

Dati di output

Le tabelle che la procedura fornisce in output sono molteplici. Qui di seguito spiegheremo quale nome avranno ed in che modo interpretarle.
Praticamente tutte hanno un macro-prefisso: questa radice comune dovrà essere passata dall'utente tramite il parametro di input in.

Possiamo dividere concettualmente l'output risultante dal processo in quattro aree:

le tabelle fornite in input
le tabelle direttamente derivate da quelle di input e dalla regressione
le tabelle di utilità del processo
le tabelle riassuntive per l'utilizzo del modello ottenuto

Tabelle di input

Tabella &in
&in é la tabella dei dati fornita in input . Tale tabella non subisce alcuna modifica durante il processo.

Tabella &in._var
&in._var deriva direttamente dalla omonima tabella di input : differisce da essa unicamente per modifiche della colonna "utilizzo" (relative ad esempio a variabili con un'unica modalità che vengono escluse dal processo) o per l'aggiunta di nuove righe (generate in presenza di variabili di tipo "K").

Tabella &in._cond
&in._cond , in maniera analoga alla precedente, deriva dalla omonima tabella di input: le uniche differenze riscontrabili sono relative a nuove righe in presenza di variabili di tipo "K".

Tabella &in._esccon
Anche &in._esccon é una copia della omonima tabella di input ed anche in questo caso le eventuali differenze sono rappresentate dall'inserimento di nuove righe relative a variabili di tipo "K".

Tabella &passi
La tabella &passi , che ricordiamo essere facoltativa in input, non subisce nel processo alcuna modifica.

Tabelle derivate direttamente dall'input e dalla regressione

Tabella &in._pt
La tabella &in._pt é una copia del file di input a cui sono state aggiunte tutte le colonne utilizzate dalla procedura durante la classizzazione dei dati.
In particolare il processo genera delle nuove colonne per le variabili K, O e X con i seguenti criteri:

se la variabile è di tipo X o O, verranno generate due nuove colonne: la prima con prefisso cl_, la seconda con prefisso cl_ e suffisso _b. Esse conterranno il valore relativo alla classe della nuova variabile rispettivamente in formato carattere, maggiormente descrittivo, la prima e in formato numerico la seconda (se, per esempio, la nostra variabile di partenza è v, verranno generate le colonne cl_v, in formato carattere, e la colonna cl_v_b, in formato numerico).
se la variabile è di tipo K, verrà generata una nuova colonna con prefisso k_ e tale variabile verrà trattata come una variabile di tipo X o O, ovvero come descritto nel punto precedente (per esempio, dalla variabile v verrà generata innanzi tutto la colonna k_v e successivamente cl_k_v e cl_k_v_b).
infine, se la variabile entrerà nel modello, verranno generate due ulteriori colonne, con suffisso _c e _d che identificano le nuove classi post cicli di compressione-decompressione.

Tabella &in._dcorr
La tabella &in._dcorr é una copia del dataset precedente a cui sono state aggiunte alcune colonne derivanti dal modello finale.
In particolare abbiamo il valore stimato dal modello (colonna predetti) con il relativo intervallo di confidenza al 95% (colonne inf e sup), il residuo standardizzato di Pearson (colonna residui) e il valore della stima ante link function (colonna xbet).

Tabella &in._mcorr
La tabella &in._mcorr contiene le stime dei parametri del modello.
In particolare é composta dalle colonne:
- Parameter, che indica la variabile del modello,
- Level1, che contiene (per le variabili qualitative) la classe della variabile,
- DF, che indica i gradi di libertà (Degree of Freedom) del singolo parametro del modello,
- Estimate, che contiene la stima del parametro del modello,
- StdErr, che contiene l'errore standard della stima,
- LowerWaldCL, che indica il limite inferiore dell'intervallo di confidenza di Wald per la stima,
- UpperWaldCL, che indica il limite superiore dell'intervallo di confidenza di Wald per la stima,
- ChiSq, che contiene il valore della statistica Chi-quadro utilizzata per determinare la significatività del parametro,
- ProbChiSq, che contiene il reciproco della distribuzione cumulata della Chi-quadro relativo al valore precedente.

Tabella &in._smcorr
&in._smcorr contiene alcuni indicatori statistici utilizzati per misurare la bontà del modello (Log-Verosimiglianza, AIC, ...).
Le colonne che compongono tale tabella sono:
- Criterion, che contiene l'indicatore calcolato,
- DF, che contiene i gradi di libertà dell'indicatore,
- Value, che contiene il valore dell'indicatore,
- ValueDF, che contiene il valore dell'indicatore diviso per i gradi di libertà.

Tabelle di utilità nel processo

Tabella &in._corr4
La tabella &in._corr4 contiene i valori di correlazione e pseudo-correlazione calcolati tra le differenti variabili, con l'indicazione se tale valore supera la soglia impostata dall'utente per determinare se due variabili sono correlate. Si noti che due colonne confrontate con il metodo derivato dall'indice di Simpson saranno presenti in questa tabella solamente se ritenute tra di loro correlate.
Le colonne di tale tabella sono:
- v1, che contiene la prima variabile della coppia oggetto di analisi di correlazione,
- v2, che contiene la seconda variabile della coppia oggetto di analisi di correlazione,
- corr, in cui si trova il valore di correlazione calcolato,
- tipo_corr, che indica il tipo di correlazione utilizzata (per una decodifica di tale campo si veda la pagina relativa ai tipi di variabile utilizzati),
- ut_v1, che contiene l'indicazione del tipo della prima variabile,
- ut_v2, che contiene l'indicazione del tipo della seconda variabile,
- corr2, campo valorizzato a 1 se le due variabili indicate sono state giudicate correlate, ovvero se la correlazione calcolata risulta superiore alla soglia impostata dall'utente; valorizzato a 0 se le due variabili non sono giudicate correlate.

Tabella &in._kcl
La tabella &in._kcl contiene i valori numerici utilizzati all'interno del processo per raggruppare le classi delle variabili K.
Poiché infatti tali variabili sono originariamente composte da campi carattere, é necessario convertire i valori in numeri (ordinati sulla base della concentrazione) per poter trattare la nuova variabile come una colonna X o O.
Le colonne di tale tabella sono:
- var_orig, che indica la variabile a cui ci stiamo riferendo,
- cl_orig, che indica la modalità originaria che abbiamo convertito,
- cl_nuova, che indica il valore numerico generato dalla conversione per la modalità in esame.

Tabella &in._kvar
La tabella &in._kvar contiene, unicamente per le colonne che sono state classizzate e che sono entrate nel modello, il dettaglio delle modalità della variabile con l'indicazione dei gruppi generati post concentrazione.
Le colonne di tale tabella sono:
- var, contenente il nome della colonna,
- giro, che indica a che passo é stata fatta la compressione,
- kvar, contenente l'indicazione non-SAS della classe di partenza,
- kvar_b, che indica la relativa classe di partenza in formato numerico,
- kvar_c, che contiene la classe di arrivo in formato numerico,
- kvar_d, contenente la classe non-SAS di arrivo.

Tabella &in._mod
&in._mod contiene le variabili che sono entrate nel modello.
Le colonne di tale tabella sono:
- nome, contenente il nome della colonna,
- utilizzo, che indica la modalità di utilizzo di tale colonna.

Tabella &in._po
La tabella &in._po contiene un elenco di tutte le variabili che potenzialmente sarebbero potute entrare nel modello (ma probabilmente non sono entrate perché ritenute non significative).
Le colonne di tale tabella sono:
- utilizzo, contenente il tipo di variabile descritta,
- nome, che contiene il nome della variabile,
- po, dummy valorizzata ad 1 se la colonna in questione é una potenziale nuova variabile del modello, pari a 0 se tale colonna non può entrare nel modello.

Tabelle riassuntive per l'utilizzo del modello ottenuto

Tabella &in._passi
&in._passi contiene i passi (stepwise-backwise) effettuati dal motore per ottenere il modello finale.
Le colonne di tale tabella sono:
- passo, che identifica il progressivo del passo,
- modello, che contiene l'elenco in ordine alfabetico delle variabili presenti nel modello in quel particolare passo.
N.B.: Si noti che le variabili presenti nella colonna modello possono essere differenti dalle variabili in input al processo, come descritto in precedenza.

Tabella &in._zgri
La tabella &in._zgri ha lo scopo di riassumere il modello per permetterne un facile utilizzo su nuovi dati.
Una spiegazione di tale possibile riutilizzo é presentato nella pagina relativa al codice di esempio.
Le colonne della tabella sono:
- nome, che contiene il nome della variabile,
- level1, che contiene la modalità relativa alla variabile (valore presente solo per le variabili qualitative),
- kvar_d, che contiene l'indicazione non-SAS della modalità,
- estimate, in cui é presente il valore di stima per la modalità,
- condizione, che definisce la condizione SAS per identificare la classe all'interno del dataset,
- df, che esprime i gradi di libertà del livello in questione,
- utilizzo, in cui si descrive il tipo di variabile.
N.B.: in caso di presenza di classi particolari (impostate dall'utente per mezzo dell'apposita tabella), non é detto che le condizioni siano univoche. Per tale motivo l'ordine in tale tabella non é casuale, ma le classi impostate dall'utente dovrebbero trovarsi alla fine di ogni gruppo.


Indice principale	Indice dei Programmi	Indice dell'Autoreg
Go to English version

Data creazione: 17 Settembre 2010
Data ultima modifica: 18 Maggio 2013