AutoReg
Dati di input
Le tabelle che la procedura prende in input sono molteplici. Qui di seguito
spiegheremo quale nome devono avere ed in che modo devono essere strutturate.
Tali dataset, con la sola eccezione del primo elencato di seguito
(&in), possono subire degli aggiornamenti durante
il processo.
Nel caso non si voglia ricreare tali dati si consiglia quindi di
effettuare un backup degli stessi prima di cominciare.
Tutte le tabelle hanno un macro-prefisso: questa radice comune dovrà essere
passata dall'utente tramite il parametro di input in.
Tabella &in
La tabella &in é la tabella che deve contenere i dati di input.
Tali dati (nomi e formati delle colonne) devono naturalmente corrispondere a quelli indicati
nelle altre tabelle.
Di default tale tabella si chiamerà a: il nome potrà essere
modificato semplicemente cambiando il parametro di input
corrispondente.
Tabella &in._var
La tabella &in._var serve a descrivere le colonne presenti nel file di
input e a definirne formati e utilizzi.
La struttura é direttamente derivata dal file di output della proc contents di sas.
In particolare le colonne che devono essere presenti sono:
- name, che indica il nome della colonna nel file di input (variabile carattere);
- type, colonna numerica che indica il tipo di variabile della colonna
(codificato come 1 se numerico e 2 se carattere);
- format, colonna carattere che indica la formattazione del campo (se presente);
- formatl, colonna numerica che indica la lunghezza del campo
(valorizzata a 0 se la colonna non presenta uno specifico formato);
- formatd, colonna numerica che indica il numero di decimali del campo
(valorizzata a 0 se la colonna non presenta uno specifico formato o numeri decimali);
- utilizzo, che indica come la procedura utilizzerà la variabile
(campo carattere).
L'ultima colonna, che é l'unica a non essere direttamente derivata dalla proc contents,
può assumere i valori descritti nella pagina relativa alla
tipologia di variabili accettate.
Se il parametro di input assume il valore di default a,
tale tabella avrà nome a_var.
Un classico esempio (stima del peso di una persona in base all'altezza e all'età)
di tale tabella può essere il seguente:
name |
type |
format |
formatl |
formatd |
utilizzo |
nome |
2 |
|
0 |
0 |
i |
cognome |
2 |
|
0 |
0 |
i |
altezza |
1 |
|
5 |
0 |
x |
data_nascita |
1 |
DATE |
9 |
0 |
x |
peso |
1 |
|
1 |
0 |
r |
Tabella &in._cond
La tabella &in._cond serve a definire classi particolari all'interno
delle variabili che sono oggetto di una classizzazione da parte della procedura
(variabili K, O e X).
Nello specifico le colonne della tabella (tutte di tipo carattere) sono le seguenti:
- variabile, che identifica la colonna oggetto di classizzazione;
- condizione, che identifica la condizione (in formato sas) che definirà la classe;
- classe, che definisce il nome della nuova classe;
Se il parametro di input assume il valore di default a,
tale tabella avrà nome a_cond.
Riprendendo l'esempio precedente, una tabella tipo potrebbe essere la seguente:
variabile |
condizione |
classe |
altezza |
altezza <= 100 and altezza ^= . |
Inferiore a 100 |
altezza |
altezza >= 200 |
Superiore a 200 |
... |
... |
... |
data_nascita |
data_nascita <= '01JAN1900'd |
Data Mancante |
Tabella &in._esccon
La tabella &in._esccon ha lo scopo di permettere all'utente
di forzare il programma a considerare come correlate due variabili: come
conseguenza diretta la procedura attuerà una politica di esclusione
condizionale delle variabili coinvolte.
Riprendendo l'esempio precedente, se volessimo fare in modo che le variabili
altezza e data_nascita non possano entrare contemporaneamente
nel modello, inseriremmo nella tabella la riga seguente:
var1 |
var2 |
altezza |
data_nascita |
Questo implicherebbe che, nel caso entrasse nel modello la variabile altezza,
la variabile data_nascita sarebbe esclusa dalla lista delle potenziali variabili
nei passi successivi (e viceversa).
Se il parametro di input assume il valore di default a,
tale tabella avrà nome a_esccon.
Come visto nell'esempio, le due colonne (di tipo carattere) della tabella
sono le seguenti:
- var1, che identifica la prima colonna correlata;
- var2, che identifica la seconda colonna correlata
Tabella &passi
La tabella &passi (definita dall'analogo
parametro di input) indica al programma
le variabili da preferire nei tentativi di inserimento in sequenza all'interno
del modello.
Tale tabella non é obbligatoria nell'input: se il macro-parametro
passi
risulta valorizzato a NIENTE (valore di default) la procedura non
utilizzerà alcuna tabella di "variabili preferite".
Le colonne della tabella sono le seguenti:
- passo, variabile numerica che identifica l'ordine di priorità;
- modello, che indica il modello che dovrebbe risultare al termine dello
specifico passo;
Questa struttura deriva direttamente dalla tabella &in._passi
di output: in questo modo é possibile partire direttamente da un output preesistente
per generare un nuovo modello.
Riprendendo l'esempio precedente, una tabella tipo potrebbe essere la seguente:
passo |
modello |
1 |
cl_altezza |
2 |
cl_altezza cl_data_nascita |
In questo caso il programma proverebbe ad inserire la variabile cl_altezza (derivata dalla variabile
altezza, come descritto qui) nel primo passo di regressione e,
successivamente, la variabile cl_data_nascita (derivata da data_nascita).
Solo a questo punto il processo prenderebbe in considerazione le altre variabili presenti del dataset di input.
Per un esempio pratico di utilizzo delle tabelle qui descritte, si faccia riferimento
all'apposita pagina; in particolare, se si hanno dubbi sulla tabella &passi,
si veda il passaggio specifico.
Data creazione: 17 Settembre 2010
Data ultima modifica: 27 Gennaio 2013