AutoReg

Scelta del numero di classi per le variabili da classizzare

Nell'utilizzo delle variabili di tipo X e O l'utente deve essere consapevole del carico computazionale che la macchina subisce al variare dei parametri.

Nel caso specifico il parametro che influisce maggiormente é la macro variabile passo: tale valore dato in input al processo esprime la grandezza (in termini percentuali) delle singole classi generate.
Il valore di default della macro variabile di input é 10; questo significa che il programma cercherà di generare classi contenenti il 10% della popolazione: a meno di particolari concentrazioni di valori, la nuova variabile avrà presumibilmente 9-11 modalità differenti.

Poiché l'algoritmo utilizza queste classi prima singolarmente e poi tentando di raggrupparle, possiamo provare a stimare il numero di potenziali regressioni al variare del numero di classi (calcoleremo tale valore come il numero di possibili raggruppamenti delle classi secondo il metodo stepwise fino ad ottenere un'unico insieme, escludendo eventuali passi di decompattazione/backwise).

Se, per esempio, avessimo una unica classe (cosa quantomeno spiacevole dal punto di vista statistico), la procedura effettuerebbe un'unica regressione, visto che non troverebbe classi da accorpare o scorporare. Se le classi fossero due (a e b), avremmo due regressioni (la regressione a-b con le due classi separate e la regressione a-a con le due classi compresse in unico insieme).
Se decidessimo di dividere la variabile in tre classi, il numero di potenziali regressioni diventerebbero quattro (a-b-c / a-a-c / a-b-b / a-a-a); sette (a-b-c-d / a-a-c-d / a-b-b-d / a-b-c-c / a-a-a-d / a-a-c-c / a-a-a-a) sarebbero le potenziali regressioni in caso di 4 classi (parametro di input passo pari a 25-30).

Continuando ad aumentare il numero di modalità, aumenta il numero di potenziali regressioni; se pensiamo a quest'ultimo come funzione del numero di classi, possiamo notare come esso segua un certo andamento: f(n) = f(n-1) + (n-1), ovvero il numero di potenziali regressioni per una variabile di n classi é pari al numero di potenziali regressioni per una variabile di (n-1) classi più (n-1).

Nonostante la crescita percentuale diminuisca all'aumentare del numero di classi, possiamo notare come già per il valore di default della variabile avremo 46 regressioni per ogni variabile O o X ad ogni passo della procedura.

Al fine di avere un'idea più completa dei numeri sopra esposti, inseriamo qui sotto una tabella riassuntiva, con l'unico scopo di rendere consapevole l'utente del differente carico di lavoro al variare del numero di classi scelte.

Num.Classi Val.Passo Potenz.Reg.
1 100 1
2 50 2
3 34 4
4 25 7
5 20 11
6 17 16
7 15 22
8 13 29
9 11 37
10 10 46
11 9 56
12 8 67
13 8 79
14 7 92
15 7 106
16 6 121
17 6 137
18 6 154
19 5 172
20 5 191




  Indice principale     Indice dei Programmi     Indice dell'Autoreg  
Go to English version

Data creazione: 17 Settembre 2010
Data ultima modifica: 27 Gennaio 2013