AutoReg
Scelta del numero di classi per le variabili da classizzare
Nell'utilizzo delle variabili di tipo X e O
l'utente deve essere consapevole del carico computazionale che la macchina subisce al variare dei parametri.
Nel caso specifico il parametro che influisce maggiormente é la macro variabile
passo: tale valore dato in input al processo esprime la grandezza (in termini
percentuali) delle singole classi generate.
Il valore di default della macro variabile di input é 10; questo significa che il programma cercherà
di generare classi contenenti il 10% della popolazione: a meno di particolari concentrazioni di valori, la nuova
variabile avrà presumibilmente 9-11 modalità differenti.
Poiché l'algoritmo utilizza queste classi prima singolarmente e poi tentando di raggrupparle, possiamo
provare a stimare il numero di potenziali regressioni al variare del numero di classi
(calcoleremo tale valore come il numero di possibili raggruppamenti delle classi secondo il metodo stepwise
fino ad ottenere un'unico insieme, escludendo eventuali passi di decompattazione/backwise).
Se, per esempio, avessimo una unica classe (cosa quantomeno spiacevole dal punto di vista statistico), la procedura
effettuerebbe un'unica regressione, visto che non troverebbe classi da accorpare o scorporare.
Se le classi fossero due (a e b), avremmo due regressioni (la regressione a-b
con le due classi separate e la regressione a-a con le due classi compresse in unico insieme).
Se decidessimo di dividere la variabile in tre classi, il numero di potenziali regressioni diventerebbero quattro
(a-b-c / a-a-c / a-b-b / a-a-a); sette
(a-b-c-d / a-a-c-d / a-b-b-d / a-b-c-c / a-a-a-d / a-a-c-c / a-a-a-a)
sarebbero le potenziali regressioni in caso di 4 classi (parametro di input passo pari a 25-30).
Continuando ad aumentare il numero di modalità, aumenta il numero di potenziali regressioni;
se pensiamo a quest'ultimo come funzione del numero di classi, possiamo notare come esso segua un
certo andamento: f(n) = f(n-1) + (n-1), ovvero il numero di potenziali regressioni per una
variabile di n classi é pari al numero di potenziali regressioni per una variabile di
(n-1) classi più (n-1).
Nonostante la crescita percentuale diminuisca all'aumentare del numero di classi, possiamo notare come
già per il valore di default della variabile avremo 46 regressioni per ogni variabile
O o X ad
ogni passo della procedura.
Al fine di avere un'idea più completa dei numeri sopra esposti, inseriamo qui sotto una tabella
riassuntiva, con l'unico scopo di rendere consapevole l'utente del differente carico di lavoro al
variare del numero di classi scelte.
Num.Classi | Val.Passo | Potenz.Reg. |
1 | 100 | 1 |
2 | 50 | 2 |
3 | 34 | 4 |
4 | 25 | 7 |
5 | 20 | 11 |
6 | 17 | 16 |
7 | 15 | 22 |
8 | 13 | 29 |
9 | 11 | 37 |
10 | 10 | 46 |
11 | 9 | 56 |
12 | 8 | 67 |
13 | 8 | 79 |
14 | 7 | 92 |
15 | 7 | 106 |
16 | 6 | 121 |
17 | 6 | 137 |
18 | 6 | 154 |
19 | 5 | 172 |
20 | 5 | 191 |
Data creazione: 17 Settembre 2010
Data ultima modifica: 27 Gennaio 2013