Nick: ToninoScardi Oggetto: re:OT Data: 10/7/2007 9.42.48 Visite: 55
è stato detto: Dividere i dati in training set e training test set
questa è la prima operazione delicata. Aldilà delle percentuali (es 80/20 o 75/25) è importante mantenere le statistiche dei campioni. Ti faccio un esempio: devi discriminare le italiane dalle svedesi: hai un insieme di 100 italiane (80 more e 20 bionde) hai un insieme di 100 svedesi (80 bionde e 20 more) se dividi Training: 80 e Test: 20 se li prendi random potresti acchiappare nel training solo italiane more (quindi il sistema impara che in italia non ci sono bionde) e solo svedesi bionde (quindi il sistema impara che in svezia non ci sono moore). Quindi fai media e varianza per ogni feature, definisci una tolleranza (es 10^-2 o 10^-3) e dividi in modo che training e test conservino media e varianza per ogni feature con tolleranza < tol scelta.
|