Innehåll
Data mining-processen
Detta är en mycket viktigt del i Data Mining.
Kräver oftast data warehouse.
Speciell processmodell för projekten (CRISP-DM).
Datapreparering
Nämnas kan dock datapreparering. Till datapreparering hör:
- grundläggande analys av data
- outliers
- missing data
- felaktig data
- statistisk analys, t.ex. beroenden mellan olika attribut
- bortfiltering av irrelevanta fält (attribut)
- diskretisering av data
Dataprepareringen är ofta en mycket stor del i det tekniska arbetet.
Vissa säger att upp till 80% av projekttiden går åt till att preparera data,
resten (20%) går åt till modellskapande och analyser.
Kontrollera:
- att fält i olika tabeller/filer heter samma sak
- att alla värden för ett attribut har samma betydelse, har samma kodning
created by
hakank