För en statistiker är/var "data mining" att desperat försöka
vaska fram något intressant korn ur en datamängd (det går nästan alltid).
Fortfarande gäller SISU: Skit In Skit Ut!
Det finns en fördom att man inte behöver verifiera sina DM-resultat.
Data warehouse ses ofta som en förutsättning för data mining
Varför pratar "alla" om det nuförtiden?
Kombination av (åtminstone) följande faktorer:
snabbare datorer som möjliggör teknikerna
bättre algoritmer
databashanterare som klarar mycket stora datamändger
affärsmässigt behov av att analysera större och större mängder data
tillgång till stora datamängder
webben, CRM, One-To-One-Relationship, Nya Ekonomin
Troligen har webbens utveckling bidragit en stor del, eftersom det
gjorde det tydligt för många vad data mining kan göra:
personlig rekommendation i realtid!
Liksom den gigantiska mängd data som webben genererar:
en förfärligt massa användare som är kända på ett
eller annat sätt
webbloggar, sökningar
Exempel på data mining
En del (tyngre) standardexempel
telekommunikation: analys av vem som slutar sitt abonnemang
banker: ska en kund få kredit eller inte
aktiekurser
rekommendationer via webben (Firefly, Amazons rekommenderare)
identifiera oljeläckage
Vad är inte Data Mining?
Frågan är ett härke och avgränsningen är möjligen endast av
akademiskt intresse.
Allt det som tidigare kallades för beslutsstödssystem, statistikprogram
etc kallas nu för Data Mining.
Verktyg, tekniker etc som inte är data mining (i alla fall enligt machine
learning-folket):
OLAP: Inte tillräckligt mycket automatik i framdragandet av slutsatserna
Traditionell statistik: Kräver att man skapar omfattande hypoteser
och/eller designade experiment
CRM: Traditionella kundvårdssystem genererar inga modeller automatiskt
Visualisering: Ingen automatik
Dock innehåller Data Mining mycket ideer från dessa områden.
Ideer från de olika disciplinerna
AI
machine learning: läran om hur man lär datorer att "dra slutsatser"
teorier om denna typ av lärande