1R (One Rule)
En grundregel vid analyser är att börja enkelt!
Holte visade att denna metod gav förvånadsvärt bra resultat
i många fall jämfört med mer komplicerade metoder (C4.5).
Exempel:
petallength:
< 2.45 > Iris-setosa
< 4.75 > Iris-versicolor
>= 4.75 > Iris-virginica
beslutsträd (decision trees)
Visar resultatet av analysen i trädform.
- Id3/C4.5 (Quinlan)
- CART (Freidman et. al)
Exempel på ett beslutsträd:
beslutsregler (decision lists)
Visar som en samlig regler, antingen krävs att de läses i ordning
(decision lists), eller så kan de läses isolerade ("nuggets")
- PART (från C4.5/j48-träd)
- PRISM
Exempel:
If astigmatism = no
and tear-prod-rate = normal
and spectacle-prescrip = hypermetrope then soft
If astigmatism = no
and tear-prod-rate = normal
and age = young then soft
If age = pre-presbyopic
and astigmatism = no
and tear-prod-rate = normal then soft
....
regression
- standard statistisk regressionsanalys
(Kommer inte att prata om detta.)
-
Bayesiansk analys
Utgår från datamängdens distribution för att förutsäga hur nya
instanser ska klassificeras.
Principiellt enkel.
-
klustring
Används i unsupervised för att få fram likheter i data.
Kan användas för att se grupperingar, eller att förutsäga framtida
instanser.
- k-neighbour
Leta rätt på vilka instanser som liknar varandra mest ("datagrannar").
Kan först göra klustring, vilket ger en klassifikation, sedan
beslutsträd/-regler för att förstå.
Exempel på klustring av iris-data:
(Bilden skapad i R.)
-
associationsregler
Upptäcka (överraskande) samband mellan de olika attributen/klassen.
Inte endast klassifikationsattributet.
- "basket case analysis" (från detaljhandel etc)
- Apriori (känd algoritm)
"På fredag eftermiddag köper många blöjor och öl".
Problem: Inte alltid självklart vad man ska göra med denna information!
Exempel:
1. humidity=normal windy=FALSE 4 ==> play=yes 4 conf:(1)
2. temperature=cool 4 ==> humidity=normal 4 conf:(1)
3. outlook=overcast 4 ==> play=yes 4 conf:(1)
4. temperature=cool play=yes 3 ==> humidity=normal 3 conf:(1)
5. outlook=rainy windy=FALSE 3 ==> play=yes 3 conf:(1)
path analysis
T.ex. webblogg-analys.
- Vilka vägar tenderar webbanvändare att surfa?
- Finns det klustertendenser?
- Vilka sidor besöks mest, minst?
- Finns tendenser över tid på dygn, vecka, etc?
collaborative filtering
"Rekommendationssystem".
Generellt begrepp för flera olika tekniker, t.ex. klustring.
"Den som köpte den här boken köpte också dessa".
Påminner om sökning efter "samma dokument".
Svarta box-tekniker
Endast input -> output.
Problemet med dessa "magiska" svartboxtekniker är att man inte får
reda på strukturen (förklaringsmodell).
- neurala nätverk
Mycket vanligt och populärt. Har skrivits mycket om detta.
Finns möjligheter att få fram regler från vikterna (svårtytt).
Finns i flera system, men svårtolkat och inte statistiskt vederhäftigt.
- genetiska algoritmer
Ses oftast mer som en optimeringsteknik snarare
än en "ren" Data mining/Machine learning-metod.
-
Inductive Logic Programming
Analysera "logiska" begrepp eller strukturer (ofta rekursiva), t.ex.
släktskap, matematiska funktioner etc.
Ofta i samband med traditionell logikprogrammering (t.ex. Prolog).
Nämns sällan i DM-litteraturen (däremot i machine learning)
Inte lätt att skala med nuvarande algoritmer, inte helt lätt
att hitta användsningsområden.
Kanske semantic web kan innebära en boom för ILP!?
Latent Semantic Analysis
Ett (matematiskt) enkelt sätt att se dolda (latenta) samband mellan
t.ex. ord i olika dokument.
Använder SVD.
Sekvens-/tidsserieanalyser
- aktier (ett bra incitament för forskning!)
- mer "vetenskaplig" data (t.ex. fysiska eller biologiska fenomen)
- fourier, wavelets (signalhantering överhuvudtaget)
- fraktalanalys
Feature selection
Används för att reducera attributen; attributmängden blir mer lätthanterlig,
och för att se vilka attribut som är viktigast.
T.ex. feature selection med t.ex. en 1/10 av attributen
och sedan beslutsträd på detta urval för att undersöka strukturen.
Ofta ger det (tillräckligt) god kunskap för att kunna gå vidare.
Ibland nödvändigt av tids/utrymmesskäl.
Multivariat analys
En statistisk term för att täcka in en hel del av avancerade
statistiska tekniker som arbetar med flera attribut.
- faktoranalys, principal components
- beslutsträd (CART)
- multiple regression
- etc.