Jesus Menas "Data Mining Your Website" ISBN: 1555582222
Boklänkar:
Denna bok är den enda bok jag (vid recensionens skrivande) läst som direkt och uttryckligen behandlar kopplingen data mining och just webb-baserade företag och den är aktuell (tryckåret är 1999). Tyvärr har boken vissa problem med struktur, men trots det vill jag rekommendera den till alla som vill läsa mer om data mining för webben. Vill man läsa mer övergripande om data mining utan direkt inriktning på webben finns det andra bättre böcker, t.ex. "Data Mining Techniques for Marketing, Sales, and Customer Support" av Berry och Linoff som är några år gammal men bra ändå. Se vidare om denna bok på amazon.com
En kort kommentar om min bakgrund i ämnet: Jag har länge varit intresserad av machine learning och data mining, speciellt algoritmerna som finns bakom. De flesta böcker jag läst har alltså varit av mer teknisk natur, vilket innebär att jag måhända inte tillhör bokens direkta målgrupp.
Data mining är samlingsnamnet på en speficik process och vissa tekniker som används för att extrahera ("vaska fram") information från stora (ofta mycket stora) datasamligar, filer eller databaser. Exempel är kundordrar, sökstatistik, besöksstatistik i webblog-filer etc.
Man kan med en mycket grov förenkling säga att de mer traditionella teknikerna, såsom statistisk analys resp "traditionell" dataanalys för databaser (t.ex. OLAP), kräver att man vet vad man vill ha gör direkta "frågor", dvs att man själv funderar ut de kopplingar mellan fält/attribut som kan vara intressanta och som sedan testas.
I data mining däremot "listar systemet själv" ut samband, mönster, klassifikationer etc. Det är en process där man iterativt försöker att komma fram till något "intressant" utifrån ett generellt syfte vad man vill veta. Här är alltså inriktningen mer förutsättningslös: man vaskar och se om det kommer fram någon guldklimp; gör det inte det så provar man någon annan approach.
Flertalet tekniker som används i data mining kommer ursprungligen från AI-världen ("artificiell intelligens") såsom neurala nätverk, genetiska algoritmer, beslutsträd, associativa regler, men även från statistik analys såsom klustring, bayseask analys, visualisering etc.
Personligen anser jag att data mining är viktigt att kunna och att inkorporera i stora kundintensiva system. I de e-handelsystem som byggs för framtiden måste det finnas möjlighet att göra analyser av köpare/besökare, deras köp och beteende. Denna analys måste vara mycket mer avancerad än t.ex. enklare websidor som visar webb-statistiken över hur många som besökt en viss sida, vilka domäner besökarna kommer från eller sammanfattning över sålda produkter för en viss period. (Och jag anser också att OLAP etc inte är tillräckligt "kreativt" för att få fram ny och intressanta samband.)
Data mining är också en viktig del i moderna marknadsstrategier, såsom one-to-one marketing eller CRM (Customer Relationship Management/Marketing), som i princip innebär att man analyserar den specifika kundens behov och beteende och agerar efter detta.
Författaren har arbetat med flera olika data mining-projekt så han verkar ha mycket erfarenhet av det han skriver om. Det finns många intressanta synpunkter och poänger som är nyttiga för oss e-handelsbyggare. Den primära målgruppen för boken verkar vara en analytiker som ska analysera sitt företag, men det görs även djupdykningar som även är intressanta för en större målgrupp, t.ex. den lite mer djuplodande beskrivningen av cookies, webbloggfiler etc (det är dock inte speciellt upphetsande om man utvecklat webb-program ett tag).
Tack och lov är boken nästan helt fri från de floskler och termer som är vanliga i mer populärt hållna artiklar om ämnet. (Han skriver i några avsnitt rätt flummigt om den nya ekonomin, men det förlåter jag honom för.:-)
Avsnittet där data mining jämförs med andra typer av dataanalys (statistisk analys, OLAP, webstatistik) tillhör de bättre där man får en god inblick vilket område fältet data mining "mutar in".
Det är också bra är att processen diskuteras noga. Själva processen är en mycket viktigt del i arbetet: data mining är inte bara att pumpa in data i ett system och så vips kommer det fram information fix och färdig att använda; det krävs mycket analys och förarbete och sedan handling innan det ger något resultat. Författaren beskriver denna process i den verklighet som finns för det webb-baserade företaget (företag som säljer eller verkar via webben). Författaren beskriver utförligt 10 punkter som är bra att ha med sig som checklista.
En annan mycket viktig del i data mining är personlig integritet (privacy): som kund måste jag lita på att sajten inte missbrukar information som finns om mig eller spammar ner min mailbox med erbjudanden etc. Hur man gör detta på ett bra sätt en svår balansgång som boken endast tar upp översiktigt, och jag saknar en djupare diskussion.
Och nu efter att ha varit mestadels snäll kommer kritiken.
Ibland känns det som om författaren skrivit på flera inledningskapitel (eller sammanfattningar) samtidigt, eftersom flera begrepp förklaras nästan likadant i flera kapitel: allför många gånger sägs hur viktig det är att använda data mining för att klara sig i framtiden. Kanske kan man se det som ett pedagogiskt grepp, men själv blir jag irriterad. Tack och lov är flera kapitel så intressanta att man helt glömmer bort detta.
Symptomatisk är också att boken saknar litteraturreferenslista, vilket sänker seriositetskänslan en del. Dock finns ett index, så man lever inte helt i dimman om man vill leta reda på något.