Recension av Jesus Menas "Data Mining Your Website"

Detta är en recension skriven kring 7 Apr 2000 av Håkan Kjellerstrand.

Recension av
Jesus Menas "Data Mining Your Website"
ISBN: 1555582222

Boklänkar:

Denna bok är den enda bok jag (vid recensionens skrivande) läst som direkt och uttryckligen behandlar kopplingen data mining och just webb-baserade företag och den är aktuell (tryckåret är 1999). Tyvärr har boken vissa problem med struktur, men trots det vill jag rekommendera den till alla som vill läsa mer om data mining för webben. Vill man läsa mer övergripande om data mining utan direkt inriktning på webben finns det andra bättre böcker, t.ex. "Data Mining Techniques for Marketing, Sales, and Customer Support" av Berry och Linoff som är några år gammal men bra ändå. Se vidare om denna bok på amazon.com

En kort kommentar om min bakgrund i ämnet: Jag har länge varit intresserad av machine learning och data mining, speciellt algoritmerna som finns bakom. De flesta böcker jag läst har alltså varit av mer teknisk natur, vilket innebär att jag måhända inte tillhör bokens direkta målgrupp.

Lite om data mining

En varning: "data mining" är ett buzzword och det finns mycket hype och myter kring begreppet, som jag inte tänker redogöra här. (Och än så länge använder jag termen "data mining" men "datavaskning" är kanske korrekt svenska om något år.)

Data mining är samlingsnamnet på en speficik process och vissa tekniker som används för att extrahera ("vaska fram") information från stora (ofta mycket stora) datasamligar, filer eller databaser. Exempel är kundordrar, sökstatistik, besöksstatistik i webblog-filer etc.

Man kan med en mycket grov förenkling säga att de mer traditionella teknikerna, såsom statistisk analys resp "traditionell" dataanalys för databaser (t.ex. OLAP), kräver att man vet vad man vill ha gör direkta "frågor", dvs att man själv funderar ut de kopplingar mellan fält/attribut som kan vara intressanta och som sedan testas.

I data mining däremot "listar systemet själv" ut samband, mönster, klassifikationer etc. Det är en process där man iterativt försöker att komma fram till något "intressant" utifrån ett generellt syfte vad man vill veta. Här är alltså inriktningen mer förutsättningslös: man vaskar och se om det kommer fram någon guldklimp; gör det inte det så provar man någon annan approach.

Flertalet tekniker som används i data mining kommer ursprungligen från AI-världen ("artificiell intelligens") såsom neurala nätverk, genetiska algoritmer, beslutsträd, associativa regler, men även från statistik analys såsom klustring, bayseask analys, visualisering etc.

Personligen anser jag att data mining är viktigt att kunna och att inkorporera i stora kundintensiva system. I de e-handelsystem som byggs för framtiden måste det finnas möjlighet att göra analyser av köpare/besökare, deras köp och beteende. Denna analys måste vara mycket mer avancerad än t.ex. enklare websidor som visar webb-statistiken över hur många som besökt en viss sida, vilka domäner besökarna kommer från eller sammanfattning över sålda produkter för en viss period. (Och jag anser också att OLAP etc inte är tillräckligt "kreativt" för att få fram ny och intressanta samband.)

Data mining är också en viktig del i moderna marknadsstrategier, såsom one-to-one marketing eller CRM (Customer Relationship Management/Marketing), som i princip innebär att man analyserar den specifika kundens behov och beteende och agerar efter detta.

Själva bokrecensionen

Boken 'Data Mining your Website" har flera kapitel som beskriver data mining-processen, de olika teknikerna som används samt och de system som finns att köpa (de är ofta rackarns dyra!). Syftet med boken är att ge en överblick vad man ska tänka på när man ska analysera den data som finns främst i webb-baserade system (e-commerce, e-retailing, e-whatever). (Det finns andra böcker som listar upp och kommenterar flertalet system för data mining, t.ex. andra upplagan av Robert Groths 'Data Mining'.)

Författaren har arbetat med flera olika data mining-projekt så han verkar ha mycket erfarenhet av det han skriver om. Det finns många intressanta synpunkter och poänger som är nyttiga för oss e-handelsbyggare. Den primära målgruppen för boken verkar vara en analytiker som ska analysera sitt företag, men det görs även djupdykningar som även är intressanta för en större målgrupp, t.ex. den lite mer djuplodande beskrivningen av cookies, webbloggfiler etc (det är dock inte speciellt upphetsande om man utvecklat webb-program ett tag).

Tack och lov är boken nästan helt fri från de floskler och termer som är vanliga i mer populärt hållna artiklar om ämnet. (Han skriver i några avsnitt rätt flummigt om den nya ekonomin, men det förlåter jag honom för.:-)

Avsnittet där data mining jämförs med andra typer av dataanalys (statistisk analys, OLAP, webstatistik) tillhör de bättre där man får en god inblick vilket område fältet data mining "mutar in".

Det är också bra är att processen diskuteras noga. Själva processen är en mycket viktigt del i arbetet: data mining är inte bara att pumpa in data i ett system och så vips kommer det fram information fix och färdig att använda; det krävs mycket analys och förarbete och sedan handling innan det ger något resultat. Författaren beskriver denna process i den verklighet som finns för det webb-baserade företaget (företag som säljer eller verkar via webben). Författaren beskriver utförligt 10 punkter som är bra att ha med sig som checklista.

En annan mycket viktig del i data mining är personlig integritet (privacy): som kund måste jag lita på att sajten inte missbrukar information som finns om mig eller spammar ner min mailbox med erbjudanden etc. Hur man gör detta på ett bra sätt en svår balansgång som boken endast tar upp översiktigt, och jag saknar en djupare diskussion.

Och nu efter att ha varit mestadels snäll kommer kritiken.

Kritik

Boken har en vad jag skulle vilja beskriva som "kreativ struktur": den är rörig och har flera bilder som förvirrar mer än förklarar, speciellt i det viktiga inledningskapitlet. Så ha tålamod här!

Ibland känns det som om författaren skrivit på flera inledningskapitel (eller sammanfattningar) samtidigt, eftersom flera begrepp förklaras nästan likadant i flera kapitel: allför många gånger sägs hur viktig det är att använda data mining för att klara sig i framtiden. Kanske kan man se det som ett pedagogiskt grepp, men själv blir jag irriterad. Tack och lov är flera kapitel så intressanta att man helt glömmer bort detta.

Symptomatisk är också att boken saknar litteraturreferenslista, vilket sänker seriositetskänslan en del. Dock finns ett index, så man lever inte helt i dimman om man vill leta reda på något.

Sammanfattning

Nå, uppfylldes min läsförväntan? Ja, jag har blivit rätt mycket klokare vad gäller vilka system som finns och vad de kan göra för webb-baserade system. Men det räcker dock inte för att avgöra vilket system man bör köpa för att börja datavaska "på riktigt". Det krävs en hel del mer research; boken är dock en bra början.

Vidare läsning

Jag anser alltså inte det är tillräckligt att nöja sig att endast läsa endast denna bok, utan man bör komplettera med andra mer stringenta böcker om olika tekniker fördel etc, t.ex. den ovan nämda "Data Mining Techniques ..." eller, för den mer teknikinriktade en av biblarna:
Back to my homepage
created by Hakan Kjellerstrand hakank@bonetmail.com