hakank.blogg: Recension av Gordon Linoff & Michael Berry: 'Mining the Web'

« NetLogo version 2.0 samt lite Dennett | Main | Mathematics could stabilize peace treaties »

december 16, 2003

Recension av Gordon Linoff & Michael Berry: 'Mining the Web'

Bokens fulla titel är Mining the Web: Transforming Customer Data, skriven av Gordon Linoff och Michael Berry.

(Varning för förväxling: Detta är inte samma bok som Soumen Chakrabarti's Mining the Web: Analysis of Hypertext and Semi Structured Data. Denna bok kommer jag förhoppningsvis att recensera inom en snar framtid.)

Linoff och Berrys bok kom ut i slutet av 2001 då en hel del av IT-hysterin hade lagt sig. Attacken i New York den 11 september 2001 nämns i förordet som något som precis hänt, och Enron-skandalen kommenteras i ett avsnitt ("när boken skulle tryckas ...") där Enron ges som ett exempel på en bra affärsidé. Så man kan anta att författarnas bild av e-commerce, den nya ekonomin, one-to-one-marketing etc, förändrades en hel del under skrivandet av boken. Några av de mer affärsinriktade böcker och artiklar som skrevs om den nya ekonomin kring år 2000 är nästan pinsamma att läsa nu när man vet hur det gick. Denna bok lider dock mycket lite av detta, utan ger som värst ett intryck att författarna beskriver ett ämne som de uppriktigt tror på och vill göra mer känt. Naturligtvis är det ett sätt för dem att även indirekt tjäna mer pengar eftersom de själv arbetar som data mining-analyser, med inriktning att att analysera och förbättra ett företags relationer till sina kunder.

Jag köpte denna bok strax efter den kom ut, men den har stått i stort sett oläst i bokhyllan sedan dess. Häromdagen bläddrade jag i den för att leta reda på en uppgift men hittade - i stället - kapitel 8 "Knowing when to Worry: Hazard Functions and Survival Analysis in Marketing". Survival analysis har jag tidigare kikat på i samband med statistisk analys, och blev nyfiken hur det används i samband med marketing. Det var ett intressant kapitel, så jag beslöt att läsa hela boken från pärm till pärm.

Eftersom jag urspungligen köpte boken för titelns "mining" blev jag lite besviken på att det var ganska lite direkt om data mining (se dock nedan), men blev å andra sidan mycket positivt överraskad av de intressanta diskussionerna om olika typer av affärsmodeller som finns eller kan komma att finnas på webben. Det görs även jämförelser mellan de olika modellerna och dess respektive styrkor och svagheter. Även icke-e-affärsmodeller förklaras, t.ex. traditionella snail-postorderföretag. Man går även igenom sådant som att sälja produkter som måste förpackas och sedan distribueras med bil (UPS nämns som exempel), annonsering på webben (t.ex. doubleclick.com) och hur modellerna för sådana verksamheter kan se ut.

En bra sak är att man oftast lugnt och sansat går igenom de olika aktörerna och diskuterar dels deras roller och dels var de har att tjäna på att vara med i spelet. I avsnittet om marknadsplatser delas olika system in i olika segment som analyseras var för sig. Det finns ett ganska långt avsnitt om eBay och varför de lyckats och varför en icke namn-given konkurrent misslyckades. De företag/sajter som tas upp är för det mesta mycket kända, även om det i mer avgränsade domäner förekommer namn som var okända för mig.

Det var skoj att läsa författarnas diskussion och kritik av Napster och liknande modeller, där de också skisserar en mer kommersiellt gångbar lösning. Hela detta kapitel, som ramades in av hur man ska sälja "produktlöst" på nätet (t.ex. musik eller virtuella tjänster), var enligt min mening ett av de mest intressanta.

De avslutande kapitlen är mer tekniska än de föregående, t.ex. det ovan nämnda kapitlet där man använder survival analysis för att lista ut hur trogna (eller otrogna) kunderna är. Andra kapitel diskuterar "cohort analysis" och kalkylering av kundvärde. Det finns t.o.m. lite SQL-kod i några av dessa avsnitt. I boken blandas alltså både översiktliga diskussionen och tekniska detaljer. I ett av de första kapitlen beskrivs hur cookies fungerar för att man ska använda dessa för avancerad annonsering eller up/down/cross-sell.

Författarna har gjort en hel del data mining-analyser och delar med sig av sin erfarenheter med en massa tips och varningar genom hela boken. Det sista kapitlet innehåller en fallstudie där man bland annat nämner en del fallgropar i sådana projekt. Det är alltså inte bara en dans på rosor, utan även törnen i form av t.ex. dålig data eller "politik" i organisationerna.

Beskrivningarna av själva data mining-teknikerna är lite lustigt insprängda i texten om affärsmodellerna, och det kan ge ett lite rörigt intryck. Trots detta tycker jag att boken lyckas göra kopplingarna mellan marknad och teknik på ett mestadels bra sätt. Det är en stor fördel att även läsa om en teknik sett i ett mer realistiskt sammanhang än bara algoritmerna rakt upp och ned (som i många av de mer tekniskt inklinerade böckerna om data mining). Några höjdpunkter här är deras genomgång av rekommendationssystem samt hur man skapar olika kundsegment med hjälp av klustringstekniker. I samband med detta kan nämnas att det är mycket få matematiska formler i boken, och det blir tyvärr lite konstigt när de förklarar statistiska begrepp som standardavvikelse med en "pratfversion".

För en bättre och mer systematisk genomgång av teknikerna, men fortfarande med ett marknadsperspektiv, skulle jag dock hellre vilja rekommendera författarnas tidigare bok Data Mining Techniques: For Marketing, Sales, and Customer Support (från 1997 så den är lite gammal med definitivt läsbar). Där är förklaras mer i detalj hur man bör bedriva data mining-projekt. De har också skrivit Mastering Data Mining: The Art and Science of Customer Relationship Management. Även den beskriver tekniker och metoder, men dess främsta fördel är de många fallstudierna.

"Mining the Web" innehåller mycket intressant information men tyvärr ges alldeles för få referenser till andra böcker och artiklar, och det finns naturligtvis ingen litteraturlista. Jag hittade sammanlagt 4 böcker som refererades i boken, varav två var till författarnas egna böcker som nämndes ovan. De övriga två böckerna var Dorian Pyles utmärkta Data Preparation for Data Mining vilken rekommenderas, samt The Loyality Effect: The Hidden Force Behind Growth, Profits, and Lasting Value (som jag har, men inte läst). På författarnas sajt Data Miners finns det en sida med Suggested books.

Slutord:
För mig var den stora behållningen av denna bok den utförliga genomgången av olika typer av affärsmodeller där man kan utnyttja webbens speciella förutsättningar. Både existerande system och funderingar kring framtida system diskuteras. Beskrivningarna av data mining-teknikerna gav mig inte så något nytt, mer än möjligen att se dem i konkreta affärssammanhang och med mer "kött på benen". Det antyds att målgruppen för boken är blivande databrytare (data miners) men jag anser att det är alldeles för lite hands on-information för att denna bok ensam ska räcka till för detta.

Se även referenserna i slutet på Recension av Jiawei Han & Micheline Kamber: 'Data Mining - Concepts and Techniques'.

Posted by hakank at december 16, 2003 01:56 FM Posted to Machine learning/data mining

hakank.blogg

Anteckningar från en PopSci-junkie. Av Håkan Kjellerstrand (hakank@gmail.com).

december 16, 2003

Recension av Gordon Linoff & Michael Berry: 'Mining the Web'