« Bloggflagga | Main | Vilken boll är rundast? Slumpmässighet i sporter »
maj 11, 2006
Uppdatering på Weka-sidan
[Detta har jag visst glömt att berätta.]
På min Weka-sida gjordes några uppdateringar för ett tag sedan. Det fria-att-nedladda programmet Weka är alltså det program jag mest använder för data mining/machine learning.
* Den Weka-version som används är nu 3.5.2 (den som just nu är den aktuella officiella utvecklingsversion).
* Appletarna och dess stödprogram är uppdaterade till denna Weka-version. Främst var det klassnamnen till klassificerarna som har ändrats till de mer moderna. Några andra småjusteringar gjordes också. Programmen är nu kompilerade med Java 1.5.
* Några nyare klassificeringsmetoder har lagts till, bl.a. en ny favorit: REPTree som är en snabbt beslutträdsmetod och där man enkelt kan ändra djupet på trädet (för att undvika overfittning eller detaljer). Men som alltid bör man jämföra flera olika klassificerare och inte nöja sig med en enda. Och följande tips gäller fortfarande: Börja med regelklassificeraren OneR (One-rule) som en jämförande baseline hur bra andra klassificerare är. (NaiveBayes är också bra att använda som baseline.)
* På allmän - eller i alla fall en hel del mailförfrågningar - finns nu också källkoden till programmen tillgängliga, både till applets och stödprogrammen. Notera att dessa program skrevs kring 2002/2003 mest som proof-of-concept att Weka kunde appletifieras. Snyggare Java-kod finns säkert...
* Två mycket enkla program med associationsregler för analys av shoppingkorgar (med Apriori-algoritmen) har lagts till:
Simple Association Rule Applet 1 (småsaker från en pappershandel?)
Simple Association Rule Applet 2 (filmer).
Se även
Här är de referenserna som också blev ditlagda vid siduppdateringen:
The Weka Wiki
Weka mailinglist
Weka API documentation
Information hur man hämtar den allra senaste CVS-versionen (som har en hel del smått och gott som inte finns i de officiella versionerna. Uppdateras nästan dagligen.).
Samt naturligtvis boken Data Mining: Practical Machine Learning Tools and Techniques (Second Edition) som beskriver generellt om data mining/machine learning och med konkreta exempel i Weka. Finns på Bokus och rekommenderas varmt.
Annat skrivet här om Weka finns via en känd sökmotor: weka site:hakank.org.
Andra bloggar om: weka, data mining, machine learning
Posted by hakank at maj 11, 2006 09:22 EM Posted to Machine learning/data mining
Comments
Tankade hem Weka och spånade runder en stund efter att ha läst en snabb tutorial i tidningen Datormagasinet. Jag blev inte klokare.
Knepigt men intressant program.
Posted by: Daniel at maj 22, 2006 06:09 EM
Daniel: Jag visste inte att Datormagasinet har en Weka-artikel. Det måste jag kolla in.
Kul att du kikat på Weka, och att du tycker det är intressant. Är det något speciellt du inte blev klokare på? Är det något jag kan hjälpa dig med? Om du kommer ner till Malmö kring blogg-middagen i juni kan vi ju snacka mer. Kanske en hands-on-visning av Weka vore något?
Rent principellt är det att rekommendera att man använder ("leker med") data som man redan känner till för att få lite aha-upplevelser. Samt att läsa Weka-boken.
Själv använder jag ofta den datamängd jag tog fram för analysen av SVT:s "Finn din politiker" inför valet år 2002 (eftersom min intuition inte stämde med SVT:s) och skrev om i Politisk likhet samt Politisk likhet 2 (det var en pre-blogg-analys).
Datafilen kan numera laddas ner här: finn_din_politiker.arff.
Posted by: hakank at maj 22, 2006 10:20 EM
Både jag och Arkeologen kommer nästa middag. Vore intressant att få höra vad tyngden i Weka är och att det kanske inte är så svårt som det ser ut.
Klart intresserad, verkar mycket intressant.
Posted by: Daniel at maj 24, 2006 05:20 EM