« april 2006 | Main | juni 2006 »

maj 11, 2006

Uppdatering på Weka-sidan

[Detta har jag visst glömt att berätta.]

På min Weka-sida gjordes några uppdateringar för ett tag sedan. Det fria-att-nedladda programmet Weka är alltså det program jag mest använder för data mining/machine learning.

* Den Weka-version som används är nu 3.5.2 (den som just nu är den aktuella officiella utvecklingsversion).

* Appletarna och dess stödprogram är uppdaterade till denna Weka-version. Främst var det klassnamnen till klassificerarna som har ändrats till de mer moderna. Några andra småjusteringar gjordes också. Programmen är nu kompilerade med Java 1.5.

* Några nyare klassificeringsmetoder har lagts till, bl.a. en ny favorit: REPTree som är en snabbt beslutträdsmetod och där man enkelt kan ändra djupet på trädet (för att undvika overfittning eller detaljer). Men som alltid bör man jämföra flera olika klassificerare och inte nöja sig med en enda. Och följande tips gäller fortfarande: Börja med regelklassificeraren OneR (One-rule) som en jämförande baseline hur bra andra klassificerare är. (NaiveBayes är också bra att använda som baseline.)

* På allmän - eller i alla fall en hel del mailförfrågningar - finns nu också källkoden till programmen tillgängliga, både till applets och stödprogrammen. Notera att dessa program skrevs kring 2002/2003 mest som proof-of-concept att Weka kunde appletifieras. Snyggare Java-kod finns säkert...

* Två mycket enkla program med associationsregler för analys av shoppingkorgar (med Apriori-algoritmen) har lagts till:
Simple Association Rule Applet 1 (småsaker från en pappershandel?)
Simple Association Rule Applet 2 (filmer).


Se även
Här är de referenserna som också blev ditlagda vid siduppdateringen:

The Weka Wiki
Weka mailinglist
Weka API documentation
Information hur man hämtar den allra senaste CVS-versionen (som har en hel del smått och gott som inte finns i de officiella versionerna. Uppdateras nästan dagligen.).

Samt naturligtvis boken Data Mining: Practical Machine Learning Tools and Techniques (Second Edition) som beskriver generellt om data mining/machine learning och med konkreta exempel i Weka. Finns på Bokus och rekommenderas varmt.

Annat skrivet här om Weka finns via en känd sökmotor: weka site:hakank.org.


Andra bloggar om: , ,

Posted by hakank at 09:22 EM Posted to Machine learning/data mining | Comments (3)

Bloggflagga

I hakkes egen bloggflagga skrev hakke följande för några dagar sedan:


Utmaning!
Nu är det din tur! Jag vill se en flagga på varje blogg, i varje hem och på varje stång. För att ge utmaningen lite ramar ska flaggan vara i den klassiska rektangulära formen (400 x 300 bildpunkter) men fylld med nytt, fräscht innehåll.

Hörsamt, om än förkylt långsamt, kommer min variant här.



Flaggan är - tyvärr - rätt lik den som hakke själv skapade (men han använder ju färger på sin!), men det faktiskt är den flagga som jag vill ha på min sajt och som försökt efterliknas på något sätt i sajtens favicon.ico-fil (dvs det "h" som syns invid URL-en i webbläsaren när man kommer till sajten). Eftersom bloggnamnet har en direkt koppling till sajtnamnet (som i sin tur har en direkt koppling till ägaren av dessa två) bör man alltså kunna använda samma symbol som bloggflagga och som sajtflagga. [Egentligen borde det vara i fonten Courier eller någon maskinskrivningsfont, men det som finns i Gimp standardutförande blev inte bra.]

Bakgrund
På det första systemutveckligsföretag-för-internet som jag arbetade på hade man följande logga:

/netch/

vilket passade mig förträffligt vad gäller utseende, mening, estetik samt filosofi och är naturligtvis inspirationskällan. Loggan visas på en av de första versionerna (från 1996) av företagets hemsidor finns på www.netch.se (nu saligen avdomnad). Sidan blev dock rejält förändrad efter ett tag, någon man kan följa via Internet Archive Wayback Machine. Not: på vissa versioner finns det någon lustig sida att sajten är till salu, den var inte där när företaget frodades.


Not
Skulle jag vara mer konstnärlig - och inte bry mig om att försöka marknadsföra namnet hakank så mycket - skulle flaggan återskapa mina intressen mer och vara ett collage av det som skrivs här:
* en uppslagen bok bredvid två böcker, varav den ena skulle symbolisera en läst bok och den andra en ännu ej läst bok. Man ser inte titlarna på dessa böcker, och det är inte några bilder på uppslaget i den uppslagna boken, möjligen ett diagram, en graf eller en konstruktion av något slag (inte i färg i alla fall)
* en fotnot i en vetenskapligt paper. Man ska inte kunna läsa vad det står men ändå ana att där finns en länk (dvs hänvisning) till ett annat intressant arbete.
* musiknoten "h" urfunkas från en greppbräda till en elektriskt bas (det är naturligtvis inte från greppbrädan noten hörs och funkandet kommer oftast från högerhanden för högerhandsspelande bassister, men här tillåts en viss konstnärlig s.k. frihet)
* ett tal (troligen inte 42, hellre då ungefär 41), en heltalssekvens (Catalan?) eller en matematisk symbol (summeringstecknet eller Gamma?)
* en snutt one-liner från ett av favoritprogramspråk med stor onelinerkapacitet (vi pratar Perl, Ruby, Python eller J men inte Java)
* ett spelkort för att symbolisera många olika saker samtidigt, och där öppenheten i denna symbol är medveten. (En "öppen" klöver 7?)
* ett gäng myror (eller bättre: något som även kan identifieras som människor, kanske endast fjärran prickar?) som formerar sig i formationer kring olika (mat)ställen, symboliserande simulering, agentbaserad modellering och liknande saker
* något som symboliserar stora datamängder som analyseras (en datatabell med förstoringsglas över? eller en annan tabell med en sådan där Uppfinnar-Jocke-idé-lampa i svagt gult sken?)
* en Tai Chi Chuan-streckgubbe:

    o
  '-(
   < \

* och möjligen något annat också, skulle det finnas plats, konstnärliga samt personliga möjligheter till sådant.


Andra bloggar om:

Posted by hakank at 08:41 EM Posted to Blogging | Comments (2)