« september 2007 | Main | november 2007 »

oktober 28, 2007

Svar på Hakkes frågor angående monovokala ord

Den alltid nyfikne hakke skickade följande mail till Jonas Söderström och mig häromdagen. (Mailet är trivialt redigerat.)

Det går ju inte att kommentera den här gamla godingen :( Ooo, så långa ord

Så jag får mejla kommentaren istället :)

/Håkan (hakke)

Vissa saker man läst sitter liksom kvar i hjärnan som en lös liten
skruv, som ibland vickar till och gör sig påmind. Dit hör det här
inlägget, bland annat för att det var här jag upptäckte bloggarna men
också på grund av dess språkglädje.

Nyss stötte jag på ordet "kulturutbud" i en text. Det är inte särskilt
lättläst, en egenskap det troligen delar med många andra monovokala
ord.

Håkan Kjellerstrand hade ju vänligheten att publicera följande lilla
lista över förekomsten av monovokala ord för var och en av svenskans
vokaler:

Vokal: antal ord
----------------
a: 3137
e: 791
i: 1299
o: 960
u: 625
y: 192
ä: 590
å: 280
ö: 272

Några saker jag blir nyfiken på är:


Efter kom sedan tre (3) frågor som av besvaras (eller åtminstone bekommenteras) var och en i det nedanstående. Notera att ordlistan som användes för att skapa ovanstående förekomstfördelning är äldre i relation till den ordlista som används i dessa svar.


Hakkefråga 1. Vilka är de längsta fem monovokala orden för varje vokal?

Svar fråga 1.
Här är de inte bara de fem utan även de sex längsta ord för respektive monovokal . Ordlängden visas efter ordet. Not: Det kan finnas flera ord med samma ordlängd som den minst långa ordlängden för respektive vokal. Programmet visar då endast att det blir exakt sex stycken ord (och slumpmässighetens underbara men samtidigt starkt underskattade men starkt påverkande hand styrde exakt vilka som visas).


Vokal a:
brandalarmapparat: 17
andrahandsmarknad: 17
partssammansatt: 15
branschanpassad: 15
brandhandgranat: 15
tandspacklarnas: 15

Vokal e:
referensfrekvens: 16
frekvensmeterns: 15
telexreglemente: 15
referenselement: 15
meddelelsemedel: 15
pendelfrekvens: 14

Vokal i:
lindningsriktning: 17
tillfriskningstid: 17
lindningsstigning: 17
drivningsriktning: 17
visningsspridning: 17
stigningsriktning: 17

Vokal o:
motorfordonskontroll: 20
kontrollprotokoll: 17
domstolsprotokoll: 17
torvjordskompost: 16
fordonskontroll: 15
kontrollmottolk: 15

Vokal u:
ursprungspunkt: 14
djupbrunnspump: 14
sunhultsbrunns: 14
grundstruktur: 13
sunhultsbrunn: 13
kugghjulspump: 13

Vokal y:
skyddshytt: 10
styckfryst: 10
krymptryck: 10
tryckstyrd: 10
plymprydd: 9
frysskydd: 9

Vokal å:
stålspåntlås: 12
språngstråk: 11
tvångsvård: 10
stånggång: 9
nålsprång: 9
ståltråds: 9

Vokal ä:
rättshjälpsnämnd: 16
kärrsnäppsägg: 13
vändskärsfräs: 13
rännhärdsjärn: 13
skräntärnsägg: 13
ändskärsfräs: 12

Vokal ö:
mörkrödglöd: 11
bröstsköld: 10
förströtts: 10
bröstmjölk: 10
slöjdbjörk: 10
bröstböld: 9

Hakkefråga 2. De korta orden intresserar mig inte särskilt mycket. Det skulle vara intressant att se motsvarande sammanställning begränsad till de ord där det finns minst 3, 4 respektive 5 vokaler. Jag gissar att fördelningen mellan ordrikedomen per vokal då också kan komma att förändras något. Kanske blir ledningen för a och i ännu tydligare?

Svar fråga 2

Först kommer den totala fördelningen av antal vokaler per ord som har
minst 2 vokaler för att få en känsla för vad som kommer:


Fördelning av antal vokaler per ord:
2: 9868
3: 3215
4: 539
5: 60
6: 6

Sedan med hakkes föreslagna begränsningar om minst v vokaler.


Vanligaste bokstaven (minst 2 monovokaler):
a: 7377
e: 2080
i: 1612
o: 1275
u: 436
ä: 410
ö: 253
å: 196
y: 49

Vanligaste bokstaven (minst 3 monovokaler):
a: 2447
e: 717
i: 350
o: 229
u: 64
ä: 9
å: 2
ö: 2

Vanligaste bokstaven (minst 4 monovokaler):
a: 354
e: 179
i: 38
o: 33
u: 1

Vanligaste bokstaven (minst 5 monovokaler):
a: 42
e: 16
i: 4
o: 4

Vanligaste bokstaven (minst 6 monovokaler):
e: 4
a: 1
o: 1

Det finns inga ord i ordlistan med 7 eller fler monovokaler.


För fullständighetens skulle visas här även fördelningen av ordlängden (för ord med minst 2 monovokaler):


3: 22
4: 300
5: 1226
6: 2486
7: 2964
8: 2744
9: 1886
10: 995
11: 517
12: 299
13: 151
14: 62
15: 16
16: 6
17: 13
20: 1

Hakkefråga 3. Undrar om fördelningen ändras över tiden? Sedan listan skapades har det ju kommit en ny version av saol.


Svar (eller snarare kommentar till) fråga 3

Hakke har troligen en poäng att ovanstående beskrivna fördelningar förändras över tiden. Det är dock utanför mitt experimenterande eftersom jag inte använder SAOL utan Den stora svenska ordlistan (eller snarare ett derivat av den ordlista man kan ladda ner här och om vilket kommenteras något mer här nedan).

Svar på anticiperad följdfråga: Nej, jag har inte sparat olika DSSO-versioner för denna typ av jämförelse.

Några vidarekommentarer
För ett antal (cirka 2) månader sedan förnyades monovokaldiskussionen på Blind Höna, i Ooo, så många o:n! Monovokal toppnotering tangerad (där mina findings bygger på samma ordlista som ovanstående analyser). Se även Söndagspyssel där den ursprungliga monovokaldiskussionen fortsatte att diskuteras.

DSSO-listan är samma ordlista som man hittar på http://sv.speling.org/files/ (det görs en omdirigering till DSSO-sajten). Denna ordlista har även används i andra språk-/ordprojekt, t.ex.
* Visa ordklasser (presenteras i Svenska ordklasser samt gissning med hjälp av ordsuffix)
* Consonants Away (presentation i Consonants Away)
* samt ett gäng andra s.k. useless-projekt.

Posted by hakank at 09:50 FM Posted to Språk | Statistik/data-analys | Comments (7)

oktober 09, 2007

Lite länkar till videoföreläsningar 20071009

En dump av videoföreläsningar sparade i Bloglines. Allt har inte setts men verkar skoj av en eller annan orsak.


* Decision Science News R video tutorial number 2.


* UCTV Game Theory 2007. Kurs i spelteori. Se även kursens outline.


* En samlig av vetenskapliga experiment av mer vardagligt slag finns på Robert Krampf's Science Videos.


* KDD 2007 The 13th International Conference on Knowledge Discovery and Data Mining (en massa föreläsningar). För den delen finns det flera andra föreläsningar på videolecures.net såsom AAAI-07 AI Video Competition och PASCAL Bootcamp in Machine Learning.


* David Henderson, Charles Hooper Making Great Decisions


The phrase "work smarter, not harder" has been repeatedly ridiculed in Dilbert and ... all » elsewhere, not because it is a poor idea, but because it is thrown like a brick lifesaver to drowning employees. It's like telling someone to be happier, healthier, and richer. What people need is a plan for doing so.

In "Making Great Decisions" the authors show readers how to achieve their objectives. They offer a better way to look at problems so that solutions are easier to find.

Speaker: David R. Henderson, Ph.D. David R. Henderson is an economics professor at the Naval Postgraduate School in Monterey and a research fellow with the Hoover Institution at Stanford. He was a senior economist with President Reagan's Council of Economic Advisers.

Speaker: Charles L. Hooper Charles L. Hooper is President and co-founder of Objective Insights, Inc., a consulting firm dedicated to providing health care companies with marketing and financial analysis to help them make informed decisions about their business opportunities.


* Ross Anderson Searching for Evil

Computer security has recently imported a lot of ideas from economics, psychology and ... all » sociology, leading to fresh insights and new tools. I will describe one thread of research that draws together techniques from fields as diverse as signals intelligence and sociology to search for artificial communities.

Evildoers online divide roughly into two categories - those who don't want their websites to be found, such as phishermen, and those who do. The latter category runs from fake escrow sites through dodgy stores to postmodern Ponzi schemes. A few of them buy ads, but many set up fake communities in the hope of having victims driven to their sites for free. How can these reputation thieves be detected?

Some of our work in security economics and social networking may give an insight into the practical effects of network topology. These tie up in various ways with traffic analysis, long used by the signals intelligence agencies which trawl the airwaves and networks looking for interesting targets. I'll describe a number of dubious business enterprises we've unearthed. Recent advances in algorithms, such as Newman's modularity matrix, have increased the robustness of covert community detection. But much scope remains for wrongdoers to hide themselves better as they become topologically aware; we can expect attack and defence to go through several rounds of coevolution. I'll therefore end up by talking about some strategic issues, such as the extent to which search engines and other service providers could, or should, share information in the interests of wickedness detection.

Speaker: Ross Anderson Ross Anderson is one of the top security researchers in the world.


* Philip Chan Learning Rules for Anomaly Detection

Anomaly detection has the potential to detect novel attacks, however, keeping the false ... all » alarm rate low is a challenging task. We discuss the LERAD algorithm that can learn concise and accurate rules for anomaly detection and demonstrate its effectiveness in network and host datasets. We will also discuss our recent work (KDD 07) on weighting versus pruning during the rule validation.

If there is more time, I can also talk about:

As mobile devices become more pervasive, we study the problem of spatial-temporal anomaly detection for identifying potential abuse. We discuss the STAD algorithm and show its performance on a cell phone dataset.


* Geoffrey West Scaling Laws In Biology And Other Complex Systems


Life is very likely the most complex phenomenon in the Universe manifesting an ... all » extraordinary diversity of form and function over an enormous range. Yet, many of its most fundamental and complex attributes scale with size in a surprisingly simple fashion. For example, metabolic rate (the power required to sustain the system) scales as approximately the 3/4-power of mass over 27 orders of magnitude from molecular levels up to the largest multicellular organisms. Similarly, time-scales, such as lifespans and growth-rates, increase with exponents which are typically simple powers of 1/4. It will be shown how these universal quarter-power scaling laws follow from fundamental generic principles embedded in the dynamics and geometry of underlying networks, leading to a general quantitative theory that captures essential features of many diverse biological systems. Examples will include animal and plant vascular systems, growth, cancer, aging and mortality, sleep, DNA nucleotide substitution rates. These ideas will be extended to discuss social organisations such as cities and firms: to what extent, if at all, can we think of these as very large organisms and therefore as an extension of biology? Analogues to metabolic rate and behavioral times in cities scale counter to their behaviour in biology. Driven by innovation and the creation of wealth this has dramatic implications for their growth, development, sustainability and pace of life which, left unchecked, potentially sow the seeds for their collapse.

Geoffrey West is a theoretical physicist whose primary interests have been in fundamental questions in physics, especially those concerning the elementary particles, their interactions and cosmological implications. Prior to joining the Santa Fe Institute as a Distinguished Professor in 2003, he was the leader, and founder, of the high energy physics group at Los Alamos National Laboratory, where he is one of only approximately ten Senior Fellows. «


* Lynn Robertson Is That My Brother? Perceptual and Neurobiological Factors in Face Blindness


Face blindness (technically known as prosopagnosia) is a condition in which people with otherwise normal vision cannot discriminate one ... all » face from another. They may not be able to pick out their own husband or children in a crowded room or even themselves in a mirror. One woman reported she once had to crinkle her face in a crowded rest room to discriminate herself from others in the mirror. This problem can occur through injury to particular areas within the brain (either through head trauma, stoke or surgery), but it can also occur developmentally. In the latter case, the brain appears completely normal, yet developmental prosopagnosics (DP) have never learned to accurately discriminate faces.

There is a large scientific body of work on face perception published in the psychological, social and neurobiological literature, and I will highlight some of the more important findings. I will then discuss work from my own laboratory on perceptual processing of faces; emphasizing training methods we have developed to help individuals with DP identify faces, sometimes for the first time in their lives. This discussion will be complemented by inclusion of documented neurobiological and cognitive changes that accompany the emergence of face recognition abilities.


* Erin McKean Wordmaking: What it take to succeed in hacking English and invent a new word


Earn the basics of word formation in English, get "raw materials" for new words, and invent ... all » your own word (and have it critiqued) before you let it loose into the English language. The maker of the "best new word" (as voted on by the participants) will win a new dictionary.

Posted by hakank at 06:53 EM Posted to Diverse vetenskap | Video podcasts | Comments (2)

oktober 07, 2007

Sammanfattning Bloggträff Malmö 20071004

Här är en kort sammanfattning av bloggträffen i Malmö 20071004.

Som vanligt skrivs denna sammanfattning under subtila hot. Denna gång att Åsa annars outar mig som en modebloggare. Ett problem med denna typ av hot är att den kan vara kontraproduktiv, t.ex. skulle man kunna tänka sig att jag hellre skulle vilja läsa Åsas outning än att skriva denna sammanfattning.

Deltagare:
Zyrenna-Åsa
Klocklös- och Ståupp Mats
Ståupp-Elin
Karl - "jag bloggar inte, men inte av princip" - Wettin
Användbart-Tommy och Tim (en ännu ej bloggande son)
hakank-Håkan


Det pratades om bland annat
* Vad "semi-professionell X" egentligen betyder. Det betyder inte att man gör X halvhjärtat eller halvbra, utan att man gör det men utan att det är ens huvudsakliga inkomst.

* Facebook - kan det vara något?
Vad är egentligen poängen med dessa sociala nätverk. Facebook förbereder att göra djupanalyser av vad som skrivs där och försöker att göra riktad reklam. Skiljer sig detta principiellt mot vad Google gör med Gmail-reklamen?

Och varför är man - efter t.ex. Orkut - förvånad att man sitter alldeles för lång tid med i grunden rätt meningslösa applikationer såsom att bli jämförd med sina vänner/kontakter i olika delar av världens mer eller mindre komplexa sfärer (exempel: filmsmak, vilken skådespelare man är mest lik, vilka prioriteringar man gör i livet).

Varför man - givet den -- sett i efterhand -- ganska dåliga erfarenheten av Orkut - man överhuvudtaget (och ganska aktivt) gick med i Facebook: Mestadels för att man är nyfiken på vad det är, men även mer specifika orsaker såsom att det finns just skoj applikationer som att jämföra filmsmak.


* Ståuppande
Varför man tycker om att stå på scen för att rolig och varför man inte tycker om att stå på scen för att vara rolig. En del i skillnaden är hur man uppfattar (och uppskattar) den förväntan som finns hos en publik som betalar dyra pengar för att bli underhållna.


* Om varför man bloggar.
Kan man ställa speciellt socialt ansvar på en person bara för att denna bloggar, dvs skilt från det sociala ansvar man kan ställa på alla sina medmänniskor? Nja, inte bara för att denne bloggar, däremot bör stort inflytande och en stor läsekrets medföra ett sådant ansvar.

Ungefär samma fråga: Måste man/bör man som bloggare följa med i de politiska (eller medmänsklighets-) aktioner som andra bloggare följer med i? Nja, ungefär samma svar.

Reminder: Man bör återigen tänka på att det inte finns någon som helst gemensam agenda för alla de som bloggar. Och tur är det.

* Den där underbara efterrätten på Kin Long (risdumpling med sesamfröfyllning). Den är väldigt söt och god. Någon annan deltagande delade troligen inte detta översvallande.omdöme

* Alex Schulmans "ödmjukhetsbloggning"
Flera deltagande hade följt A.S.:s blogg och flera andra hade inte gjort det. Någon: "Vem är Alex Schulman?".

De flesta kände igen sig i att bloggen tar mycket tid i anspråk, men inte så mycket att man uppfattade den som ett monster.


* Det förekom en del tekniska nörderier också, såsom en beskrivning av automatisk community detection av en persons Facebook-kontakter (borde detta hellre skrivas under Facebook-entryt ovan i stället för här?), några diskussioner om detaljer inom machine learning.

Någon reflekterade härvidlag över att det var färre matematikbloggare än på länge.


* Om att twingla (dvs överanvända Twingly-tjänsten)
Det vars ganska överens om att Twingly både kunde och hade missbrukats av bloggare för att få besök. Någon berättade om en synnerligen medveten protest ("socialt experiment") mot detta genom att twingla 50 (femtio) DN-länkar i ett och samma blogginlägg utan någon inramande handling, vilket gav som resultat att denne person blev portad från tjänsten. Flera andra exempel nämndes.

Ett problem - som naturligtvis är mycket mer generellt än Twinglylänkar - är man inte vet något om den blogg/bloggare som skriver en kommentar till tidningsartikel. Ofta gör man inte heller det med tidningens journalister, men på något sätt så garanteras det faktum att det skrivs i tidningen någon form av kvalitet.

Ungefär här kom vi in på att det tar lång tid att få ett förtroende för en bloggare. I och för sig kan man läsa (och bedöma) en enskild blogganteckning och få ut något av det, men det kräver många fler läsningar för att man ska få verkligt förtroende för bloggaren.

En kort diskussion om att Chain-of-trust möjligen kunde lösa detta problem utbrast i ena hörnet (vilket då kunde ha döpts till det nördvästra hörnet).

* Kin Long (den restaurang varvid detta utspelades) hade nyligen fått Nöjesguidens pris "Årets krog", varpå ägaren gratulerades till detta. I samband med detta kommenterades även att några japanska maträtter nu också fanns på menun. Den där Yakiniku kommer att testas nästa gång.

Det frågades för övrigt - möjligen inte alldeles seriöst - också om ägaren hade hört någon gäst säga att besöket berodde på att denne läst om restaurangen på en blogg. Något sådant hade dock inte hörts, däremot att flera läst om restaurangen på nätet.


* Pulsklockor och blodtryckmätare
Bl.a. om att använda pulsklockan under en hel arbetsdag för att lära sig hur man mår under vila och stress.

* Mer eller mindre privata saker som inte lämpar sig att offentliggöra i det öppna ljus som webben byk ändå utgör. Hit hör bl.a. bransch-skvaller, privata tankar samt Twingly-strategier.

Några saker som inte diskuterades
- Baudrillards teori om Simulacra specifikt sett ur bloggens (och andra virtuella sammfälligheters såsom Second Life) perspektiv
- Ian Hackings bok "The social constrution of what" om sociala konstruktioner
- den nya mobiltelefon som inköptes i fredags, en Sony-Ericsson PIi. Denna demonstration - förutom en IMBD-ning på Julia Roberts film Mary Reilly - inkluderade en demonstration av TrackId (en skoj tjänst som känner igen ett uppspelat musikstycke, t.ex. spelad på radio eller stereografiskt återgiven. Det rekommenderas att musikstyckets ljudström till telefon är avskilt från intensiva politiska diskussioner eftersom sådana stör tjänsten. Förmodligen har inte själva innehållet i argumenten något med detta att göra, endast dess styrka).
- forskning om retoriska grepp i eller spelteoretiska modeller kring hiphop-battling (c.f slutscenen i filmen "8 mile"). Någon sådan forskning kändes dock inte till.

Som tur blev det tillfälle att prata om dessa saker igår (lördags) kväll i en helt annan samkvämlighet.

Och varför pratar man inte om smart mobs längre?

Posted by hakank at 11:30 FM Posted to Bloggmiddagar | Comments (5)