Size Matters //1993

Wieder mal hat mein Blog-Statistik-Tool ein neues Feature.
Bei einem meiner neueren Einträge hatte sich Kommentator ednong gewundert, warum dieser so kurz war. Nach meiner Einschätzung war er aber gar nicht ungewöhnlich kurz. Aber da ich bislang keine Statistik über die Länge der Beiträge führte, konnte ich das nicht belegen.
Dann fiel mir ein, dass ich mein Progrämmchen, das sonst Kommentare zählt, auch nutzen könnte, um die Länge der Beiträge zu ermitteln, und nach Größe zu ordnen.
Wenn man weiß, wie’s geht, ist das keine größere Kunst, und geht einfach und straightforward. Ich nahm mir also etwas Zeit, um das Feature zu implementieren.

Meine Einträge sind jeweils einige Kilobyte lang. Es lag nahe, ihre Länge kilobyteweise zu sortieren. Das machte ich einfach dadurch, dass ich die zehn least significant bits der Länge einfach wegwarf (sprich nach rechts shiftete).
Ich muss zugeben, dass mein Algorithmus Schwächen hat. An Kunden würde ich das Programm so niemals geben. Aber für den Hausgebrauch reicht’s.
Besonders darauf hinweisen möchte ich, dass Einträge mit Links als länger registriert werden, als ihr tatsächlicher Text. Das liegt daran, dass ich HTML-Tags nicht ausfiltere, so dass die gesamte URL mitgezählt wird. Ansonsten nutze ich ja praktisch kaum Formatierungen. Insbesondere Tweetsammlungen werden also als deutlich länger gezählt, als ihr eigentlicher Textinhalt ist.
Desweiteren zählt mein Programm ein paar Einträge mehr, als es tatsächlich sind. Der Unterschied ist nicht groß. Ich vermute, dass es sich dabei um die seltenen Einträge handelt, bei denen ich mit „Weiterlesen“ zusätzlichen Content anbiete. Die Zeit das nachzuprüfen, habe ich mir nicht genommen. Das Ergebnis wird dadurch zwar etwas verfälscht, aber vermutlich nicht wesentlich. Ich wollte es nur hier erwähnt haben.
Soweit die known issues.

Um das Programm mal zu demonstrieren, habe ich bei WordPress meine Einträge vom Januar bis Oktober dieses Jahres heruntergeladen – also alle einigermaßen neueren Datums und m.E. einigermaßen repräsentativ. In den Anfangszeiten hatte ich tendenziell kürzere Einträge. Den November habe ich mal weggelassen, weil der noch nicht abgeschlossen ist.
Nach meiner Zählung geht es um 235 Einträge. Das Programm kommt auf 242, also 7 mehr.
Unter 1 Kilobyte gab es 16 Beiträge. Selbst wenn man davon ausgeht, dass die 7 überschüssig gezählten in diese Gruppe fallen, wären es immer noch 9 – also nicht wirklich außergewöhnlich.
Ich hatte ja mal irgendwann geschrieben, dass mir Einträge mit zwei oder drei Kilobyte (auch auf anderen Blogs) am angenehmsten zu lesen sind. Tatsächlich finden sich in dieser Größenordnung die meisten Beiträge. Zwischen 1 und 2 Kilobyte sind es 58, zwischen 2 und 3 Kilobyte sind es 65, und zwischen 3 und 4 Kilobyte noch 37.
30 Einträge gab es zwischen 4 und 5 Kilobyte, und 21 zwischen 5 und 6 Kilobyte. Danach nimmt die Anzahl stark ab, so dass es zwischen 6 und 9 Kilobyte nur insgesamt 14 Einträge (möchte ich gar nicht genauer aufschlüsseln) gab. Danach ist eine Lücke, und schließlich existiert noch ein Eintrag mit etwas über 11 Kilobyte.

Ich habe mir nicht die Mühe gemacht, das Programm mit einer graphischen Darstellung zu erweitern. Ein Excel-Histogramm muss reichen. Auf der Abszisse ist die maximale Dateigröße n in Kilobyte (im Sinne von ]n-1, n]) genannt, die Ordinate gibt die absolute Häufigkeit der jeweiligen Einträge im betrachteten Zeitraum an.


Über Anne Nühm (breakpoint)

Die Programmierschlampe.
Dieser Beitrag wurde unter Uncategorized abgelegt und mit , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

4 Antworten zu Size Matters //1993

  1. Plietsche Jung schreibt:

    Welches Dateisystem wurde für die Ermittlung der Dateigröße herangezogen ?

    Like

  2. Pingback: Kommentare Oktober – Dezember 2018 | BP meta

  3. Pingback: Altes Twitter ist das Beste //2181 | breakpoint

Hinterlasse einen Kommentar