Kein Freitag-der-13-te-Problem //1673

Bei meinen Jungs gibt es derzeit Probleme mit einem Timeout.
Mehrere Threads laufen gleichzeitig. Ich habe den Eindruck, dass sich da irgendwann etwas überholt.
Der eigentliche Fehler ist tief in den Eingeweiden der API verborgen, so dass sich das Problem nicht sauber debuggen lässt.
Dieser Timeout hat zur Folge, dass bestimmte Objekte bereits erzeugt sind, aber nicht mehr auf sie zugegriffen werden kann, weil ihre Adresse verloren gegangen ist. Also ein Speicherleak, wenn auch nur wenige Kilobyte. Schwererwiegend ist, dass dadurch das ganze Programm in einen undefinierten Zustand gerät.

Ich bin inzwischen mit meinem Latein (und sonstigen Sprachen) ziemlich am Ende. Vermutlich sind die Threads an irgendeiner Stelle doch nicht ganz sauber aufgesetzt oder synchronisiert.
Wenn wir die Fehlerursache schon nicht lokalisieren können, müssen wir wenigstens einen Workaround entwickeln, damit die Software ordentlich läuft.

Ich setze auf die geballte Kompetenz meiner Mitarbeiter, eine Lösung zu finden.

Über Anne Nühm (breakpoint)

Die Programmierschlampe.
Dieser Beitrag wurde unter Uncategorized abgelegt und mit , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

25 Antworten zu Kein Freitag-der-13-te-Problem //1673

  1. claudius2016 schreibt:

    Irgendwann findet man jeden Fehler, ist mir noch nicht vorgekommen, dass etwas überhaupt nicht zu finden war. Bleib dran…

    Like

  2. Dieter schreibt:

    Dann drück ich mal die Daumen, dass ihr es noch findet oder eine passable Lösung es zu umgehen.
    VG Dieter

    Like

  3. Plietsche Jung schreibt:

    Immer wieder eine unschöne Sache.
    Schließ deine MA ein, gib ihnen gutes Essen und Trinken, ein wenig Chill-out Musik.
    Viel Erfolg.

    Like

  4. Leser schreibt:

    Da mir aus medizinischen Gründen der Verzehr von Dingen wie „Franzbrötchen“ fortan verboten ist, konzentriere ich mich lieber mal auf das Wesentliche, aber auch in dem Bewusstsein, dass dies mitunter zu viele Informationen enthüllt. Denn meine erste Frage wäre, ob es sich bei dem Bug um einen in der Software handelt, die auf den Maschinen selbst läuft, oder um einen in der Steuerungssoftware, um die Maschinen anzusteuern. Wobei eine Antwort sogar eher sekundär wäre, denn ich will darauf hinaus, ob die Verzögerung eines entsprechenden Updates die aktiv im Betrieb befindlichen Maschinen in irgend einer Weise sicherheitsgefährden könnte (sei es über die Schnittstelle zur Ansteuerung, oder über die Maschine selbst). Wenn beide Szenarien in einem eher marginalen Gefahrenbereich liegen, dann ist es zwar immer noch etwas, was dringend repariert werden muss (dringend genug, um den Bereich „neue Features“ demgegenüber zurückzustellen), aber nichts was *akut* ist (im Sinne von: „Wenn nicht innerhalb von 12/24h gefixt, bricht die Produktion zusammen“). In letzterem Fall (keine Bedrohung der Produktion) würde ich es (aus meiner Außenseiterperspektive) tatsächlich für sinnvoller halten, die Ursache des Fehlers und damit diesen komplett zu eliminieren, anstatt mich um einen Workaround zu kümmern (welcher natürlich im Gegenzug absolut notwendig ist, wenn eine Produktion aufgrund des Fehlers still stehen sollte).
    Ich hoffe, ich habe das jetzt grundlegend genug ausgedrückt, um keinerlei Rückschlüsse zuzulassen – zumindest wäre das die „best practice“, die ich in so einem Fall anwenden würde.

    Like

  5. Pingback: Ausgekäfert, ausgeflogen //1683 | breakpoint

  6. Pingback: Twi-, Twitt-, Twitter! //1879 | breakpoint

Hinterlasse einen Kommentar