Bei meinen Jungs gibt es derzeit Probleme mit einem Timeout.
Mehrere Threads laufen gleichzeitig. Ich habe den Eindruck, dass sich da irgendwann etwas überholt.
Der eigentliche Fehler ist tief in den Eingeweiden der API verborgen, so dass sich das Problem nicht sauber debuggen lässt.
Dieser Timeout hat zur Folge, dass bestimmte Objekte bereits erzeugt sind, aber nicht mehr auf sie zugegriffen werden kann, weil ihre Adresse verloren gegangen ist. Also ein Speicherleak, wenn auch nur wenige Kilobyte. Schwererwiegend ist, dass dadurch das ganze Programm in einen undefinierten Zustand gerät.
Ich bin inzwischen mit meinem Latein (und sonstigen Sprachen) ziemlich am Ende. Vermutlich sind die Threads an irgendeiner Stelle doch nicht ganz sauber aufgesetzt oder synchronisiert.
Wenn wir die Fehlerursache schon nicht lokalisieren können, müssen wir wenigstens einen Workaround entwickeln, damit die Software ordentlich läuft.
Ich setze auf die geballte Kompetenz meiner Mitarbeiter, eine Lösung zu finden.
Irgendwann findet man jeden Fehler, ist mir noch nicht vorgekommen, dass etwas überhaupt nicht zu finden war. Bleib dran…
LikeLike
Manchmal kostet die Fehlersuche halt mehr Zeit als eingeplant.
Naja – wir werden das Problem schon lösen. Müssen.
LikeLike
Viel Glück.
LikeGefällt 1 Person
Dann drück ich mal die Daumen, dass ihr es noch findet oder eine passable Lösung es zu umgehen.
VG Dieter
LikeLike
Wir haben vorhin ein paar neue Lösungsansätze gefunden. Vor dem Wochenende werden die allerdings nicht mehr klappen.
LikeGefällt 1 Person
Dann mit frischer Energie und freiem Kopf in der neuen Woche
LikeGefällt 1 Person
Immer wieder eine unschöne Sache.
Schließ deine MA ein, gib ihnen gutes Essen und Trinken, ein wenig Chill-out Musik.
Viel Erfolg.
LikeLike
Ach, die schaffen das schon, auch ohne zusätzliche Anreize. Schließlich wollen sie selbst auch herausfinden, was da los ist.
LikeLike
Ein gesunder Ehrgeiz !
Spendier mal ne Runde Brez’n oder Franzbrötchen. Das motiviert zusätzlich 😉
LikeLike
Was sind denn „Franzbrötchen“?
Ich habe schon öfter mal Kuchen ausgegeben. Aber jetzt ist erst mal Wochenende, da ist mir die Zeit zu knapp.
LikeLike
Eine Hamburg Spezialität aus Napoleons Zeiten 🙂
Wirklich lecker.
LikeLike
Habe ich in der hiesigen Gegend noch nie beim Bäcker gesehen.
Dafür gibt es anderes leckeres Gebäck.
LikeLike
Wenn du mal in Hamburg sein solltest, lad ich dich gern zu einem Kaffee mit Franzbrötchen ein.
https://de.wikipedia.org/wiki/Franzbr%C3%B6tchen
LikeGefällt 1 Person
Danke für die Einladung.
Vielleicht nehm ich dich irgendwann mal beim Wort.
LikeGefällt 1 Person
Gerne. Ich beiße ja nicht 🙂 und wenn, dann nur ins Franzbrötchen.
LikeGefällt 1 Person
Hahaha.
LikeLike
Aber hallo:
https://de.wikipedia.org/wiki/Franzbr%C3%B6tchen
LikeLike
Du kennst keine Franzbrötchen? Oh man, soll ich eins kaufen und fotografieren?
LikeLike
Oh brauch ich gar nicht, gibt schon einen Eintrag dafür:
https://de.wikipedia.org/wiki/Franzbr%C3%B6tchen
LikeLike
Aha. So was ähnliches wird bei uns höchstens als (missglückte) (Nuss-)Schnecke verkauft.
LikeGefällt 1 Person
Lass‘ es dir gut schmecken.
LikeLike
Da mir aus medizinischen Gründen der Verzehr von Dingen wie „Franzbrötchen“ fortan verboten ist, konzentriere ich mich lieber mal auf das Wesentliche, aber auch in dem Bewusstsein, dass dies mitunter zu viele Informationen enthüllt. Denn meine erste Frage wäre, ob es sich bei dem Bug um einen in der Software handelt, die auf den Maschinen selbst läuft, oder um einen in der Steuerungssoftware, um die Maschinen anzusteuern. Wobei eine Antwort sogar eher sekundär wäre, denn ich will darauf hinaus, ob die Verzögerung eines entsprechenden Updates die aktiv im Betrieb befindlichen Maschinen in irgend einer Weise sicherheitsgefährden könnte (sei es über die Schnittstelle zur Ansteuerung, oder über die Maschine selbst). Wenn beide Szenarien in einem eher marginalen Gefahrenbereich liegen, dann ist es zwar immer noch etwas, was dringend repariert werden muss (dringend genug, um den Bereich „neue Features“ demgegenüber zurückzustellen), aber nichts was *akut* ist (im Sinne von: „Wenn nicht innerhalb von 12/24h gefixt, bricht die Produktion zusammen“). In letzterem Fall (keine Bedrohung der Produktion) würde ich es (aus meiner Außenseiterperspektive) tatsächlich für sinnvoller halten, die Ursache des Fehlers und damit diesen komplett zu eliminieren, anstatt mich um einen Workaround zu kümmern (welcher natürlich im Gegenzug absolut notwendig ist, wenn eine Produktion aufgrund des Fehlers still stehen sollte).
Ich hoffe, ich habe das jetzt grundlegend genug ausgedrückt, um keinerlei Rückschlüsse zuzulassen – zumindest wäre das die „best practice“, die ich in so einem Fall anwenden würde.
LikeLike
Es geht um eine sich in Entwicklung befindende Software.
Das Problem scheint keine Sicherheitsrelevanz zu haben.
LikeLike
Pingback: Ausgekäfert, ausgeflogen //1683 | breakpoint
Pingback: Twi-, Twitt-, Twitter! //1879 | breakpoint