Chwilowe zawieszenia HA (RPI4 + SD)

Hej, potrzebuję pomocy. Po dodaniu kilkunastu urządzeń do HA zacząłem robić automatyzacje. Zauważyłem, że czasem wyzwalają się one z różnym opóźnieniem 5-20s (światło na czujnik ruchu). W tym momencie jak chce wejść do HA przez telefon to albo nie mogę się połączyć, albo jak już się połączę i klikam na cokolwiek (switch, żarówkę) to nic nie reaguje. Później po powrocie sprawności systemu światło mignie kilka razy (odtwarza z opóźnieniem moje wszystkie kliknięcia podczas zawieszenia). Sprawdziłem, że w takich momentach jak wejdę na webUI np. przełącznika światła to mogę je swobodnie zapalać i gasić bez żadnych opóźnień. W logach po zawieszeniu pojawiają się timeouty połączenia z telewizorem, error połączenia z API, albo jakichś socketów, albo czasem nie pojawia się nic.
W monitorze systemu podglądam %CPU %pamięci i są one na niskich poziomach bez żadnych dziwnych skoków. Czy problem może leżeć w karcie SD? Nie ustawiłem jeszcze purge, plik DB ma 2,2GB. Czy to możliwe, że jak na raz za dużo urządzeń przesyła dane to karta się nie wyrabia? Ma ktoś z was pomysł jak sprawdzić co powoduje problem?

Zacznij monitorować też wykorzystanie swap. Nie wiem co to znaczy wykorzystanie RAM czy CPU w niskim poziomie - konkrety jakieś podaj.

A generalnie to tak - te objawy mogą świadczyć o kończącej się karcie TF.
Zamknij “ładnie” system (ładnie = z supervisora “zamknij hosta” i poczekaj tak długo, by RPi skończyło normalnie pracę - sygnalizuje to charakterystycznym miganiem zielonej LED - bodajże miga 10x z częstotliwością 2Hz, oprócz tego RPi4 odcina zasilanie portów USB, w przypadku anomalii w działaniu zamykanie systemu może potrwać kilka - kilkanaście minut) i sklonuj kartę na nową.

A jako bardziej długofalowe rozwiązanie sugeruję instalację na sporym (za minimum uważam ~120GB) ssd podpiętym przez sensowny mostek do USB3 (i oczywiście bootowanie z niego, to wymaga aktualizacji firmware RPI4 spod raspbiana/RPiOS)

Oczywiście pomijam tu np. “dużą” aktualizację HA, podczas której mnogą się dziać dziwne rzeczy - póki co odradzam przejście z 2021.4.6 na 2021.5.0 (baza jest konwertowana, więc taką aktualizację sugeruję np. na noc).

Jeśli robisz automatycznie backupy konfiguracji (jest to wysoce zalecane) to ustaw je, aby się odbywały w nocy, gdy śpisz.



Zastanawiałem się nad przejściem na SSD. Czy znasz może jakieś polecane zestawy SSD+mostek bo naczytałem się, że niektóre nie działają na USB3.0 zbyt dobrze, że niektóre zestawy nie działają albo działają bardzo wolno…
Automatyczny backup mam ustawiony co 3 dni, a dziwne zacięcia zdarzają się dużo częściej.
Jest jeszcze ustawienie recordera tak, aby monitorować tylko potrzebne encje, a nie wszystko jak leci… Jestem ciekawy tylko czy gdzieś można właśnie wychwycić czy to na pewno w tym leży problem :slight_smile:



kilka wątków, gdzie się pojawia ten temat

Po logach można podejrzewać,m że masz też problem z siecią.

Jakkolwiek Yeelight nie reaguje z powodu przekroczenia dopuszczalnej ilości żądań API, więc możliwe, że masz źle napisane automatyzacje (wywołują zbędne żądania) - to by tłumaczyło problem reakcji tych świateł.

Tak tak, mogłem wyciąć ten błąd ze zrzutu. Yeelighty się wywalają na minutę jeżeli w ciągu jednej minuty wyślesz im z HA 20 zmian stanu. Tutaj zadziałały moje dzieciaki.
W takim razie podejdę temat na dwa sposoby. Na początku spróbuje przesiąść się na nieużywanego SSD i sprawdzić czy będzie poprawa. Jeżeli nie to będę kombinował jakie urządzenie mi “sieje” po kolei wyłączając urządzenia/integracje itp.

To jeszcze można pozgadywać, że drukarka jest po prostu wyłączona.

W pierwszej kolejności bym sklonował kartę - to najszybciej pozwoli stwierdzić czy to ona jest przyczyną (można też zrobić reinstalację na innej lub na ssd i przywrócić świeży snapshot, tylko teraz jest na to zły moment - dopiero wyszła majowa wersja, która może zawierać sporo nowych błędów).

Tak, ten błąd API IPP to od drukarki, raczej również niezwiązany ze stabilnością.
Bardziej martwi mnie ten warning z sieci mqtt No ACK from MQTT server in 10 seconds.
EDIT: To wina aktualizacji dodatku: Mosquitto 5.1.1 is broken. · Issue #1887 · home-assistant/addons · GitHub
Zamierzam powalczyć z instalacją na SSD mam nadzieje, że uda mi się bez problemów (pewnie jak zwykle będą :slight_smile:) HA nie aktualizowałem specjalnie, poczekam na przesiadkę dyskową.

Ok, teraz zauważyłem, że za każdym razem kiedy system mocno zwalnia zielona dioda na RPI świeci się praktycznie ciągle. Kiedy tylko zaczyna migać lub gasnąć to system odpowiada błyskawicznie. Poprawcie mnie jeśli się mylę ale to raczej wskazuję na SD.

Nie mylisz się - aktywność zielonej LED (przynajmniej dla tych firmware RPi4, które miałem na swoim sprzęcie) jest właśnie powiązana z aktywnością karty TF (generalnie z aktywnością pamięci masowej, bo przecież LED jest sterowany programowo).

Prawdopodobnie karta do wymiany, bo w normalnej sytuacji HA nie generuje takiej ilości zapisów, by prędkość zapisu sprawnej karty miała znaczenie.

PS użycie swapa powinno być w okolicach zera, każdy wynik powyżej kilku % jest już niepokojący (a masz to na końcu wykresu), co ciekawsze zasadniczo swap w HassOS nie powinien być wykorzystywany jeśli zajęcie pamięci nie przekracza koło 80%

PPS Skoro karta się prawdopodobnie kończy, to nie czekaj aż padnie (zakładam, że snapshoty, a przynajmniej ten najświeższy masz w chmurze lub choćby na osobnym nośniku, nie pozbywaj się też starszych, bo przy nieszczęśliwym splocie okoliczności najnowszy snapshot może zostać uszkodzony podczas jego tworzenia jeśli wystąpią błędy zapisu).