Niestabilność HA

Niestety ostatnio spotykam się z coraz większą niestabilnością mojej instalacji HA. Występują samoczynne restarty, momentami nie mogę dostać się do File Editora, Terminala, Node-Reda, Z2M. W logach aż roi się od komunikatów

21-08-23 14:05:34 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 

rzadziej pojawia się pełniejszy:

21-08-23 14:03:43 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: Cannot connect to host 172.30.32.1:8123 ssl:False [Connect call failed ('172.30.32.1', 8123)]

Co chwila “Connection lost. Reconnecting…”. Macie pomysł jak temu zaradzić?

A na czym stoi instalacja?

Ubuntu server, docker

21-08-23 14:31:01 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:31:01 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:31:01 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:31:01 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:31:01 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:31:01 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:31:01 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:31:12 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:31:12 WARNING (MainThread) [supervisor.misc.tasks] Watchdog miss API response from Home Assistant
21-08-23 14:31:36 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:31:36 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:31:36 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:31:36 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:31:36 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:31:36 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:31:37 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:31:47 WARNING (MainThread) [supervisor.misc.tasks] Watchdog/Application found a problem with observer plugin!
21-08-23 14:31:47 INFO (SyncWorker_5) [supervisor.docker.interface] Stopping hassio_observer application
21-08-23 14:31:51 INFO (SyncWorker_5) [supervisor.docker.interface] Cleaning hassio_observer application
21-08-23 14:31:52 INFO (MainThread) [supervisor.plugins.observer] Starting observer plugin
21-08-23 14:31:53 INFO (SyncWorker_1) [supervisor.docker.observer] Starting Observer homeassistant/amd64-hassio-observer with version 2021.06.0 - 172.30.32.6
21-08-23 14:32:12 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:32:12 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:32:12 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:32:12 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:32:12 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:32:13 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:32:13 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:32:49 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:32:49 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:32:49 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:32:49 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:32:49 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:32:49 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:32:49 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:33:24 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:33:24 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:33:24 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:33:24 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:33:25 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:33:25 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 
21-08-23 14:33:25 ERROR (MainThread) [supervisor.homeassistant.api] Error on call http://172.30.32.1:8123/api/config: 

i znów reset :frowning:

@Piotr_K a zacznijmy od prostej sprawy. miejsce na dysku jest?

Jakieś 60% wolnego ze 120GB.

Ale to na proxmoxie czy mówisz o miejscu w HA?
W terminalu wydaj polecenie df -h i zobacz ile masz w HA

Nie mam proxmoxa, to ta “unsupported” konfiguracja na dockerze

Masz dość starą wersja HA w dodatku w wersji z końcówką 0, która zawsze zawiera sporo błędów. Proponuję update do ostatniej wersji w ramach 2021.06.x lub upgrade do najnowszej z uwzględnieniem zmian jakie zaszły.

HA mam w wersji prawie najnowszej: core-2021.8.7

Mój błąd, podana wersja dotyczy hassio-observer.

To niestety też może mieć wpływ na działanie systemu, im dłużej będziesz miał taką konfigurację tym większe mogą być niekompatybilności.

Całkowity reboot systemu pomógł, pytanie jak długo wytrzyma bez tej czerwieni w logach

HA czy całego linuxa? Jakie były uptime tych systemów?

Cały linux. Ostatni reboot był parę dni temu, gdy przypadkowo wyciągnąłem wtyczkę z terminala.

@Piotr_K według mnie skoro stało się już to kilka razy to znowu się stanie. Kwestia czasu. Jak dla mnie masz jakieś problemy z samym hostem na którym jest odpalony HA. Popatrz w logi hosta czy nie ma w nich czegoś co pokrywa się z czasem awarii HA.

@artur No i zmarnowałeś mi życie :frowning: Dla mnie te logi, to jak chińska instrukcja, nawet nie wiem, gdzie ich szukać. Czeka mnie w końcu ta przesiadka na Proxmoxa, ale boję się tego, jak diabeł święconej wody, bo na pewno coś się posypie i będę siedział w ciemnym mieszkaniu, lub tym podobne.

@Piotr_K przejście powinno być bezbolesne :slight_smile: co do logów to patrz w /var/log/messages na początek i we wszystko inne co masz w /var/log :slight_smile:

1 polubienie

ja mam HA na proxmoxie i ze względu na rosnące zajmowanie ramu zrobiłem codzienny restart maszyny w nocy i temat mam zamknięty. Wszystko działa bez zarzutu od kilku miesięcy

@luki25 to ze ram jest zajmowany to nic złego o ile nie wpływa na stabilność. Jaki jest sens posiadania wolnego ramu? Ram jest po to aby był zajęty. Ważne żeby się zwalniał/zajmował tak jak należy ale może być nawet cały czas na 100%

@artur
I tu się nie zgodzę… w przypadku HAOS (który zasadniczo nie ma możliwości konfiguracji) przy realnej zajętości w okolicach 80% zaczyna być intensywnie wykorzystywany swap, co ma zasadniczo katastrofalne skutki w kwestii wydajności, więc po prostu trzeba dbać o sensowne wykorzystanie pamięci.

Gdy można konfigurować system po swojemu, to oczywiście nie widzę przeciwwskazań do użycia całej pamięci), no ale to nie ten przypadek.
@luki25
Należałoby znaleźć przyczynę - zachowanie jakie opisujesz jest charakterystyczne dla sytuacji tzw. wycieku pamięci, tj, gdy jakiś proces/program/komponent przy swoim kończeniu pracy nie zwalnia poprawnie pamięci - to się zawsze musi skończyć wywrotką systemu, bo przy długotrwałej pracy zawsze zostanie zużyta całą dostępna pamięć i cały swap a potem system padnie bo wykorzystanie wzrośnie ponad 100% zasobów.

W przypadku HA kiedyś miałem taki problem z dodatkiem Glances (i znalezienie przyczyny nie było łatwe, ale się udało, obecna wersja ma to naprawione, ale dość długo korzystałem z workaround polegającego na dość specyficznej konfiguracji samego Glances) bywały też problemy z innymi komponentami (dlatego w każdej instalacji bezwzględnie monitoruję zajętość RAM i swap oprócz paru innych “życiowych” parametrów maszyny jak np. obciążenie, zegar i temperatura procka czy stan S.M.A.R.T. dysku).