Dziwne wartości HA w monitorze systemowym

Witam serdecznie moderatora Artura oraz pozostałych członków .
Od pewnego czasu śledzę forum, a przy okazji uczę się, stosując moją wewnętrzną zasadę szanowania czyjegoś czasu i nie zadawania bezsensownych pytań, bez wcześniejszej próby znalezienia odpowiedzi samemu. Do tej pory dzięki grupie udawało mi się zdobywać kolejne etapy wiedzy w kwestii konfiguracji HA.
Jednak związku ze słabym doświadczeniem z linuxem spodziewałem się, że niestety kiedyś będę zmuszony poprosić o pomoc, czego owocem jest ten mój pierwszy post.

A zatem do rzeczy. Czym może być spowodowany problem przekroczenia wartości Core CPU Usage (przekroczenie powyżej wartości 100 %)?

Nie wynika on raczej z braku zasobów sprzętowych (drugie zdjęcie).

Po restarcie wartości te oscylują w granicach 0,6 do 1,6%. Po kilku godzinach pracy rosną do wartości ok 104 %…
Osiągnięcie pułapu powyżej 100% skutkuje znacznym spadkiem wydajności, przetwarzanie zdarzeń opóźnione nieraz o kilka sekund.

Instalacja Home Assistant w Proxmox na HP T-620 (4core - wszystkie 4 zadeklarowane w VM HA, 4GB RAM, 128SSD). Instalowałem według poradnika Artura (dziękuję).

Stworzyłem kolejną VM z instalacją HA przywróciłem dane z poprzedniego snapshot-a i problem niestety powraca.

Bardzo dziękuję za pomoc

Osobiście do analizy co “zamula” HA odpalam dodatek Glances, opisałem to w wątku Glances - zaawansowany monitoring.

@Bogdan_Sudol musisz namierzyć co jest powodem takiego zachowania (instrukcja @macek będzie dobrym początkiem). to nie jest normalna sytuacja i stawiałbym na jakiś dodatek/integrację.

Zrobiłem według instrukcji @macek (dziękuję) i niestety nie wiem do którego add-ona się przyczepić (według mnie wszystkie w normie).
Tylko moduł homeassistant - dalej ponad 100%.

Mam jeszcze w systemie dongla Z-wave stick oraz Conbee 2 + MQTT - ale myślę, że to nie one są źródłem opisanych problemów.

Tak na szybko, faktycznie, nie ma się do czego przyczepić, jaką wersję HA masz zainstalowaną?

Home Assistant 0.116.4

Niczego podobnego nie znalazłem w sieci.

Po restarcie wartości te oscylują w granicach 0,6 do 1,6%. Po kilku godzinach pracy rosną do wartości ok 104 %…

To jest zastanawiające, im dlużej działa system tym gorzej, możliwe przyczyny: coś się zapętła, po jakimś zdarzeniu, automatyzacji. Sprawdż wykresy użycia CPU, może coś da się zaobserwować - liniowy wzrost obciążenia, skokowy, może pokryje się z jakąś automatyzacją.

W Glances wciśnij “z” i dopiero wtedy widać poszczególne procesy

Sortowanie wybierasz klikaniem w nagłówek - u mnie (przy wybranym sortowaniu w/g obciążenia CPU) proces który “świeci na czerwono” celowo zajmuje 3 rdzenie - 294,2% obciążenia CPU to właściwie niecałe 3 rdzenie:

@szopen, wolne zasoby obliczeniowe udostępniasz do celów naukowych - Folding@home, brawo TY :heart:

Trafiony - zatopiony

Rożnica w poborze mocy jest dość symboliczna (przynajmniej na takim sprzęcie, jakiego używam), a HA i tak sobie spokojnie radzi na 1 rdzeniu.

Sorki za ten mały OT

No ciekawe. Ale ja nie mam instalowałem add-ona Folding@home w swoim HA, więc nie wiem jakim kanałem mogli by “ssać” moje wolne zasoby.
Chyba, że instaluje się coś w tle z automatu. Ale add-on jest w store do pobrania.
Czyli uważacie że 4 rdzenie to przesada i spokojnie można zmniejszyć ich ilość np. do dwóch?

Hehe oczywiście by nie mogli… podałem przykład z mojej instalacji, gdzie celowo poświęcam moc obliczeniową…

Niestety u Ciebie najwyraźniej się coś wali w systemie - nazwa procesu nic nie dała (python3 może być użyty do wszystkiego… a skoro core przekracza 100% to dziury szukałbym w samym HA) pozostaje przejrzeć logi, możesz ewentualnie zrobić downgrade HA (jeśli sytuacja pojawiła się wraz z aktualizacją, patrzyłeś na breaking changes przed aktualizacją?).

OK. Widzę, że temat jest raczej bardziej skomplikowany niż mi się wydawało. Nie wiem czy z moją wiedzą uda mi się go ogarnąć, ale skoro nikt nie spotkał się z podobnym problemem to na pewno warto poświęcić czas na jego analizę…
Wcześniej miałem wersję HA 15 … ale po świeżej instalacji HA automatycznie zrobiło mi wersję 16.
Wydaje mi się jednak, że również w poprzedniej wersji problem ten również występował (zastanawiałem się dlaczego przycisk nie działa - okazało się że działa ale ze znacznym opóźnieniem spowodowanym przeciążeniem systemu) :slight_smile:

A nie masz jakiegoś magicznej automatyzacji która może powodować jakąś pętlę?

W sumie to mam jakieś trzy proste automatyzacje (czujnik deszczu z powiadomieniem, skrypt pralka - koniec prania, jakieś zabawy z ogrzewaniem niedokończone)
Na razie zgodnie z Twoją radą oraz radą @macek.wyłączyłem je wszystkie oraz zrestartowałem VM. Będę obserwował.

Jak nie pomoże będę weryfikował procesy w node-red. Możliwe, że tam natworzyłem jakieś dziwne pętle (cały czas się uczę).

Bardzo dziękuję za wszystkie podpowiedzi i sugestie.

Czesc,
moze to w czyms pomoze, moze nie, ale napisze. W moim HA nie ma jeszcze praktycznie nic, bo wykonczenie domu zmierze ku koncowi, ale zauwazylem jedna ciekawa rzecz majac wlasnie wersje 116.4.
Kiedy puszczalem snapshot w HA zuzycie procesora siegalo prawie 300%, dziwne, ale po aktualizacji do 117 podczas backupu mam 100,5% maksymalnie. Sprzet jakiego uzywam do HA do netbook ASUS 1215n, wersja z 3GB RAMu. Oprocz nginx standalone nie ma tam nic innego. HA na Debianie z dockerem.

Pozdrawiam

Mam ten sam problem z t620. Udało się jakoś ogarnąć temat?

Maszyna chodzi pełną mocą, po restarcie przez pare godzin jest dobrze, cpu około 6% później znowu 98% i wszystko strasznie muli. Nawet zalogowanie się wtedy z aplikacji HA na telefonie jest nie możliwe. Odpaliłem glances i sytuacja identyczna jak u Ciebie.

Monitorujesz wykorzystanie pamięci i swap? np. tak:



Tutaj akurat screen z glances niedługo po restarcie HA. A te dwa kolejne to z proxmoxa wykresy z tygodnia, te spadki to restart maszyny. Swap niby mam ale tam 0% cały czas pokazuje

Nie widać (w Glances) nic szczególnie niepokojącego - z Glances możesz sobie utworzyć sensory (bo gdy odpalasz jego GUI to wtedy sam żre spore zasoby).

Na próbę zatrzymaj Motion Eye (i wyłącz jego autostart) i wtedy sprawdź jak się to wszystko zachowuje.