Zigbee2mqtt problem z wieszaniem się

A o tym nie pomyślałem - wieczorkiem sprawdzę

Niestety u mnie w BIOS nie znalazłem opcji uśpienia zasilania - z tym że zmieniłem port z front panelu na tylny przeznaczony dla klawiatury- może to pomoże bo mam wałczone Wake on USB więc klawiatura musi być zasilana non stop.
I tu nic się nie zmieniło nadal jakby koordynator usypiał.

Wydaje mi się ze już wyczerpałem pomysły - znalezłem taki oto post

W którym jest informacja, że należy odinstalować i zainstalować na nowo Z2M - to tez zrobiłem, usunąłem wszystkie wpisy , zmieniłem klucz sieci i nawet 1 dzień wyglądało fajnie. ale jak to się mówi żarło , żarło i zdechło.
Tak więc jestem w tym samym punkcie i jak na razie jestem mocno zniechęcony.

@Wojtek_13 To może czas się przerzucić na ZHA.
Zrezygnowałem z Z2M ze względu na gubienie połączenia z niektórymi wyłącznikami.

Ale bez zdiagnozowania problemu nie da się go rozwiązać…

W momencie gdy wprowadzasz setkę zmiennych to nie sposób stwierdzić która jest winna.

Skoro zdecydowałeś się na budowę sieci od zera (na innym kluczu to inna nowa sieć), to powinieneś przetestować koordynator z jednym routerem, potem dołożyć drugi router itd. budując siec oddalając się od koordynatora w miarę pogarszających się warunków propagacji, posługując się rozsądkiem możesz dokładać też urządzenia końcowe=bateryjne, ale najlepiej dołożyć je na końcu, ale nie wszystko naraz - jedno wadliwe urządzenie może rozwalać całą sieć.
Podejrzany od początku jest koordynator, czy próbowałeś go przeflaszować nawet tym samym softem, który miałeś do tej pory (chociaż jest wiele nowszych nieoficjalnych wersji do wyboru).

Mając w głowie, że cały czas NR ma być bezwzględnie wyłączony (naprawdę nie wiemy czy procesy, które w nim masz nie są szkodliwe).

Co do budowy sieci to moja siec jest bardzo mała - raptem kilka (6) termostatów (routerów) 2 sterowniki zaworów (tez z funkcja routera) i w celu polepszenia zasięgów 2 - 3 switche jako routery
Buduję ją właśnie na raty czyli najpierw najbliższe urządzenia -routery w ilości 2-4 szt i tak się koordynator wiesza . Bateryjnych nawet nie podłączałem
Co do node red to mam w nim naprawdę proste rzeczy -

Nie robiłem nic z koordynatorem - ale jeszcze spróbuję przefleshowac - tak jak pisałem nie znalazłem innego nowszego softu
@marek_k gdzieś wcześniej wyczytałem że Z2M jest lepsze od ZHA i nawet przez chwilę miałem ZHA ale przekonały mnie argumenty że Z2M niby jest lepsze. Ale nic nie strace jak jeszcze raz spróbują

Tak jak pisałem Sonoff/iTead/eWelink ma centralnie wylane na aktualizacje softu do swoich wypustów, ale w Australii ktoś się za to wziął


OFF TOPIC
Tak swoją drogą dla innego wypustu tych samych Chińczyków - bramki ZB-GW03 która daje się “odchmurować” nawet fabryczne firmware pochodzi “z trzeciej ręki”

Może występuje jakiś problem z zasilaniem na porcie USB, jakieś mocniejsze spadki napięcia zawieszają go.

1 polubienie

Podejrzenie w tych okolicznościach wydaje się uzasadnione,
ALE
ile prądu może potrzebować koordynator w postaci dongla USB?

Zmierzyłem dongla na MCU TI z “dopalaczem RF” i ustawioną maksymalną mocą wyjściową, przy sztucznie wygenerowanym dużym ruchu w sieci prąd nie przekroczył nigdy 20mA, a trzymał się raczej w okolicy 10mA.
Gwarantuję że parametry wypustów SiLabs też się muszą mieścić w tych granicach.
Większy pobór (i to sporo) mógłby mieć uniwersalny koordynator z Ethernetem na pokładzie i np. ESP32 jako pomocniczy MCU, ale to nie ten przypadek.

Gdyby port się wieszał przy takim obciążeniu to nie działałoby w nim poprawnie praktycznie żadne urządzenie USB

ALE tak w sumie to nie wiemy czy coś jeszcze nie jest powpinane do portów na tym samym hubie, nie wiadomo właściwie jaki sprzęt jest użyty jako host i w jakiej konfiguracji sprzętowej, ani czy to aby nie jakiś zabytek, gdzie mogą się ujawniać problemy wynikłe ze starzenia elementów.

O zasilanie na portach raczej bym się nie obawiał -
1 sprawdzałem na kilku portach - i to z oddzielnymi Hubami
2. HA mam postawione na dedykowanym komputerze x86 Dell z i5 , więc płyta jest porządnie zasilana,
3. Nic poza koordynatorem nie mam wpiętego do USB - chwilowo podpinana jest tylko klawiatura ale tylko na czas gdy robię coś bezpośrednio np. w BIOS. Przy normalnej pracy nawet klawiatury nie ma

Hmm nie wiem czemu tak nabierasz wody w usta zamiast napisać konkrety - co to za model i jaką ma specyfikację?
Pierwsze i5 pojawiły się na ryku w 2009? więc po tym nie rozpoznamy czy masz komputer wyprodukowany “wczoraj” czy 15 lat temu.
To są informacje, o które w ogóle miałem pytać wcześniej ale mi umknęło.

Jakkolwiek brak prądu jest mało prawdopodobny (przede wszystkim ze względu na nikłe faktyczne zapotrzebowanie samego sticka).

W sumie mało na temat, ale miałem na myśli wewnętrzne huby na płycie głównej, jeśli podpinasz zewnętrzne huby to warto by miały własne zasilanie (czyli to były tzw. huby aktywne, bo pasywne są zasilane z samego portu więc de facto redukują obciążalność, a nie zwiększają).

Nie nabieram wody w usta po prostu nie sądziłem że przy tak małym systemie jest to krytyczne - choćby dlatego ze popularna Raspberry jest o wiele mniej stabilna i wydajna.
Dell OptiPlex 7010
Procesor I5 3470
RAM 8GB DDR3
Dysk SSD 512

HA zainstalowany jako OS

OFF TOPIC

???
Nie mogę ani jednego złego słowa powiedzieć o stabilności RPi (nawet w odniesieniu do modelu, który miał poważny błąd konstrukcyjny - pierwsze wypusty RPi3, szybko z resztą wycofany z produkcji na rzecz wersji poprawionej), swoją drogą to jest SBC dedykowany edukacji, a nie wół roboczy, ale mimo to format B wszedł do wybranych zastosowań przemysłowych (oprócz formatu CM który akurat był dedykowany do bardziej poważnych zastosowań), oczywiście trzeba brać pod uwagę jego konstrukcyjne ograniczenia, więc nikogo nie namawiam na akurat tą platformę, a ze względu na zasoby takie jak RAM, których nie da się rozszerzyć wybór rozsądnych modeli jest bardzo ograniczony.
O ile sam HAOS nie jest bardzo zasobożerny, to jednak rozbuchana wirtualizacja (konteneryzacja :P) jest możliwa, a przy zainstalowanych dziesiątkach Dodatków (wśród których zdarzają się i takie zasobożerne jak np. NR w którym uruchamiany kod może nawet powodować wycieki pamięci) potrzebny bywa sprzęt o naprawdę dużych zasobach.

Aby nie być gołosłownym znajomemu pożyczyłem RPi4B 2GB na tymczasową instalację zanim się dorobi odpowiedniego x86-64 do pracy przez lata i tak minęło chyba już z pół roku, a instalacja ma się nadal dobrze ;D.


Wracając do tematu OptiPlex 7010 jest klepany od wielu lat (być może nawet kilkunastu), ten twój to chyba najstarsza generacja (i5 3470), ale to jednak typowa desktopowa konstrukcja, więc nie wątpię, że ten procesor jest sporo wydajniejszy od BCM2711 za cenę poboru mocy rzędu kilkudziesięciu W przy obciążeniu (nie wiem ile ten komputer dokładnie pobiera w idle, czyli stanie najbardziej zbliżonym do typowego poboru podczas pracy HA, ale spodziewam się wartości kilkukrotnie wyższej od poboru przez RPi4 przy maksymalnym obciążeniu - tu oprócz innej architektury ma znaczenie stara technologia w której byłą produkowana trzecia generacja i5 - to jakieś 10 lat różnicy, a rozwój technologii nie stoi w miejscu)

Więc wszystko jest kwestią spojrzenia na zagadnienie.

Biorąc od uwagę model - spojrzyj na tabliczkę znamionową i sprawdź datę produkcji, po tym oceń ile lat ma przepracowane ten sprzęt - po 10 latach może dawać o sobie znać starzenie elementów takich jak kondensatory elektrolityczne w torach zasilania…

Ale niestety nie zbliżyliśmy się ani o krok od rozwiązania problemu.

Masz RPI? jeśli tak to na jego bazie odpal testową instalację HAOS tylko dla 2 addonów Z2M+MQTT.

Nie ma obecnie żadnej RP więc nie przetestuję
Natomiast pisząc o stabilności i wydajności miałem na myśli to że niestety w RP moim zdaniem są dość wrażliwe punkty takie jak

  • zasilanie chyba najsłabszy punkt
  • karty SD jako dysk może miałem pecha ale wielokrotnie padały mi nawet te z serii przemysłowych
    Ale nie o tu chodzi , być może mój OptiFex rzeczywiście jest nieco przechodzony ale na 100% w pełni sprawny.
    Co do pożerania energii to w pełni się zgodzę dlatego planuje przejść na PICO317
    I tak jak proponujesz zainstaluje samo HAOS Z2M +MQTT
    Ale kilka dni to na pewno potrwa

OFF TOPIC ciąg dalszy
Na stabilność RPi kluczowy wpływ ma płyta główna i procesor.

No nie jestem w stanie dyskutować z pomysłami uruchomienia systemu generującego ogromne ilości danych i zapisywania ich na karcie SD czy TF.
Po prostu trzeba użyć rozsądku i używać dysku ssd na dane - jest to możliwe na każdej platformie SBC, na której daje się uruchomić HAOS w dedykowanej wersji, a wybrane platformy umożliwiają nawet instalację HAOS na ssd (RPi 3B, 3B+ i 4B to umożliwiają, 5B podobno też).

Masz znajomych wkręconych w temat Zigbee? to pożycz od kogoś inny koordynator (a nawet taki sam, ale sprawdzony, że działa OK) albo wymieńcie się koordynatorami dla testu (to wymaga parowania całej sieci od nowa i niech Was ręka nie świerzbi by ustawić secondary MAC-adress !!! najlepiej odpalić drugą instancję Z2M dla drugiego koordynatora, a pierwszą obecnie działającą wyłączyć).


Powrót do tematu

Mówisz poważnie? Zjadłeś już zęby na tak niestandardowych pecetach czy tam platformach przemysłowych?

Od skrajności w skrajność…
Tym razem Atom na pokładzie (czyli piwnica wydajności w kamienicy intela, on jest słabszy od BCM2711) i mSata na pokładzie (czyli najbardziej nieopłacalne ssd jakie istnieją), no OK jest jeden port sata czyli można się jakoś podratować…, jedyny plus to tyle RAMu ile chcesz, o ile to nie będzie więcej niż 8GB… (no niemal jak Ford-T który można było dostać w dowolnym kolorze pod warunkiem, że będzie to czarny ;D )
Przynajmniej dostaniesz go z jakąś sensowną obudową i zasilaczem? i w dostatecznie groszowej cenie licząc się z niezbyt świeżą technicznie konstrukcją?

Naprawdę nie możesz wybrać czegoś co jest sprawdzone i przynajmniej jest kilku użytkowników takiego samego sprzętu w społeczności używającej HAOS?
(no chyba, że masz gdzieś potwierdzenie, że HAOS na tym sprzęcie leci od strzała i obsługuje wszystkie flaki - karta Ethernet intela jest to ostatecznie dobra wróżba).

(no cóż ja jako najbardziej standardowe mini-PC sugeruję intel NUC między 5 a 10 generacją - takie testowałem i wiem, że są w 100% kompatybilne z zestawem sterowników dostępnych w HAOS, gdzie nie można sobie doinstalować własnych sterowników kluczowych podzespołów)

OK OK
Po prostu mam PICO317 a RP musiałbym kupować
Tak z ciekawości spojrzałem na Benchmarki i wcale nie jest tak źle.
Zresztą to tylko rozprawa o wydajności która w tym przypadku nie ma większego znaczenia bo obciążalność systemu jest na akceptowalnym poziomie
Pamięć - maks 21%

A tu procesor szpilki to restarty ZigBee2Mqtt

  • dalej nie mogę zdiagnozować przyczyny - a niestety nie mam nikogo znajomego zakręconego na ZigBee więc nie mam od kogo pożyczyć koordynatora , jakbym miał dawno bym to zrobił.
    Ponieważ jak na razie nie działa mi to na stałe zatrzymałem NR , odpiąłem wszystkie urządzenia i podłączam na nowo po 1-2 szt co kilkanaście godzin - mam w tej chwili 4 i czekam . Co prawda po połączeniu 3 szt (bateryjnej) coś mi się zawiesiło po 2-3 godzinach więc ja odpiąłem - ale nie wiem czy nie związane było to z kablem USB bo przestawiałem koordynatora. Jak do jutra będzie stabilnie to podepnę od nowa
    Mam też pytanie czy zasięgi rzędu 100-170 są wystarczające

To nie są ani zasięgi, ani moc sygnału, tylko umowne LQI czyli wartość od 0 do 255 (a w niektórych implementacjach od 0 do 128) odpowiadająca kosztowi przesłania telegramu daną ścieżką - im niższy koszt tym wyższa wartość = lepiej. Czasem implementacja jest błędna i te wartości są zupełnie “z czapy”.

A nie to zupełnie co innego, oczywiście warto wypróbowywać jeśli masz taką możliwość, wręcz jeśli testy wypadną w 100% pomyślnie, to zrobiłbym na twoim miejscu uzupełnienie dokumentacji tam

PS za często robisz restarty, ale wykres użycia pamięci rośnie systematycznie między nimi - to może być objaw wycieku pamięci, masz jej 8GB więc poważny wyciek pamięci jest trudny do zauważenia, ale prawie nigdzie nie masz wypłaszczenia wykresu charakterystycznego dla długookresowej stabilnej pracy, no nie ukrywam, że w tej instalacji też grzebałem ostatnio, wręcz widać skokowy przyrost wykorzystania RAMu spowodowany lekko trefną aktualizacją

a tak CPU w tym okresie, te zwyżki to masowe kompilacje w ESPHome, procek to celeronek J3455, czyli trochę starszy od tego Atoma i nieznaczne od niego mocniejszy, spadki do zera to pewnie restarty maszyny - zmieniałem też wersję systemu

Restarty robię tylko dla tego że cały czas testuję - czyli jak mi się “zwiesi” praca koordynatora.
Piszę praca koordynatora bo do końca nie wiem czy jest to koordynator sam w sobie, port USB, sam dodatek Z2M a może jeszcze coś innego.
Niestety po nocy z 4 obiektami znowu się “uśpił” więc dalsze testy po uruchomieniu PICO
A co ciekawe po wyłączeniu NR dziwnie rośnie zajętość pamięci a następnie jest skokowo zwalniana


Procesor też analogicznie coś obciążać zaczęło w identyczny sposób

Nie wiem czy jest to już sukces , ale jak na razie zajętość pamięci od 24 godzin jest praktycznie constans. Do tego nie zauważyłem “uśpienia” koordynatora.

Od około 6 godzin mam tez włączone NR i nic się nie zmienia.
Wszystko wskazuje że wina jest po stronie koordynatora.
Udało mi się zrobić upgrade do wersji
7.3.1.0 build 176

  • z linku od @szopen - wielkie dzięki
    Zobaczymy czy to rzeczywiście sukces
    Nadal na Dell - ale planuje próby na PICO

To zwykle nie jest zdrowy objaw - jakiś proces prawdopodobnie ma wyciek pamięci (nie da się tego zweryfikować, bo uciąłeś skalę), jeśli te spadki to nie skutki twojego działania, to być może supervisor zabija ten proces.
Zwiększanie obciążenia procesora potwierdza to podejrzenie - wydaje się, że wykonuje się gdzieś jakaś nieskończona pętla rekurencyjnie wywołująca coś, co nie zwalnia pamięci…

To może być też efekt wadliwie przygotowanych automatyzacji, no w sumie czegokolwiek, no niestety sam musisz analizować swoje konfiguracje, nie sposób zgadnąć co w twojej instalacji zależy od czego, może po prostu to masowo wywoływane błędy przez jakąś integrację, której zabrałeś obiekty, na których operuje.


Wstępnie zakładam, że miałeś wadliwe firmware, skoro od ręki widziałeś poprawę…