Voice assistant local

Spróbuje coś kiedyś stworzyć ale to nie będzie sprzęt pod HA ale pod lokalne AI (Frigate, whisper, piper, LLM).

Odpowiedni tytuł, odpowiedni dział (tak mamy je w przebudowie) i będzie OK.

Tak się zastanawiam i wydaje się, że postawienie osobnej, fizycznej maszyny, do Voice Assistant ma sens. Chodzi o to, że ta maszyna może być wyłączana podczas nieobecności domowników. Po co trzymać “pod parą” coś co nie jest przydatne? Można by ją wyłączać np. wraz z włączeniem alarmu podczas wyjścia.

Ale zależy do czego tej maszyny. Jeśli by postawł tylko dla Whisper i Piper i do tego prosty agent konwersacji bez AI to się chyba na nie ipłaca lepiej zainwestwoać w trochę lepszy sprzęt i zrobić satelitę z jakiegoś raspberry. To jest tylko moja opinia.

Jak obiecałem, piszę aby temat nie “umarł”. Jestem po kilkunastu godzinach zabaw z VA. Mam takie przeświadczenie, że kierunek w jakim poszła społeczność HA niepotrzebnie naśladuje rynkowe produkty. Alexa czy Google Home to są produkty “z półki” , klient ma kupić, rozpakować i ma działać. Home Assistant jest inny, tutaj znakomita większość z użytkowników, to zawodowcy: programiści, sprzętowcy. Potrafią połączyć kabelki, potrafią napisać kilka linijek kodu czy konfiguracji. Nie myślimy o spokoju, raczej myślimy jak rozwiązywać cały czas pojawiające się kłopoty czy jak podłączyć do systemu coś, czego do tej pory nikt nie podłączył.
Ale do rzeczy, wróćmy do tematu VA w szczególności w wersji local. Powiedzmy, że mamy wersje local na wystarczajaco mocnej maszynie. Po co nam ‘Wake word’ zaszyty w urządzeniu VA? Niech słucha cały czas, jest lokalny, nic nie wychodzi na zewnątrz. Wykryje określony ‘Wake word’ i ze słuchania przechodzi na analizę i wykonywanie. Nie chce migających światełek i słuchania co zrobił. Jak zrobił coś czego nie widać, wystarczy mi “OK”, jak zapalił światło, to widzę przecież, że zapalił, po co gada? Samo urządzenie jest dosyć “nieszczęśliwe” poprzez instalacje mikrofonu i małego głośnika w małej obudowie. Przecież nic nie stoi na przeszkodzie, aby w dużym salonie umieścić kilka mikrofonów BT (gotowce) i jeden głośnik BT (gotowiec). Jak głośnik (zestaw głośnikowy) będzie odpowiednio dobry, to wtedy może służyć jako prawdziwy media player Music Assistanta. Oczywiście wiem o ograniczeniach BT przy podłączaniu wielu urządzeń, ale to problem który da się rozwiązać…

Dokładnie tak jak wypowiesz wake Word cały TTS, STT czasem LLM ładuje się z dysku do pamięci RAM lub GPU. Ja mam takie podejście że lepiej jakby gadał bo jak powiedz np. uruchom wentylacje w łazience, a ty jesteś na drugim końcu domu po co masz iść i to sprawdzać jak on ci może powiedzieć skąd wtedy wiesz że cię usłyszał oczywiście że mogłoby pójść voś nie tak i on by powiedział że uruchomił a jest nie uruchomione. Może trochę słaby przykład podałem lepszy jest np. zamknij bramę. Dla mnie lepiej jakby mi powiedział ponieważ jest ciemno a bramy nie widzę czy się zamyka. Ale jest też kwestia np. włącz światło w salonie, a ty jesteś w salonie to wtedy jest to uzasadnione żeby do ciebie niepotrzebnie gadał bo przecież widzisz że światło się za świeciło. Użycie głośnika BL to dobry pomysł i sam tak chcę zrobić ale lepiej chyba przez airplay (widziałem że ludzie polecają)oczywiście musi to być media player

Nie zupełnie. Najlepiej by było, jakby po fizycznym zamknięciu bramy VA dało ci potwierdzenie. Samo “zamykam bramę” nie świadczy o tym, że się zamknie. Myślę, że przypadki są indywidualne i również dlatego, chciałbym mieć to wszystko pod swoją kontrolą a nie kontrolą AI. AI jest bardzo gadatliwa :frowning:

To nie dokońca prawda można ustalić preferuje lokalną obsługę poleceń i w tedy będą do tego co się da używać np twoich skryptów.

W ha i w lokalnych systemach są zaawansowane ustawienia do komtroli AI możesz napisać mi prompt głuwny który mu mówi że ma odpowiadać krótko i zwięźle max 50 znaków oraz możesz mi ustawić liczbę output_token (max tokenów na wyjście) możesz ustawić poziom “myślenia”.

Ludzie “chcą to”, wbrew pozorom pasjonaci, którzy lubią sobie pogrzebać stanowią mniejszość wśród użytkowników HA, założenie typowego użytkownika jest takie - mam “totalny mess”, sprzęt od losowych producentów, często kupowany w/g klucza “bo był najtańszy” ale chcę by wszystko działało od pierwszego kliknięcia razem.

Już raz pisałem, ale powtórzę - słowo klucz jest potrzebne do oszczędzania mocy obliczeniowej (i co za tym idzie energii elektrycznej, ale nie tylko - temperatura jest zabójcą elektroniki - żywotność czegoś co pracuje gorące jest mniejsza niż tego co jest zimne).

Z tym akurat się zgadzam w pełni, jest tylko jedna kwestia, to by było dobre gdyby VA rozumiał w 100% każdą wydaną komendę, a tak nie jest.
Ba - tam gdzie komunikacja międzyludzka ma kluczowe znaczenie (np. wpływ na bezpieczeństwo ludzi) powszechne jest potwierdzanie otrzymanego komunikatu.

Niby nic nie stoi na przeszkodzie, tylko fabryczne konstrukcje takich rozwiązań używają procesorów sygnałowych, których nie znajdziesz w zwykłym mikrofonie BT, połączenie wielu mikrofonów w macierz to już w ogóle grube zagadnienie (natura przez miliardy lat zbudowała tylko stereo z emulacją dookólnej kierunkowości dzięki ruchomym uszom i/lub głowie, i nawet nie każde zwierzę to potrafi).

Nie jestem audiofilem, ale przy przeciętnym amplitunerze, takie głośniczki pierdziawki nadają się co najwyżej do kuchni lub WC.
Swoją drogą można odtwarzać tts na dowolnym odtwarzaczu, który obsługuje audio (tylko gadający TV, który wyciszy to co oglądasz i będzie gadał też wkurza).

1 polubienie

Być może - na pewno wiesz lepiej, bo dłużej i głębiej jesteś zaangażowany w HA. Ale ja należę do tej mniejszości.:slight_smile:

temperatura jest zabójcą elektroniki - żywotność czegoś co pracuje gorące jest mniejsza niż tego co jest zimne

Na pewno tak, ale nie można blokować czegokolwiek przez ten fakt. Zwykły TV pracuje na dużym obciążeniu. Dokładanie do sieci wifi całej masy urządzeń wpływa na obciążenie routera, ale przecież z tego powodu nikt nie ogranicza ilości “zabawek”. Moc i koszty - tak, trzeba mieć to na uwadze.

tylko fabryczne konstrukcje takich rozwiązań używają procesorów sygnałowych,

Tak, ale wcale nie wyślę o fabrycznych urządzeniach. Zresztą chyba nie ma urządzeń obsługujących wiele urządzeń BT bo to nie jest estradowy, profesjonalny standard. Znalazłem interface, które obsługują 4 urządzenia BT, ale cena zabija. No i tylko 4 :slight_smile: A nawiasem, może ten BT to zły pomysł, może łatwiej zrobić to za pomocą innej transmisji.

takie głośniczki pierdziawki nadają się co najwyżej do kuchni lub WC.

Tam też będą potrzebne ale dlatego dopisałem “zestaw głośnikowy” mając na myśli coś poważniejszego. A może soundbar od TV?
Jednym zdaniem: Więcej entuzjazmu !

Owszem - większość wiodących producentów jako medium dla audio stosuje Ethernet przewodowy i bezprzewodowy. Ale BT jest tańsze w realizacji.
Więc tu jest też jedna istotna kwestia o której większość zdaje się zapominać, a są nią pieniądze (dlatego mamy zalew rynku tandetą, bo finalnie daje ona większy zysk korporacjom).