Sztuczna inteligencja, analizowanie obrazu i automatyzacje

Sztuczna inteligencja w HA. Od kilku dni biorę na tapetę wykorzystanie AI do analizowania obrazu z kamer. Jedno to rozpoznawanie twarzy konkretnej osoby a drugie to rozpoznanie dokładnie samochodu wraz z numerem tablic i na podstawie tej analizy otwarcie bramy wjazdowej, jak na załączonym obrazku.

Sama analiza jest prosta i praktycznie w 100% nawet wieczorem uzyskuję dobre wyniki.

Do analizowania obrazu używam rozszerzenia LLM Vision, gdy pojawi się ruch, HA robi snapshot i wysyła je np. do Google Gemini, ten na podstawie promptu wypluwa odpowiedź:

Przykładowy prompt:

Opisz rodzaj samochodu, kolor oraz numer rejestracyjny w następującym schemacie: “{model},{kolor}, {numer rejestracji}”

Odpowiedź:

Na podstawie dostarczonego obrazu:

Tesla Model 3, biały, DW XXX XX

Mam teraz dylemat, jak zrobić automatyzację która czyta odpowiedź i na podstawie spełnienia wszystkich prawidłowych danych otworzy bramę?

@jokers bardzo fajnie :slight_smile: ale na podstawie tak ogólnego opisu Twojego rozwiązania, raczej nikt z nas tego nie zrobi u siebie bo brak informacji co i jak.

Raczej to AI powinno zapisać odpowiedź do encji, np. do Input text - Home Assistant a poźniej to tylko porównianie encji z oczekiwanym tekstem.

Edit:
Dla zainteresowanych w/w rozwiązaniem pomocny będzie tutorial - Setting up an AI Image Analyzer on Home Assistant - Pi My Life Up.

Wcale się nie pomyliłem w tym temacie :grin:, rozwiazanie jest dokładnie takie (w tutorialu od punktu 26.):

- action: input_text.set_value
    metadata: {}
    data:
      value: "{{response.response_text}}"
    target:
      entity_id: input_text.llmvision_response

Poczytaj ten watek - sa tam gotowe blueprinty do automatyzacji może coś z tego wyciągniesz.
LLM Vision: Let Home Assistant see! - Share your Projects! / Custom Integrations - Home Assistant Community

Ja mam to ujęte w prompt. Automatyzacja która robi robi zdjęcie i szuka kota pod drzwiami jeżeli kot siedzi to dostaje powiadomienie.

Treść prompta:

Jest to obraz z kamery zamontowanej na moim domu z widokiem na drzwi
wejsciowe. Drzwi znajdują się po lewej stronie kadru. Twoim zadaniem jest
informowanie mnie, czy mój kot chce wejść do domu, ale tylko wtedy, gdy
przed drzwiami nie ma ludzi. Jeśli przed drzwiami znajduje się kot czekający na wejście, a na obrazie nie
ma ludzi, powiedz “kot”. W przeciwnym razie powiedz “nie_ma”.
Uważaj, aby fałszywie nie utożsamiać cieni z pobliskich drzew z kotem.
Nie mów “kot”, jeśli widzisz człowieka. Człowiek już wie, że kot chce wejść.
Nie używaj słów innych niż “kot” i “nie_ma”.
Używaj małych liter.
Nie używaj interpunkcji ani cudzysłowów.

To rozwiazanie ma jedna trywialna wade (podobnie jak wszystkie inne rozwiazania bazujace tylko na analizie obrazu): spisujesz tablice wozu, drukujesz kartke papieru i nalepiasz na cokolwiek co ma zarys auta i wchodzisz jak do siebie :wink:

Za dużo filmów się naoglądałeś :joy:

No niespecjalnie, testowalismy tego typu systemy w jednym z obiektow, kartka z numerami na oryginalne blachy wozu i detekcja je waliduje takze kijek to warte jako zabezpieczenie. Takze owszem fajna zabawka ale mozna to traktowac co najwyzej jako ciekawostke.