Korzystałem wcześnej z ElevenLabs gdzie miałem sklonowany głos (nie mój oczywiście) ale teraz robią za bardzo pod górkę i nie można użyć czyjegoś. Znalazłem MiniMax Audio gdzie pomyślnie sklonowałem głos osoby publicznej. Jedyny problem - brakowało integracji z HA.
Dlatego nie zastanawiałem się zbyt długo i w ciągu 2 dni napisałem własną integrację. Mam to działające w jakimś podstawowym zakresie tzn jedna encja TTS spięta z wybranym głosem. Działa całkiem dobrze z Voice PE.
Jest ktoś tym zainteresowany? Docelowo po drobnych poprawkach wrzuciłbym to na github żeby dało się zainstalować przez HACS.
EDIT:
Integracja dostępna tutaj GitHub - AndrewSpec/minimax_tts: Custom Text-to-Speech integration using MiniMax API (speech-02-turbo and newer models) via WebSocket for minimal latency.