Questo sito è federato con il Fediverso pertanto visitandolo potresti fare connesssioni esterne ai server di Mastodon, Lemmy, Friendica e altri software.
Non vengono installati cookie né raccolti dati personali da parte nostra, ma i server di destinazione potrebbero ricevere il tuo indirizzo IP come normale parte della comunicazione Internet.
Whisper+, un input vocale per Android

📅 Pubblicato il

Whisper+ è un metodo di input per Android che sfrutta la tecnologia di riconoscimento vocale basata sul motore Whisper. Il progetto è completamente open source e distribuito sotto licenza GPL v3, con diverse componenti riutilizzate da progetti MIT, Apache‑2.0 e altre licenze compatibili. Whisper+, un input vocale per Android Al primo avvio di Whisper+ vi verrà…

INTERAZIONI DAL FEDIVERSO

⁂ Questo articolo è federato!

Puoi commentarlo, ricondividerlo o apprezzarlo tramite il tuo profilo sul Fediverso.

Prova a cercare l’indirizzo di questo articolo su Mastodon, Lemmy, Citiverse o Friendica!

Licenza GPL v3.0 (clicca per dettagli)

Whisper+ è un metodo di input per Android che sfrutta la tecnologia di riconoscimento vocale basata sul motore Whisper. Il progetto è completamente open source e distribuito sotto licenza GPL v3, con diverse componenti riutilizzate da progetti MIT, Apache‑2.0 e altre licenze compatibili.

Whisper+, un input vocale per Android

Al primo avvio di Whisper+ vi verrà richiesto di scaricare i modelli Whisper da Hugging Face. Il download avviene direttamente dall’app e, una volta completato, i modelli vengono memorizzati localmente, consentendo in questo modo un funzionamento interamente offline. Questo approccio garantisce la privacy dei dati vocali, poiché nessuna registrazione viene inviata a server esterni.

Per attivare Whisper+ come metodo di input di sistema, dovrete aprire le impostazioni di Android (Sistema → Lingue → Voce → Input vocale) e selezionare Whisper+ come servizio di riconoscimento. Whisper+ supporta inoltre le chiamate tramite intent (RecognizerIntent.ACTION_RECOGNIZE_SPEECH), permettendo ad altre applicazioni di sfruttare il motore di trascrizione.

Funzionalità principali

Riconoscimento vocale offline: tutti i processi di trascrizione avvengono sul dispositivo, senza dipendere da connessioni internet, è presente il supporto multilingue visto che Whisper+ riconosce tutte le lingue supportate dal modello Whisper e può tradurre automaticamente qualsiasi lingua supportata in inglese.

Modalità IME e sistema: potete utilizzare Whisper+ come tastiera personalizzata (ad esempio tramite il pulsante microfono di HeliBoard) oppure impostarlo come input vocale predefinito per l’intero sistema.

Per ottenere risultati accurati, queste sono le indicazioni ufficiali da seguire:

  1. Tenete premuto il pulsante di attivazione mentre parlate, oppure attivate la modalità automatica se disponibile.
  2. Fate una breve pausa prima di iniziare a parlare, in modo da dare al motore il tempo di prepararsi.
  3. Parlate in modo chiaro, a volume medio e con un ritmo costante.

Ricordate che ogni registrazione è limitata a 30 secondi; superare questo intervallo interrompe la cattura audio e richiede una nuova sessione.

Architettura e dipendenze

Come detto a inizio articolo il codice di Whisper+ si basa su diversi progetti open‑source:

  • whisperIME (licenza MIT) fornisce la struttura di base dell’IME.
  • RTranslator e i relativi modelli ONNX di Whisper gestiscono la conversione del segnale audio in testo.
  • Whisper‑Android (MIT) implementa l’integrazione con le API Android.
  • OpenAI Whisper (MIT) è la fonte originale del modello di trascrizione.
  • Android VAD (MIT) rileva la presenza di voce, migliorando la gestione dei segmenti audio.
  • OpenCC4j (Apache‑2.0) consente la conversione di testi cinesi tra vari sistemi di scrittura.

Tutte queste componenti sono incluse nel repository del progetto, con istruzioni dettagliate per la compilazione e la personalizzazione. Il risultato è un’app leggera, modulare e facilmente adattabile a nuove versioni di Android o a requisiti specifici di altri dispositivi.

Conclusioni e dove scaricare l’applicazione

Whisper+ è una soluzione sicuramente non perfetta ma è un buon compromesso per chi desidera integrare il riconoscimento vocale su smartphone degooglizzati.

@lealternative


Hai trovato errori o imprecisioni nell’articolo? Puoi segnalarle su Feddit!

skariko
skariko
@skariko@www.lealternative.net

Autore ed amministratore del progetto web Le Alternative

1.235 articoli
276 follower

Cerca e segui skariko@www.lealternative.net sul tuo profilo Mastodon, Friendica o Pixelfed per rimanere sempre aggiornato sui suoi nuovi articoli! Su Lemmy, invece, puoi seguire la comunità dedicata.

DONAZIONI 💛

Altri articoli