Whisper+ è un metodo di input per Android che sfrutta la tecnologia di riconoscimento vocale basata sul motore Whisper. Il progetto è completamente open source e distribuito sotto licenza GPL v3, con diverse componenti riutilizzate da progetti MIT, Apache‑2.0 e altre licenze compatibili.
Whisper+, un input vocale per Android
Al primo avvio di Whisper+ vi verrà richiesto di scaricare i modelli Whisper da Hugging Face. Il download avviene direttamente dall’app e, una volta completato, i modelli vengono memorizzati localmente, consentendo in questo modo un funzionamento interamente offline. Questo approccio garantisce la privacy dei dati vocali, poiché nessuna registrazione viene inviata a server esterni.
Per attivare Whisper+ come metodo di input di sistema, dovrete aprire le impostazioni di Android (Sistema → Lingue → Voce → Input vocale) e selezionare Whisper+ come servizio di riconoscimento. Whisper+ supporta inoltre le chiamate tramite intent (RecognizerIntent.ACTION_RECOGNIZE_SPEECH), permettendo ad altre applicazioni di sfruttare il motore di trascrizione.
Funzionalità principali
Riconoscimento vocale offline: tutti i processi di trascrizione avvengono sul dispositivo, senza dipendere da connessioni internet, è presente il supporto multilingue visto che Whisper+ riconosce tutte le lingue supportate dal modello Whisper e può tradurre automaticamente qualsiasi lingua supportata in inglese.
Modalità IME e sistema: potete utilizzare Whisper+ come tastiera personalizzata (ad esempio tramite il pulsante microfono di HeliBoard) oppure impostarlo come input vocale predefinito per l’intero sistema.
Per ottenere risultati accurati, queste sono le indicazioni ufficiali da seguire:
- Tenete premuto il pulsante di attivazione mentre parlate, oppure attivate la modalità automatica se disponibile.
- Fate una breve pausa prima di iniziare a parlare, in modo da dare al motore il tempo di prepararsi.
- Parlate in modo chiaro, a volume medio e con un ritmo costante.
Ricordate che ogni registrazione è limitata a 30 secondi; superare questo intervallo interrompe la cattura audio e richiede una nuova sessione.
Architettura e dipendenze
Come detto a inizio articolo il codice di Whisper+ si basa su diversi progetti open‑source:
- whisperIME (licenza MIT) fornisce la struttura di base dell’IME.
- RTranslator e i relativi modelli ONNX di Whisper gestiscono la conversione del segnale audio in testo.
- Whisper‑Android (MIT) implementa l’integrazione con le API Android.
- OpenAI Whisper (MIT) è la fonte originale del modello di trascrizione.
- Android VAD (MIT) rileva la presenza di voce, migliorando la gestione dei segmenti audio.
- OpenCC4j (Apache‑2.0) consente la conversione di testi cinesi tra vari sistemi di scrittura.
Tutte queste componenti sono incluse nel repository del progetto, con istruzioni dettagliate per la compilazione e la personalizzazione. Il risultato è un’app leggera, modulare e facilmente adattabile a nuove versioni di Android o a requisiti specifici di altri dispositivi.
Conclusioni e dove scaricare l’applicazione
Whisper+ è una soluzione sicuramente non perfetta ma è un buon compromesso per chi desidera integrare il riconoscimento vocale su smartphone degooglizzati.
• •