À la fin de l’année dernière, OpenAI a annoncé Whisper, un nouveau modèle de langage de synthèse vocale extrêmement précis pour traduire de nombreux langues parlées en texte. Le référentiel whisper contient des instructions d’installation et d’utilisation.

tl;dr :

# Installe Whisper et ses dépendances. pip3 install git+https://github.com/openai/whisper.git # (Si nécessaire) Mettez à jour murmure. pip3 install–upgrade–no-deps–force-reinstall git+https://github.com/openai/whisper.git # Assurez-vous que ffmpeg est installé. brew install ffmpeg # Traduire la parole en texte. murmure mon_fichier_audio.mp3–language anglais

Une chose que je fais assez régulièrement pour ma chaîne YouTube est d’extraire la piste audio, de la convertir en texte à l’aide d’un outil en ligne (j’utilisais auparavant Welder jusqu’à ce qu’ils soient rachetés par Veed), puis modifiez manuellement le fichier pour corriger les références aux noms de produits, aux personnes, etc.

Ensuite, je télécharge un fichier.txt ou.srt modifié fichier à côté de ma vidéo sur YouTube, et les gens peuvent utiliser les sous-titres. YouTube montre si une vidéo a des sous-titres sélectionnés manuellement avec cette petite icône”CC”pratique :

Mais comme le niveau gratuit de Veed ne permet que jusqu’à 10 minutes d’audio à transcrire sur un temps, il était temps de chercher ailleurs. Et dans mon article de blog précédent sur l’utilisation de la fonction de dictée intégrée de macOS pour la transcription, rasmi a indiqué qu’un nouvel outil était disponible, Whisper.

Alors je l’ai essayé !

Je l’ai installé et exécuté sur l’une des pistes audio de ma vidéo en utilisant les commandes en haut de cet article, et j’ai été agréablement surpris:

En expérimentant les différents modèles, base.en était très rapide pour l’anglais, mais j’ai trouvé que les petits ou moyens étaient bien meilleurs pour identifier les noms de produits, les termes techniques obscurs, etc. Honnêtement, ça m’a bluffé qu’il ait capté des mots comme « PlinkUSA », « Sliger » et « Raspberry Pi »-sur lesquels d’autres outils de transcription trébucheraient. Vous pouvez même traduire des fichiers texte (en utilisant–translate), ce qui est une bonne astuce. Il identifiera automatiquement la langue source, ou vous pouvez la spécifier avec–language). Ce n’est pas encore tout à fait parfait-j’ai encore besoin de retoucher probablement un mot toutes les 10 phrases. Mais c’est mille fois plus facile que d’essayer de retranscrire les choses manuellement ! Et il fait même de la ponctuation et génère un.srt en natif.

J’ai parcouru les discussions et il y en a déjà d’excellentes sur des fonctionnalités telles que la diarisation (pouvoir pour identifier plusieurs locuteurs dans une conversation) et analyse comparative des performances.

Sur le processeur de mon Mac Studio , le processus de conversion est seulement un peu plus lent qu’en temps réel. Je ne l’ai pas encore testé sur mon PC avec un GPU plus puissant, mais je prévois de le tester bientôt.

Étant relativement nouveau, les interfaces utilisateur spécifiques pour Whisper ne sont pas encore matures… mais j’ai trouvé des choses comme whisper-ui, et il y a même une webapp Hugging Face Whisper Webui vous pouvez utiliser jusqu’à 10 minutes de transcription audio pour en avoir une idée.

Et sur macOS, si la ligne de commande n’est pas Pour votre truc, Jordi Bruin a créé une application MacWhisper, qui est gratuite pour la version standard et inclut une interface utilisateur pour éditer la transcription en direct :

J’espère que plus d’interfaces utilisateur sont développées, en particulier quelque chose que je pourrais lancer sur l’un de mes PC ici, afin que je puisse rapidement lancer un fichier audio depuis n’importe quel appareil.

Je suis généralement un peu conservateur quand il s’agit de lancer l’IA sur un problème, mais la parole au texte (et vice-versa) est probablement l’une des utilisations les plus simples qui a du sens et ne porte pas un certain nombre d’armes à pied.

By Maisy Hall

Je travaille comme écrivain indépendant. Je suis également vegan et écologiste. Chaque fois que j'ai le temps, je me concentre sur la méditation.