뱁새유니버스

Open AI 음성 받아쓰기 Whisper 사용해보자 파이썬 실생활 머신러닝 예제 적용

by 뱁새유니버스

1. 개요

Open AI에 Whisper라는 음성인식 AI가 있습니다. 

Whisper는 input data를 mp3(음성파일)을 분석해 Output data로 음성을 텍스트로 전환해주는 AI입니다.

실생활에도 정말 많이 쓰이죠. 유튜브 자동 자막 기능이라던지, 네이버 클로버노트를 통해 음성을 텍스트로 실시간 번역해주는 것들처럼 말이죠. 그럼에도 Whisper 같은 AI가 왜 대단하냐? AI기술을 이제 프로그램을 조금만 알아도 많은 사람들이 개인화할 수 있는 시대가 열릴 것 같기 때문입니다. 파이썬을 통해 명령어 몇줄만으로도 실시간 음성인식이 가능하기 떄문입니다. 물론 네이버 클로버노트와 같은 훌륭한 프랜차이즈 앱들이 있지만 개인이 충분히 구현하고 누릴 수 있는 것들이 나오고 있어 개발을 조금이라도 할 줄 아는 사람이면, Open AI 와 같은 훌륭한 기업들을 통해 많은 기술들을 영위해나갈 수 있지 않을까 생각합니다. 

 

2. 내용

(1) Whisper 아키텍처

Open AI 공식사이트에선 아래와 같은 Whisper 아키텍처를 소개합니다.

출처 : OpenAI, Introducing Whisper

Input audio가 입력되면 Log-mel spectrogram 안에 들어가서 Encoder를 지나 Decoder에서 일치하는 text를 찾기 위해 훈련한다고 합니다. 자세한 내용은 open AI paper를 참조하시길 바랍니다.

https://cdn.openai.com/papers/whisper.pdf

개념도 중요하지만 ! 우리는 openAI가 열심히 연구한 기술을 파이썬에 호출하여 사용하기만 하면 됩니다. ㅎㅎ

 

(2) Whisper 구동을 위한 사전 준비 환경 설정

시작하기에 앞서 torch를 설치합니다. torch는 오픈 소스 머닝러신 라이브러리입니다. torchvision(Dataset정의, 모델 아키텍쳐, 컴퓨터 비전을 위한 이미지 변환)과 torchaudio(audio processing library)는 그 안에 있는 패키지로 보시면 됩니다.

pip3 install torch torchvision torchaudio

(3) FFMPEG

ffmpeg는 디지털 음성 스트림과 영상 스트림에 대해서 다양한 종류의 형태로 기록하고 변환하는 컴퓨터 프로그램입니다. 

 

https://www.gyan.dev/ffmpeg/builds/

 

Builds - CODEX FFMPEG @ gyan.dev

FFmpeg is a widely-used cross-platform multimedia framework which can process almost all common and many uncommon media formats. It has over 1000 internal components to capture, decode, encode, modify, combine, stream media, and it can make use of dozens o

www.gyan.dev

위 주소에서  ffmpeg-release-essentials.7z   파일을 다운로드 받아 적절한 위치 (예: c:\program files\ffmpeg) 에 풉니다.

그리고 윈도우 환경변수의 Path에 위 경로의 \bin 경로를 넣어줍니다. (예: C:\Program Files\ffmpeg\bin)

 

명령 프롬프트 상에서 아무 경로에서나 ffmpeg를 입력하고 엔터를 쳤을 때 ffmpeg.exe가 실행 가능해야 합니다.

(4) Whisper 모듈 설치

pip install git+https://github.com/openai/whisper.git

위 명령어를 이용해 Whisper 모듈을 설치 해 줍니다.

만약 "ERROR: Cannot find command 'git' - do you have 'git' installed and in your PATH?" 이런 문구가 뜬다면 PC에 Github Desktop이 설치되지 않아서 그렇습니다. 설치 관련내용은 아래 페이지에서 참고하시기 바랍니다.

https://idealist.tistory.com/56

 

ERROR: Cannot find command 'git' - do you have 'git' installed and in your PATH?

OPEN AI에서 WHISPER라는 음성인식 AI가 있다고 해서 파이썬으로 설치한 다음에 실생활에 사용해볼 수 있을까 고민해봤습니다. 그래서 github에 업로드되어있는 whisper를 python에서 가져오려 하는데 오

idealist.tistory.com

 

(5) Whisper 사용해보기

유튜브에서 shorts영상 하나를 다운받아 입력해보았습니다.(제껍니다 희희..)

whisper example.mp3

jupyter notebook에서 terminal에 들어가 whisper 명령어를 치니 Detecting language using up to the first 30 seconds라는 문구가 나오고 mp3파일을 분석해 감지된 언어가 한국어로 나오고 아래와 같이 인식한 음성을 텍스트로 변환해주었습니다.

 

3. 마치며

이걸 갖고 어디에 쓸 수 있을까요? 회의록을 작성할 떄? 말로 글을 쓰고 싶을 때? 

Whisper는 약 75개의 언어를 감지한다고 하네요?? 날이 갈수록 기술의 보편성이 가속화되고 있는 것 같습니다+_+
(우리한텐 참 좋죠?!)

질문이 있으시면 댓글 남겨주세요! 함께 공부합시다. 

이 글을 보는 모든 분들 오늘 하루가 행복하시길 바랍니다.
감사합니다.

 

4. 출처

참조한 출처는 아래와 같습니다.

https://www.clien.net/service/board/lecture/17699124?od=T31&po=0&category=0&groupCd= 

 

Open AI의 음성 받아쓰기 - Whisper 사용해보기 : 클리앙

Whisper는 초거대 AI 언어모델인 GPT-3로 잘 알려져 있는 OpenAI사에서 MIT 라이센스로 배포한, 실시간 음성인식/번역 엔진입니다. 유튜브를 보다가 우연히 소개 영상을 보고는 사용해 보았습니다. 다

www.clien.net

반응형

블로그의 정보

가슴이 웅장해지는 모든것

뱁새유니버스

활동하기