지난 포스팅에 이어 이번 포스팅에서는 Whisper를 로컬에 직접 설치해서 실행해보는 방법을 알아보도록 하겠습니다. python은 기본으로 사용해야되지만 좀 더 쉽게 사용할 수 있는 WebUI 를 통해 이용하는 방법을 설명해드릴께요.

github주소 : https://github.com/jhj0517/Whisper-WebUI

Whisper WebUI 설치

1. 설치하기 전에 준비사항

이전에 설명드렸던 StableDiffusion 설치하는 방법과 매우 유사합니다.

Step1. Python 설치하기

우선 Python 공식 사이트에서 3.12.0 버전을 설치해줍니다. 

자세한 방법은 이전 포스팅을 참고해주세요.
https://marines.co.kr/stable-diffusion-2%ed%8e%b8-%ec%82%ac%ec%9a%a9%eb%b0%a9%eb%b2%95/

Step2. Git 설치하기

Git 역시 CLI (명령어 방식)과 GUI 방식이 있습니다. 사용하기 편하게 GUI방식을 추천드립니다.

조금 더 Git을 쉽게 사용하기 위해서 Github Desktop 이라는 GUI 툴을 같이 소개해드릴께요.

Github에서 제공하는 Client 입니다. 이걸 설치하면 사실 위에 Git for windows는 설치하지 않아도 됩니다.

Github Desktop 홈페이지 화면
Github Desktop 홈페이지 화면

가운데 보라색버튼 눌러서 설치해주시면 됩니다. 설치까지 되었으면 바로 다음 단계로 넘어갈께요.

Step3. ffmpeg 설치하기

ffmpeg는 Fast Forward MPEG의 약자로 2000년 부터 계속 개발되고 있는 모든 디지털 영상, 음성에 대한 인코딩, 디코딩, 스트리밍이 가능한 오픈소스 프로젝트 입니다.

인코딩, 디코딩 등의 단어가 생소할 수 있는데, 우리는 Whisper라는 AI도구를 사용하기 위해서 영상을 분석해서 음성을 텍스트로 추출할거기 때문에 그에 필요한 핵심 소스라고 생각하면 됩니다.

https://www.gyan.dev/ffmpeg/builds/

ffmpeg-release-essentials 다운받기
ffmpeg-release-essentials 다운받기

이 파일을 받아서 압축을 풀고 환경변수 PATH에 설정하는 방법이 있습니다.

또는 ffmpeg 공식홈페이지에서 안내하고 있듯이 명령어로 설치하는 방법이 있습니다.

저는 PATH 막 설정하고 이런거 번거로워서 아래 방법으로 설치하겠습니다. 터미널 혹은 Powershell 을 관리자모드로 실행시켜주세요.

관리자모드로 실행하지 않으면 에러를 경험할거야라고 경고하고 있지만!! 일단 고!!
관리자모드로 실행하지 않으면 에러를 경험할거야라고 경고하고 있지만!! 일단 고!!

안그러면 아래와 같은 에러를 보실수 있을겁니다.

관리자로 실행하지 않으면 볼수 있는 오류 메세지들..
관리자로 실행하지 않으면 볼수 있는 오류 메세지들..
윈도우키 누르고 powershell 검색해서 관리자로 실행하기
윈도우키 누르고 powershell 검색해서 관리자로 실행하기

꼭!! 여기서 관리자로 실행으로 켜주세요. 그리고 계속 Y 를 눌러주세요.

> ffmpeg
잘 설치되었다면 ffmpeg 명령어를 눌러서 실행되는지 확인해보자.

2. Whisper WebUI 복사해오기 (Git Clone)

> git clone https://github.com/jhj0517/Whisper-WebUI.git

터미널을 연 김에 위와 같이 명령어를 쳐봅니다. 아니면 아까 설치한 Github Desktop으로 Clone을 진행해도 됩니다.

“3.2 Github Desktop 에서 복사해오기” 섹션 참고하기.

1초도 안되서 복사 끝! 간단하쥬

이러면 내컴퓨터로 이 폴더를 찾아갑니다. 그리고 Install.bat 파일을 실행해주세요.

그러면 자동으로 가상환경을 생성하고 자동설정에 들어갑니다. (시간이 오래걸려요)

다 진행되고 창이 닫혔으면

start-webui.bat 파일을 더블클릭해서 실행

잘 따라오셨다면 위와 같은 창이 뜰겁니다.

http://127.0.0.1:7860 을 복사해서 브라우저 주소창에 붙여넣기 하고 엔터!

그러면 아래와 같은 화면이 나옵니다.

이때 터미널창이 열려있는데 절대 닫으면 안되요. 닫으면 브라우저 동작도 멈추게 됩니다.

Whisper WEBUI의 기능소개

Whisper WebUI 는 크게 4가지 기능을 제공하고 있습니다.

  1. 영상파일을 업로드
  2. 유투브 링크를 입력
  3. 마이크로 직접 말하기
  4. 자막파일로 바로 번역하기

이때 설정해야 되는 부분이 많지 않아서 쉽게 이용가능할 겁니다.

컴퓨터 사양이 받혀준다면 Model 은 large-v2로 설정해주세요. 음성인식의 품질을 결정하는 값입니다. 그리고 language도 영상에 맞게 설정해주세요.

다 설정하셨으면 밑에 주황색 “GENERATE SUBTITLE FILE”을 눌러주시면 바로 자막파일 생성이 시작됩니다. (처음 실행할때는 Model을 초기화하느라고 시간이 오래걸리지만 그 다음부터는 빠르게 진행되니 참고해주세요.)

결과물 비교 (Adobe Premiere vs Whisper)

이거 뭐 이젠 Premiere 자막기능은 다신 못쓸거 같네요..

프리미어나 다른 자막자동생성 프로그램으로 자막작업을 하던 분들은 훨씬 높은 품질의 결과물을 얻을수 있을겁니다. 작업시간이 절반은 단축될테니 꼭 한번 사용해보길 추천합니다!

More on this topic

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here