[텍스트 분석] whisper
설치
pip install -U openai-whisper kiwipiepy
임포트
import unicodedata
import tqdm
import whisper
from kiwipiepy import Kiwi
모델 로딩
model = whisper.load_model("small")
kiwi = Kiwi()
mp3 파일 찾기
import glob
filelist = glob.glob('*.mp3')
음성 인식
for filename in tqdm.notebook.tqdm(filelist):
result = model.transcribe(filename, language='ko') # 음성 인식
sents = kiwi.split_into_sents(result['text']) # 문장 단위로 자르기
text = '\n\n'.join(sent.text for sent in sents) # 하나로 합치기
txt_name = filename.replace('.mp3', '.txt') # 저장할 파일명
txt_name = unicodedata.normalize('NFC', txt_name) # NFC로 노말라이즈
with open(txt_name, "w") as f:
f.write(text)