최근 AI를 이용한 많은 것들이 만들어지고 있는 와중에, 저는 음성 AI에 관련하여 몇가지 프로그램을 사용하다가 마음에 드는 목소리가 없어서 직접 학습시켜 만들어보고자 하였습니다.
하지만 생각보다 넘어야 할 관문이 많더라구요…
이 시리즈의 목표는 윈도우10 환경에서 WLS2를 사용하여 Bert-VITS2 모델을 Custom data로 훈련시키고, 추론을 통해 음성을 만들어 볼 예정입니다!
일단 생각하고 있는 목차는 다음과 같아요.
- Chapter 0. 학습 전 준비해야 할 기본적인 요소
- Chapter 1. 윈도우 WSL2 설치 및 관련 설정
- Chapter 2. WSL2에 아나콘다 설치 후 가상환경 만들기
- Chapter 2-1. WSL2에 아나콘다 설치
- Chapter 2-2. 아나콘다에서 가상환경 만들기(파이썬 버전 3.10.6으로 설치 예정)
- Chapter 3. WSL 아나콘다에서 Cuda, Cudnn, Pytorch 설치하기
- Chapter 3-1. 아나콘다 가상환경에 Cuda와 Cudnn 설치
- Chapter 3-2. Cuda와 Cudnn에 맞는 Pytorch 설치
- Chapter 4. Bert-VITS2 훈련 전 사전 준비 및 훈련 시작
- Chapter 4-1. 관련 패키지 설치 및 git clone
- Chapter 4-2. 커스텀 학습 데이터 구성 및 모델 훈련 준비
- Chapter 4-3. Pre-trained 모델 다운로드 및 훈련 시작
- Chapter 5. 모델 훈련 뒤, 음성 추출
- 번외 1. 커스텀 학습 데이터 추출하는 방법
이렇게 5가지로 생각하고 있습니다.
시간이 날 때마다 글을 하나씩 써 내려가도록 하겠습니다!
참고로 이 모델은 적어도 100k steps(추천은 1M steps) 이상은 학습을 시켜야하기 때문에, 적어도 몇십시간은 학습시켜야 합니다! 그렇기 때문에 바로바로 결과가 나오기는 바라시는 분은 Vall-E X를 사용해보시기를 바래요!