3. 그럼 이제 학습 데이터를 준비하도록 하겠습니다!
음성 데이터:
– 1시간 분량
– 파일 1개당 1~10초 사이 (1초 이하거나, 10초 이상의 데이터는 제거해주세요)
– 파일명: crs_00001.wav (음성명_순서.wav 와 같은 형식)
텍스트 데이터:
– train, validation, transcription 이렇게 3가지가 필요합니다.
– 파일명|음성명|언어|내용 과 같은 형식을 가지면 됩니다.
– 예시) crs_00001.wav|crs|JP|簡単でしょ?
– validation의 경우에는 전체 텍스트 데이터의 5%정도를 뽑아서 만들어 주시면 됩니다.
텍스트 데이터의 경우에는 whisper를 통해 음성데이터로부터 추출하면 되는데, 이는 나중에 다시 작성하도록 하겠습니다. (학습 데이터를 만드는 방법은 추후에 다시 작성하도록 하겠습니다.)
저의 경우에는 음성명을 crs로 했고, 파일명은 crs_*****.wav 이며, 텍스트데이터는 esd.list, train.list, val.list로 하였습니다.
(list파일은 txt파일을 txt->list로 확장자 변환 한거에요.)
4. Bert-VITS2폴더에 data 폴더를 만들고, 다음과 같이 위치시키시면 됩니다.
├── data
│ ├── crs
│ │ ├── esd.list
│ │ ├── train.list
│ │ ├── val.list
│ │ ├── raw
│ │ │ ├── crs_00001.wav
│ │ │ ├── crs_00002.wav
│ │ │ ├── …
즉, data 폴더 밑에 crs 폴더를 만들고, 그 밑에 esd.list, train.list, val.list를 놓고, 같은 위치에 raw 폴더를 만들어 음성 데이터는 raw 폴더 밑에 넣어주시면 됩니다.
5. 위와 같이 데이터 세팅이 다 되었으면 webui_preprocess.py를 통해 실행했던 페이지로 다시 돌아온 뒤, 다음과 같이 바꿔주시면 됩니다.