Chapter 1~4를 통해 모델 훈련이 이제 다 끝나셨을겁니다!
그럼 대망의 음성 추출에 관한 방법을 작성하도록 하겠습니다, 아주 쉬우닌까 그대로 따라 오시기만 하면 되요!
5. 모델 훈련이 끝난 뒤, 음성 추출
1. 저는 학습 시킨 최종 pth 파일 뒤에 _final을 붙혔습니다, 이건 마음대로 하셔도 되요!
2. Bert-VITS2 폴더의 config.yml 을 켜서 수정을 합시다.
107줄의 config_path: “config.json”을 config_path: “configs/config.json”으로 바꿔주세요.
3. 이제 wsl에서 conda를 실행하여, 가상환경을 실행해주세요.
4. 그리고 아래 명령어를 실행시켜주시면, webui가 실행될 것입니다.
python webui.py
5.위와 같은 페이지가 뜰 것이며, 붉은색 칸은 제가 직접 넣은 것입니다.
– 1번에는 TTS를 하고 싶은 글을 넣으시면 됩니다.
– 하지만 다중 언어를 사용하고 싶으시다면 언어 앞에 국가를 표시 해주셔야 합니다.
– ex) <zh>你好吗?<jp>元気ですか?<en>I’m Okay
– 2번에는 Speaker를 선택해주시면 됩니다, 어떤 화자가 이야기 할 것인지를 선택하는 것입니다.
– 3번에는 언어를 선택해주시면 되고, 중국어는 zh, 일본어는 jp, 영어는 en, 다중언어는 mix 입니다.
– 그리고 4번을 누르시면, 5번 부분의 내용이 바뀌면서, 음성 생성이 완료 됩니다! 처음 실행하면 시간이 오래 걸리기 때문에, 조금 시간 양해 부탁드려요~
아주 쉽게(?) TTS를 만들어 보았습니다, 어떠셨나요?
만일 안되거나 문제가 있다면 댓글로 달아주시기 바랍니다! 나중에 댓글창 만들게요…ㅎㅎ
8 Responses
안녕하세요. 혹시 ONNX 변환과 추론에 대한 설명도 가능할까요?
답글 달아주셔서 감사합니다, ONNX 변환의 경우에는 아직 시도를 해보지 않아서, 추후에 하게 되면 다시 글 작성해보도록 하겠습니다!ㅠㅠ
정말 감사합니다 이 정더로 자세하게 떠먹여주는글이 필요했는데 ㅠ 살았습니다.
추가로 질문 있으시면 최대한 찾아서 알려드릴게요! 읽어주셔서 감사합니다~
자세하게 알려주셔서 감사해요.
컴퓨터가 없어서 글만 읽어보고 도전은 못하고 있습니다.ㅜㅜ
시작할때 막히는 부분 있으면 댓글로 질문해도 괜찮을련지..
네, 댓글로 질문해주시면 최대한 빠르게 답변 드릴게요!
안녕하세요 해당 블로그 잘 참고해서 설치까지 무사히 마쳤습니다.
학습시킬 음성파일을 만들기만 하면될 것같은데, 어떤식으로 음성파일들을 짧게 만들어야할지 모르겠네요ㅠㅠ
예를들어 일본어로 “안녕하세요.” 라고 말하는구간말 잘라서 wmv파일로 저장하되 파일명은 어떤식으로 해야할지 같은거요!
직접 잘라서 음성 파일을 만드시는 것은 조금 힘드실거에요ㅠㅠ 1시간 분량의 데이터가 필요하기 때문에, 몇천개는 만드셔야해요.
음성 파일을 만드신 뒤, 파일명은 음성명_00001.wav(예시: crs_00001.wav, 숫자는 그냥 만든 순서입니다)로 하시면 됩니다.
음성명의 경우에는 speaker와 일치하시면 되요!
또한 음성 파일에 맞는 텍스트 데이터를 만드시면 됩니다.
crs_00001.wav 파일의 음성이 こんにちは이면, 텍스트파일에는 crs_00001.wav|crs|JP|こんにちは (파일명|음성명|언어|내용) 이렇게 적으시면 되요!
가능하면 게임에서 추출하여 사용하시는 것을 추천드립니다!