wavekat
보이스 문서 블로그
← 블로그로 돌아가기

Common Voice Explorer — 세계 각지의 목소리를 들어보세요

· Eason Guo
#도구 #오픈데이터 #음성AI

수천 개에 달하는 실제 사람의 목소리 — 다양한 연령, 억양, 언어 — 가 어떻게 들리는지 궁금했던 적이 있다면, 바로 그것을 위한 데이터셋이 있습니다. 그 이름은 Mozilla Common Voice이며, 세계에서 가장 큰 오픈소스 녹음 음성 모음 중 하나입니다.

세계 각지의 사람들이 자발적으로 문장을 소리 내어 읽고 자신의 녹음을 기증합니다. 그 결과물은 방대한 다국어 실제 음성 라이브러리입니다 — 누구나 자유롭게 사용할 수 있습니다.

다만 한 가지 문제가 있습니다: 실제로 이것을 탐색하는 일은 어렵습니다.

데이터셋은 거대한데, 도구는 그렇지 못합니다

Common Voice는 수십 개 언어에 걸쳐 수백만 개의 오디오 클립을 담고 있습니다. 이를 살펴보려면 보통 수 GB의 데이터를 다운로드하고, 메타데이터 파일을 파싱하는 스크립트를 작성하며, 자체 재생 파이프라인을 구축해야 합니다. 개발자라면 괜찮지만, 그렇지 않은 모든 사람은 막아버립니다 — 연구자, 언어학자, 제품 팀, 그리고 그저 데이터가 어떻게 들리는지 듣고 싶은 호기심 많은 사람들 말입니다.

우리는 그것이 놓친 기회라고 생각했습니다.

그래서 우리는 Common Voice Explorer를 만들었습니다

Common Voice Explorer는 브라우저에서 직접 데이터셋을 탐색할 수 있게 해주는 간단한 웹 도구입니다. 다운로드도, 스크립트도, 설정도 필요 없습니다.

Common Voice Explorer — 브라우저에서 바로 클립을 검색하고, 필터링하고, 들어보세요

다음과 같은 일을 할 수 있습니다:

음악 라이브러리를 둘러보는 것 같은 느낌으로 설계되었지만, 노래 대신 세계 각지 실제 사람들의 실제 음성을 탐색하게 됩니다.

누구를 위한 것인가요?

솔직히 — 음성 데이터에 호기심이 있는 누구나입니다.

이것을 사용하는 데 기술 지식이 필요하지 않습니다. 검색창을 쓰고 재생 버튼을 클릭할 줄 안다면 충분합니다.

우리에게 왜 중요한가

WaveKat에서 우리는 소상공인을 위한 음성 AI 도구를 만들고 있습니다. 그 작업은 고품질 음성 데이터에 달려 있습니다. Common Voice는 이 분야에서 가장 중요한 오픈 리소스 중 하나이며, 우리는 이를 더 접근하기 쉽게 만드는 것이 엔지니어뿐 아니라 모두에게 도움이 된다고 믿습니다.

오픈 데이터는 사람들이 실제로 탐색할 수 있을 때에만 가치가 있습니다. 그것이 우리가 메우고 싶었던 격차입니다.

사용해 보기

Common Voice Explorer는 commonvoice-explorer.wavekat.com에서 운영 중입니다. GitHub로 로그인하고, 이용 약관에 동의한 뒤 탐색을 시작하세요.

먼저 실제 작동 모습을 보고 싶다면 짧은 YouTube 데모도 있습니다.

← 블로그로 돌아가기