Common Voice

Bách khoa toàn thư mở Wikipedia
Common Voice
Phát triển bởiMozilla Foundation
Phát hành lần đầu2017 tháng 6 năm 19; 6 năm trước (19-06-2017)
Kho mã nguồnhttps://github.com/mozilla/voice-web
Ngôn ngữ có sẵnĐa ngôn ngữ (Danh sách ngôn ngữ)
Giấy phépCreative Commons CC0
Websitevoice.mozilla.org

Common Voice là một dự án crowdsourcing bắt đầu bởi Mozilla để tạo ra một cơ sở dữ liệu miễn phí cho phần mềm nhận dạng giọng nói. Dự án được hỗ trợ bởi các tình nguyện viên ghi lại các câu mẫu bằng micrô và duyệt lại các bản ghi âm của những người dùng khác. Các câu chép lại sẽ được thu thập trong một cơ sở dữ liệu bằng giọng nói phát hành theo giấy phép phạm vi công cộng CC0. Giấy phép này đảm bảo rằng các nhà phát triển có thể sử dụng cơ sở dữ liệu cho các ứng dụng thoại thành văn bản mà không bị hạn chế hoặc mất phí.

Common Voice xuất hiện như là sự đáp lại cho các trợ lý ngôn ngữ của các công ty lớn như Amazon Echo, Siri hoặc Trợ lý Google.

Mục đích[sửa | sửa mã nguồn]

Common Voice nhằm mục đích cung cấp các mẫu giọng nói đa dạng. Theo Katharina Borchert của Mozilla, nhiều dự án hiện có đã lấy các bộ dữ liệu từ đài phát thanh công cộng hoặc nói cách khác là có các bộ dữ liệu không có nhiều giọng nói của phụ nữ hay của những người có giọng nói không chuẩn.[1]

Cơ sở dữ liệu giọng nói[sửa | sửa mã nguồn]

Cơ sở dữ liệu Common Voice tiếng Anh là cơ sở dữ liệu giọng nói có thể truy cập tự do lớn thứ hai sau LibriSpeech. Vào thời điểm dữ liệu đầu tiên được công bố vào ngày 29 tháng 11 năm 2017, hơn 20.000 người dùng trên toàn thế giới đã đăng ký 400.000 câu được xác thực, với tổng thời lượng 500 giờ.[2]

Tháng 2 năm 2019, loạt ngôn ngữ đầu tiên được phát hành để sử dụng. Nó bao gồm 18 ngôn ngữ: tiếng Anh, tiếng Pháp, tiếng Đứctiếng Quan thoại, nhưng cũng có các ngôn ngữ ít phổ biến hơn như tiếng Walestiếng Kabyle. Tổng cộng, nó bao gồm gần 1.400 giờ dữ liệu giọng nói được ghi lại từ hơn 42.000 người đóng góp.[3]

Tham khảo[sửa | sửa mã nguồn]

  1. ^ “Why do we gender AI? Voice tech firms move to be more inclusive”. The Guardian. ngày 11 tháng 1 năm 2020. Truy cập ngày 19 tháng 4 năm 2020.
  2. ^ “Announcing the Initial Release of Mozilla's Open Source Speech Recognition Model and Voice Dataset”. blog mozilla.org. ngày 29 tháng 11 năm 2017.
  3. ^ “Mozilla updates Common Voice dataset with 1,400 hours of speech across 18 languages”. VentureBeat. ngày 28 tháng 2 năm 2019.