Xử lý tiếng nói

Bách khoa toàn thư mở Wikipedia
Bước tới: menu, tìm kiếm

Xử lý tiếng nói là sự nghiên cứu tiếng nói của con người dưới dạng tín hiệu, và các phương pháp xử lý những tín hiệu này.
Tín hiệu tiếng nói thường được thể hiện dưới dạng số, tức là được "số hóa", và do đó xử lý tiếng nói có thể được coi là giao của xử lý tín hiệu số[1]xử lý ngôn ngữ tự nhiên[2].
Xử lý tiếng nói có thể được chia thành các mục sau:

  • Nhận dạng tiếng nói: phân tích và xử lý về mặt nội dung ngôn ngữ của tín hiệu tiếng nói. Mục đích là để chuyển nội dung nói thành tín hiệu đầu vào của máy tính, giúp cho máy tính có thể xử lý và tương tác được với người nói.
  • Nhận dạng người nói: mục đích là để nhận ra người nói là ai và/hoặc là xác minh liệu người đang nói có đúng là người mà máy tính đã được biết trước hay không (tính xác thật của giọng nói).
  • Tăng chất lượng tiếng nói: nhằm tăng sự cảm nhận của người nghe về chất lượng tiếng nói. Nó bao gồm: giảm nhiễu ồn của tín hiệu tiếng nói, giảm/khử tiếng vọng (trong kỹ thuật điện thoại), v.v...
  • Mã hóa tiếng nói: là một dạng của nén dữ liệu, có vai trò quan trọng trong lĩnh vực viễn thông. Ví dụ như trong thể thức truyền tiếng nói qua internet (voIP), việc nén dữ liệu tiếng nói là điều bắt buộc để giảm băng thông đường truyền.
  • Tổng hợp tiếng nói: là tạo ra tiếng nói một cách nhân tạo nhờ máy tính.
  • Phân tích giọng nói:được ứng dụng chủ yếu trong y học, nhằm phát hiện ra khuyết tật hay vấn đề của dây thanh âm, thanh quản, v.v...
  • Định vị nguồn âm thanh: xử lý tín hiệu tiếng nói để xác định vị trí của nguồn phát ra âm thanh (có thể là loa, người nói, v.v...). Nó được ứng dụng trong hội nghị hình thoại (videoconference) là hội nghị mà người tham gia ở các nơi khác nhau, hình ảnh và âm thanh ở hai hay nhiều đầu cầu của hội nghị được truyền tải cho nhau qua hệ thống điện thoại số, internet hoặc sóng vệ tinh. Khi vị trí người nói trong hội nghị được xác định, máy ghi hình được lập trình sẽ tự động quay đến vị trí đó và gửi hình ảnh đi. Ngoài ra định vị nguồn âm thanh còn có ứng dụng trong các kỹ thuật tăng chất lượng tiếng nói, trong theo dõi an ninh, v.v...

Tham khảo[sửa | sửa mã nguồn]