Tổng hợp giọng nói

Trên máy tính, tổng hợp giọng nói là việc tạo ra giọng nói của người từ đầu vào là văn bản hay các mã hóa việc phát âm. Hệ thống này còn được gọi là văn bản-sang-tiếng nói (text-to-speech, TTS); tuy rằng không phải hệ thống tổng hợp giọng nói nào cũng có đầu vào là văn bản (nhiều hệ thống thu nhận mã hóa cách phát âm, ví dụ mã IPA, như đầu vào). Hệ thống thực hiện việc này còn gọi là máy tổng hợp giọng nói (text to speech engine), có thể là hệ thống phần mềm hoặc phần cứng.

Ứng dụng[sửa | sửa mã nguồn]

Các hệ thống này có nhiều ứng dụng. Ví dụ như hệ thống này có thể giúp người có thị lực kém (hoặc khiếm thị) nghe được máy đọc ra văn bản; đặc biệt là các văn bản có thể xử lý trên máy tính. Hệ thống như vậy có thể lắp đặt trong phần mềm xử lý văn bản hay trình duyệt mạng.

Tổng quan[sửa | sửa mã nguồn]

Một máy tổng hợp giọng nói bao gồm hai phần: ngoại diện và hậu trường. Phần ngoại diện nhận đầu vào ở dạng văn bản rồi cho đầu ra là thể hiện biểu tượng ngôn ngữ của văn bản (tức là một cách mã hóa cách phát âm văn bản). Phần hậu trường nhận lấy thể hiện biểu tượng ngôn ngữ như đầu vào và cho ra giọng nói tổng hợp ở dạng sóng âm thanh. Phần ngoại diện có hai nhiệm vụ chính. Trước tiên, nó nhận văn bản và chuyển đổi các ký tự như các chữ số hay cách viết tắt thành dạng viết đầy đủ. Quá trình này gọi là chuẩn hóa văn bản, hay tiền xử lý. Sau đó nó cho ra mã phát âm ứng với từng từ, rồi phân chia và đánh dấu văn bản thành từng đoạn văn, nhóm từ, mệnh đề, hay câu văn. Quá trình chuyển văn bản sang mã phát âm được gọi là văn bản-sang-âm vị. Kết hợp mã phát âm và thông tin đoạn văn tạo nên đầu ra cuối cùng thể hiện biểu tượng ngôn ngữ. Phần hậu trường, nhận lấy thể hiện biểu tượng ngôn ngữ rồi chuyển nó thành âm thanh. Phần này thường được gọi là máy tổng hợp. Có nhiều kỹ thuật tổng hợp, được mô tả bên dưới.

Lịch sử[sửa | sửa mã nguồn]

Từ lâu trước khi kỹ thuật xử lý tín hiệu bằng thiết bị điện tử hiện đại ra đời, các nhà nghiên cứu giọng nói đã cố gắng xây dựng các máy móc bắt chước giọng nói của người. Các ví dụ đầu tiên của các máy này được chế tạo bởi Gerbert ở Aurillac (1003), Albertus Magnus (1198–1280), và Roger Bacon (1214–1294).

Năm 1779, nhà khoa học người Đan Mạch Christian Kratzenstein, lúc đó làm việc tại Viện Hàn lâm Khoa học Nga, xây dựng một mô hình có thể bắt chước giọng nói người với năm nguyên âm ([a], [e], [I], [o] và [u]). Máy này sau đó được cải tiến thành 'Máy Phát âm Cơ khí-Âm học' của Wolfgang von Kempelen ở Viên, Áo, được mô tả trong bài báo năm 1791 mang tựa đề Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("phương pháp tạo giọng nói và mô tả máy thực hiện việc này," J. B. Degen, Wien). Máy này tạo ra mô hình của lưỡi và môi, cho phép tạo ra phụ âm thêm vào cho nguyên âm. Năm 1837 Charles Wheatstone tạo ra 'máy nói' dựa trên thiết kế của von Kempelen, và đến năm 1857 M. Faber chế tạo máy 'Euphonia'. Máy của Wheatstone lại được cải tiến năm 1923 bởi Paget.

Những năm 1930, Phòng thí nghiệm Bell tạo ra máy VOCODER, một máy phân tích và tổng hợp giọng nói điều khiển bằng bàn phím, được mô tả là phát âm rõ ràng. Homer Dudley cải tiến cỗ máy này thành VODER, và trưng bày nó tại Triển lãm Thế giới New York 1939.

Các máy tổng hợp giọng nói bằng kỹ thuật điện tử, trong giai đoạn này, có giọng nói không tự nhiên và khó nghe. Tuy nhiên, chất lượng tổng hợp giọng nói ngày càng được cải tiến, cho đến ngày nay giọng phát âm của nhiều hệ thống có chất lượng tương đương giọng nói của người thật.

Các hệ thống tổng hợp giọng nói đầu tiên được tạo ra vào những năm 1950 và hệ thống hoàn chỉnh đầu tiên ra đời vào năm 1968.

Năm 1961, nhà vật lý học John Larry Kelly, Jr dùng máy tính IBM 704 để tổng hợp giọng nói, đây là sự kiện đáng nhớ trong lịch sử của phòng thí nghiệm Bell. Máy ghi âm và tổng hợp giọng nói của Kelly tạo ra bài hát Daisy Bell, với âm nhạc phụ họa bởi Max Mathews. Vào lúc trình diễn, Arthur C. Clarke đang thăm bạn và đồng nghiệp John Pierce ở khu thí nghiệm Bell ở Murray Hill. Clarke đã bị ấn tượng mạnh bởi trình diễn của máy phát âm và đã dùng hình ảnh này trong tiểu thuyết và kịch bản phim của ông 2001: A Space Odyssey,^[1] trong đó máy tính HAL 9000 hát cùng bài hát khi nó sắp bị nhà du hành vũ trụ Dave Bowman đặt vào trạng thái ngủ.^[2]

Công nghệ tổng hợp giọng nói đã tiến hóa nhanh kể từ đó. Hiện nay có hàng trăm hệ thống tổng hợp giọng nói, thương mại cũng như tự do (xem liên kết ngoài).

Tuy đã đạt được thành tựu trong tổng hợp giọng nói bằng kỹ thuật điện tử, các nghiên cứu vẫn đang được tiến hành để tạo ra bộ tổng hợp giọng nói cơ học, mô phỏng thanh quản của người, dùng trong robot dạng người. Các bộ tổng hợp giọng nói điện tử bị giới hạn bởi chất lượng của loa, bộ phận cuối cùng tạo ra âm thanh, dù tín hiệu điện tử có hoàn hảo. Có hy vọng rằng bộ thanh quản cơ khí có thể tạo ra giọng nói chuẩn hơn loa thông thường.

Công nghệ tổng hợp giọng nói[sửa | sửa mã nguồn]

Hai tính chất quan trọng của chất lượng hệ thống tổng hợp giọng nói là mức độ tự nhiên và mức độ dễ nghe. Mức độ tự nhiên của giọng nói tổng hợp chỉ đến sự giống nhau giữa giọng tổng hợp và giọng nói tự nhiên của người thật. Mức độ dễ nghe chỉ đến việc câu phát âm có thể hiểu được dễ dàng không. Một máy tổng hợp giọng nói lý tưởng cần vừa tự nhiên vừa dễ nghe, và mục tiêu xây dựng máy tổng hợp giọng nói là làm gia tăng đến mức tối đa hai tính chất này. Một số hệ thống thiên về mức độ dễ nghe hơn, hoặc mức độ tự nhiên hơn; tùy thuộc vào mục đích mà công nghệ được lựa chọn. Có hai công nghệ chính được dùng là tổng hợp ghép nối và tổng hợp cộng hưởng tần số; ngoài ra cũng có một số công nghệ khác.

Tổng hợp ghép nối[sửa | sửa mã nguồn]

Tổng hợp ghép nối dựa trên việc nối vào nhau các đoạn của một giọng nói đã được ghi âm. Thông thường, tổng hợp ghép nối tạo ra giọng nói tương đối tự nhiên. Tuy nhiên, giọng nói tự nhiên được ghi âm có sự thay đổi từ lần phát âm này sang lần phát âm khác, và công nghệ tự động hóa việc ghép nối các đoạn của sóng âm thỉnh thoảng tạo ra những tiếng cọ xát không tự nhiên ở phần ghép nối. Có ba kiểu tổng hợp ghép nối.

Tổng hợp chọn đơn vị[sửa | sửa mã nguồn]

Tổng hợp chọn đơn vị dùng một cơ sở dữ liệu lớn các giọng nói ghi âm (thông thường dài hơn 1 giờ đồng hồ ghi âm). Trong lúc ghi âm, mỗi câu phát biểu được tách ra thành các đơn vị khác như: các âm tỏ lời đơn lẻ, âm tiết, hình vị, từ, nhóm từ, và câu văn. Thông thường, việc tách ra như vậy cần một máy nhận dạng tiếng nói được đặt ở chế độ khớp với văn bản viết tương ứng với đoạn ghi âm, và dùng đến hiển thị sóng âm và phổ âm thanh. Một bảng tra các đơn vị được lập ra dựa trên các phần đã tách và các thông số âm học như tần số cơ bản, thời lượng, vị trí của âm tiết, và âm tỏ lời gần đó. Khi chạy, các câu phát biểu được tạo ra bằng cách xác định chuỗi đơn vị phù hợp nhất từ cơ sở dữ liệu. Quá trình này được gọi là chọn đơn vị, và thường cần dùng đến cây quyết định để thực hiện.

Kỹ thuật chọn đơn vị tạo ra độ tự nhiên cao do không áp dụng các kỹ thuật xử lý tín hiệu số lên các đoạn giọng nói đã ghi âm, tuy rằng một số hệ thống có thể áp dụng xử lý tín hiệu tại các đoạn nối giữa các đơn vị để làm liền mạch kết quả sau khi ghép nối. Thực tế, các hệ thống chọn đơn vị có thể tạo ra giọng nói không thể phân biệt được với người thật. Tuy nhiên, để đạt độ tự nhiên cao, thường cần một cơ sở dữ liệu lớn chứa các đơn vị để lựa chọn; có thể lên tới vài gigabyte, tương đương với hàng chục giờ ghi âm.

Tổng hợp âm kép[sửa | sửa mã nguồn]

Tổng hợp âm kép dùng một cơ sở dữ liệu giọng nói nhỏ chứa tất cả các âm kép (chuyển tiếp âm thanh) xuất hiện trong ngôn ngữ đang xét. Số lượng âm kép phụ thuộc vào đặc tính ghép âm học của ngôn ngữ: tiếng Tây Ban Nha có 800 âm kép, tiếng Đức có 2500. Trong tổng hợp âm kép, chỉ có một ví dụ của âm kép được chứa trong cơ sở dữ liệu. Khi chạy, lời văn được chồng lên các đơn vị này bằng kỹ thuật xử lý tín hiệu số như mã tiên đoán tuyến tính, PSOLA hay MBROLA.

Chất lượng của âm thanh tổng hợp theo cách này thường không cao bằng phương pháp chọn đơn vị nhưng tự nhiên hơn tổng hợp cộng hưởng tần số. Tổng hợp âm kép tạo ra các tiếng cọ xát ở phần ghép nối và đôi khi giọng nói kiểu robot do các kỹ thuật xử lý tín hiệu số gây ra. Lợi thế của phương pháp này là kích thước cơ sở dữ liệu nhỏ. Các ứng dụng thương mại của phương pháp này đang ít dần, tuy nhiên có nhiều hệ thống như thế này được phân phát tự do, và phục vụ cho nghiên cứu.

Tổng hợp chuyên ngành[sửa | sửa mã nguồn]

Tổng hợp chuyên biệt ghép nối các từ và đoạn văn đã được ghi âm để tạo ra lời phát biểu. Nó được dùng trong các ứng dụng có các văn bản chuyên biệt cho một chuyên ngành, sử dụng lượng từ vựng hạn chế, như các thông báo chuyến bay hay dự báo thời tiết.

Công nghệ này rất đơn giản, và đã được thương mại hóa từ lâu, đã đi vào các đồ vật như đồng hồ biết nói hay máy tính bỏ túi biết nói. Mức độ tự nhiên của các hệ thống này có thể rất cao vì số lượng các câu nói không nhiều và khớp với lời văn và âm điệu của giọng nói ghi âm. Tuy nhiên các hệ thống này bị hạn chế bởi cơ sở dữ liệu chuyên ngành, không phục vụ mọi mục đích mà chỉ hoạt động với các câu nói mà chúng đã được lập trình sẵn.

Tổng hợp cộng hưởng tần số[sửa | sửa mã nguồn]

Tổng hợp cộng hưởng tần số không sử dụng bất cứ mẫu giọng thật nào khi chạy. Thay vào đó, tín hiệu âm thanh cho ra dựa trên một mô hình âm thanh. Các thông số như tần số cơ bản, sự phát âm, và mức độ tiếng ồn được thay đổi theo thời gian để tạo ra dạng sóng cho giọng nói nhân tạo. Phương pháp này đôi khi còn được gọi là tổng hợp dựa trên quy tắc, dù cho nhiều hệ thống ghép nối mẫu âm thanh thật cũng có dùng các thành phần dựa trên quy tắc.

Nhiều hệ thống dựa trên tổng hợp cộng hưởng tần số tạo ra giọng nói nhân tạo, như giọng rôbốt, không tự nhiên, và phân biệt rõ ràng với giọng người thật. Tuy nhiên độ tự nhiên cao không phải lúc nào cũng là mục đích của hệ thống và hệ thống này cũng có các ưu điểm riêng của nó.

Hệ thống này nói khá dễ nghe, ngay cả ở tốc độ cao, không có tiếng cọ xát do ghép âm tạo ra. các hệ thống này hoạt động ở tốc độ cao, có thể hướng dẫn người khiếm thị nhanh chóng dò dẫm trên máy tính, bằng cách đọc to những gì hiện ra trên màn hình. Các hệ thống này cũng nhỏ gọn hơn các hệ thống ghép nối âm, vì không phải chứa cơ sở dữ liệu mẫu âm thanh lớn. Nó có thể dùng trong các hệ thống nhúng khi bộ nhớ và tốc độ xử lý có hạn. Hệ thống này cũng có khả năng điều khiển mọi khía cạnh của tín hiệu âm thanh đi ra, no cho ra một dải rộng các lời văn và ngữ điệu, và không chỉ thể hiện được câu nói thường hay câu hỏi, mà cả các trạng thái tình cảm thông qua âm điệu của giọng nói.

Các ví dụ về các hệ thống cho ra ngữ điệu chính xác (nhưng không cho ra ngay lập tức sau khi nhận đầu vào) là các công trình cuối những năm 1970 của đồ chơi Speak & Spell của Texas Instruments, và các trò chơi video của SEGA đầu những năm 1980 như: Astro Blaster, Zektor, Space Fury, và Star Trek. Hiện vẫn chưa có hệ thống cho ra intonation chính xác ngay sau khi nhận văn bản đầu vào.

Tổng hợp mô phỏng phát âm[sửa | sửa mã nguồn]

Tổng hợp mô phỏng phát âm là các kỹ thuật tổng hợp giọng nói dựa trên mô hình máy tính của cơ quan phát âm của người và quá trình phát âm xảy ra tại đó. Hệ thống tổng hợp mô phỏng phát âm đầu tiên là ASY, thường được dùng cho các thí nghiệm trong nghiên cứu, được phát triển ở phòng thí nghiệm Haskins vào giữa những năm 1970 bởi Philip Rubin, Tom Baer, và Paul Mermelstein. ASY dựa trên mô hình cơ quan phát âm đã được tạo ra bởi phòng thí nghiệm Bell vào những năm 1960 và 1970 bởi Paul Mermelstein, Cecil Coker, và các đồng nghiệp khác. Tổng hợp mô phỏng phát âm đã từng chỉ là hệ thống dành cho nghiên cứu khoa học cho mãi đến những năm gần đây. Lý do là rất ít mô hình tạo ra âm thanh chất lượng đủ cao hoặc có thể chạy hiệu quả trên các ứng dụng thương mại. Một ngoại lệ là hệ thống dựa trên NeXT; vốn được phát triển và thương mại hóa bởi Trillium Sound Research Inc, ở Calgary, Alberta, Canada. Đây là một công ty tách ra từ Đại học Calgary nơi các nghiên cứu ban đầu đã được thực hiện. Theo sau các vụ chuyển nhượng các từng phần của NeXT (bắt đầu từ Steve Jobs vào cuối những năm 1980 và việc hợp nhất với Apple năm 1997), phần mềm của Trillium được phân phát với giấy phéo tự do GPL. Dự án gnuspeech, một dự án của GNU, tiếp tục phát triển phần mềm này. Phần mềm gốc NeXT và các chuyển đổi sang cho Mac OS/X và GNUstep trong GNU/Linux có thể tìm thấy tại trang GNU savannah; chúng đều kèm theo tài liệu hướng dẫn trực tuyến và các bài viết liên quan đến lý thuyết nền tảng của công trình. Hệ thống, vốn được thương mại hóa lần đầu vào năm 1994, tạo ra một máy tổng hợp giọng nói dựa trên mô phỏng phát âm hoàn chỉnh, dựa trên mô hình ống dẫn sóng tương đương với cơ quan phát âm của người. Nó được điều khiển bởi Mô hình Phần Riêng biệt của Carré; bản thân mô hình này lại dựa trên công trình của Gunnar Fant và các người khác ở Phòng thí nghiệm Công nghệ Giọng nói Stockholm thuộc Viện Cộng nghệ Hoàng gia Thụy Điển về tổng hợp giọng nói cộng hưởng tần số. Công trình này cho thấy các cộng hưởng tần số trong ống cộng hưởng có thể được điều khiển bằng cách thay đổi tám tham số tương đồng với các cách phát âm tự nhiên của cơ quan phát âm của người. Hệ thống bao gồm một từ điển phát âm cùng với các quy tắc phát âm tùy thuộc ngữ cảnh để giúp ghép nối âm điệu và tạo ra các tham số phát âm; mô phỏng theo nhịp điệu và ngữ điệu thu được từ các kết quả nghiên cứu ngữ âm học.

Tổng hợp lai[sửa | sửa mã nguồn]

Các hệ thống tổng hợp lai kết hợp các yếu tố của tổng hợp cộng hưởng tần số với tổng hợp ghép nối để giảm thiểu các tiếng cọ xát khi ghép nối các đoạn âm thanh.

Một ví dụ là RecSimCat, phát triển bởi Shakti Singh Parmar có thể tạo ra giọng dễ nghe và tự nhiên.^{[cần dẫn nguồn]}

Tổng hợp dựa trên HMM[sửa | sửa mã nguồn]

Tổng hợp dựa trên HMM là một phương pháp dựa vào mô hình Markov ẩn (HMM, viết tắt cho thuật ngữ tiếng Anh Hidden Markov model). Trong hệ thống này, phổ tần số của giọng nói, tần số cơ bản, và thời lượng đều được mô phỏng cùng lúc bởi HMM. Dạng sóng của giọng nói được tạo từ mô hình Markov ẩn dựa trên tiêu chí khả thực cực đại.

Kỹ thuật ngoại diện[sửa | sửa mã nguồn]

Chuẩn hóa văn bản[sửa | sửa mã nguồn]

Quá trình chuẩn hóa văn bản thường không đơn giản. Lý do là các văn bản thường chứa nhiều từ đồng tự, số và từ viết tắt đòi hỏi hiểu để diễn đạt lại trong văn bản đầy đủ.

Trong một số ngôn ngữ, các từ có thể được phát âm khác nhau tùy theo ngữ cảnh. Đa số hệ thống tổng hợp giọng nói không tạo ra thể hiện văn phạm cho văn bản, vì quá trình này hiện chưa có công nghệ đáng tin cậy. Thay vào đó, nhiều cách lần mò được dùng để phân biệt các cách phát âm, như tìm các từ kế cận hay dùng thống kê về tần số xuất hiện.

Việc chọn cách phát âm số cũng là một vấn đề. Lý do là cũng có nhiều cách phất âm số tùy theo văn cảnh. Như 1325 có thể đọc "một nghìn ba trăm hai mươi nhăm" nếu nó là một số tự nhiên, nhưng cũng có thể là "một ba hai năm" nếu nó là bốn số mật mã ngân khoản. Thường hệ thống tổng hợp giọng nói có thể đoán văn cảnh bằng việc quan sát các từ kế cận, các số hay dấu câu bên cạnh, hoặc dùng trường hợp mặc định khi không thể phân định.

Tương tự, các cách viết tắt cũng có thể mang nhiều nghĩa, tùy thuộc quy ước của người viết.

Văn bản sang âm vị[sửa | sửa mã nguồn]

Các hệ thống tổng hợp giọng nói dùng hai cách cơ bản để xác định cách phát âm cho một từ, một quá trình còn được gọi là chuyển đổi văn bản-sang-âm vị hay tự vị-sang-âm vị, vì âm vị là thuật ngữ dùng bởi các nhà ngôn ngữ học để mô tả các âm khác nhau trong ngôn ngữ.

Cách thứ nhất, và đơn giản nhất, là dựa vào từ điển, sử dụng một từ điển lớn chứa tất cả các từ của một ngôn ngữ và chứa cách phát âm đúng tương ứng cho từng từ, lưu trong máy tính. Việc xác định cách phát âm đúng cho một từ chỉ đơn giản là tra trong từ điển và thay đoạn văn bản bằng mã phát âm đã ghi trong từ điển.

Cách thứ hai là dựa trên quy tắc, sử dụng các quy tắc phát âm để tìm ra cách phát âm tương ứng cho mỗi từ phù hợp với quy tắc.

Mỗi cách đều có ưu điểm và nhược điểm. cách dựa trên từ điển nhanh và chính xác, nhưng sẽ không hoạt động nếu từ cần phát âm không có trong từ điển và lượng từ vựng cần lưu là lớn. Cách dùng quy tắc hoạt động với mọi văn bản (miễn là phù hợp với quy tắc) nhưng độ phức tạp của các quy tắc có thể tăng cao nếu ngôn ngữ có nhiều trường hợp bất quy tắc trong phát âm. Hầu hết các hệ thống tổng hợp giọng nói đều dùng kết hợp cả hai cách.

Một số ngôn ngữ, như tiếng Tây Ban Nha hay tiếng Việt, có hệ thống viết dựa trên cách phát âm một cách rất có quy tắc, và việc tiên đoán cách phát âm từ cách viết thường có tỷ lệ thành công cao. Các hệ thống tổng hợp giọng nói cho các ngôn ngữ này thường dùng chủ yếu cách dựa trên quy tắc, chỉ tra từ điển một vài từ đặc biệt như tên vay mượn từ nước ngoài.

Một số ngôn ngữ khác, như tiếng Anh, có hệ thống phát âm rất bất quy tắc, thường cần hệ thống tổng hợp giọng nói dựa chủ yếu trên từ điển và dùng các quy tắc cho những từ không có trong từ điển.

Ngôn ngữ đánh dấu cho tổng hợp giọng nói[sửa | sửa mã nguồn]

Có nhiều ngôn ngữ đánh dấu đã được hình thành cho việc tạo giọng nói từ văn bản, phù hợp với chuẩn XML. Một ví dụ cho ngôn ngữ kiểu này là SSML được W3C đề xuất. Các ngôn ngữ đánh dấu cũ hơn có SABLE và JSML. Các ngôn ngữ này đều được đề xuất là chuẩn chung, nhưng chưa có ngôn ngữ nào được dùng đủ rộng rãi để thiết lập thành chuẩn chung.

Một tập con của CSS 2 chứa ACSS cũng phục vụ mục đích tổng hợp giọng nói.

Ngôn ngữ đánh dấu tổng hợp giọng nói khác với ngôn ngữ đánh dấu đàm thoại (như VoiceXML). Các ngôn ngữ đánh dấu đàm thoại, ngoài chứa các thông tin chuyển văn bản sang giọng nói, còn có các thẻ cho phép nhận dạng giọng nói, quản lý đàm thoại và thông tin về quay số điện thoại bằng âm thanh.

Các hệ điều hành có tổng hợp giọng nói[sửa | sửa mã nguồn]

Mac OS và Mac OS X[sửa | sửa mã nguồn]

Hệ thống tổng hợp giọng nói đầu tiên được tích hợp vào trong một hệ điều hành là Macintalk trên máy tính Macintosh của hãng Apple Inc. năm 1984. Apple Inc. là một trong những nhà sản xuất đầu tiên đưa hệ thống tổng hợp giọng nói vào các hệ điều hành thương mại. Trong những năm 1990, các giọng nói của Apple được tổng hợp từ các mẫu tự nhiên. Tuy nhiên gần đây, Apple đã thêm các mẫu giọng nói tổng hợp, là Vicki và Bruce - đặt tên theo giáo sư và nghiên cứu sinh tại khoa ngôn ngữ học UCLA, những người đã cung cấp các mô hình giọng nói này. Các phần mềm đầu tiên chỉ có ý định gây sự tò mò cho khách hàng và không được Apple hỗ trợ trực tiếp; tuy nhiên hệ thống tổng hợp giọng nói của máy tính Macintosh đã tiến hóa thành một chương trình được hỗ trợ đầy đủ cho người khiếm thị.

AmigaOS[sửa | sửa mã nguồn]

Hệ điều hành thứ hai trên thị trường tích hợp hệ thống tổng hợp giọng nói là AmigaOS năm 1985. Hệ thống này được cấp phép cho Commodore International từ một bên thứ ba là một hãng phần mềm (Don't Ask Software, nay là Softvoice, Inc.) và nó có một hệ thống mô phỏng giọng người hoàn chỉnh, có cả giọng nam và giọng nữ với các âm sắc khác nhau, dùng các tính năng nâng cao của các chip điện tử trong phần cứng Amiga. Nó được chia làm hai phần: phần đọc bình luận và một thư viện dịch thuật. Phần mềm Speak Handler của Amiga có phần dịch thuật văn bản sang tiếng nói, dùng hệ thống tổng hợp âm vị ARPAbet. AmigaOS coi hệ thống tổng hợp giọng nói như một thiết bị phần cứng ảo, nên người dùng có thể chuyển tín hiệu ra từ phần mềm khác đến nó giống như đến máy in hay màn hình. Một số phần mềm trong Amiga, như trình soạn thảo văn bản, dùng nhiều hệ thống này.

VOCALOID[sửa | sửa mã nguồn]

Vocaloid là một phần mềm tổng hợp giọng hát. Phần xử lý tín hiệu của nó được phát triển thông qua một dự án nghiên cứu chung do Kenmochi Hideki đứng đầu tại Đại học Pompeu Fabra ở Barcelona, Tây Ban Nha, vào năm 2000 và ban đầu không được dự định là một dự án thương mại đầy đủ. Được hỗ trợ bởi tập đoàn Yamaha, nó đã phát triển phần mềm thành sản phẩm thương mại "Vocaloid". Phần mềm cho phép người dùng tổng hợp "ca hát" bằng cách gõ vào lời bài hát và giai điệu. Nó sử dụng công nghệ tổng hợp với giọng hát được ghi lại đặc biệt của các diễn viên lồng tiếng hoặc ca sĩ. Để tạo một bài hát, người dùng phải nhập giai điệu và lời bài hát. Một giao diện kiểu cuộn piano được sử dụng để nhập giai điệu và lời bài hát có thể được nhập trên mỗi ghi chú. Phần mềm có thể thay đổi sự căng thẳng của cách phát âm, thêm hiệu ứng như rung, hoặc thay đổi động lực và giai điệu của giọng nói.

Nhiều ngân hàng giọng (voicebank) đã được phát hành để sử dụng với công nghệ tổng hợp Vocaloid. Mỗi phần mềm của một Vocaloid là "một ca sĩ trong một chiếc hộp" được thiết kế để hoạt động như một sự thay thế cho một ca sĩ thực sự. Như vậy, chúng được giải phóng dưới hình thức nhân học moe. Những avatar này cũng được gọi là Vocaloid, và thường được bán dưới dạng thần tượng ảo; một số đã tiếp tục biểu diễn tại các buổi hòa nhạc trực tiếp dưới dạng chiếu Hologram trên sân khấu. Phần mềm ban đầu chỉ có các giọng hát bằng Tiếng Anh và Tiếng Nhật, sau đó tới chương trình Vocaloid 3 trở đi, nó đã có Tiếng Trung, Tiếng Tây Ban Nha và Tiếng Triều Tiên.

UTAU[sửa | sửa mã nguồn]

UTAU là một ứng dụng tổng hợp tiếng Nhật được tạo ra bởi Ameya / Ayame. Chương trình này tương tự như phần mềm Vocaloid, với sự khác biệt là phần mềm chia sẻ thay vì được phát hành theo giấy phép của bên thứ ba. Vào tháng 3 năm 2008, Ameya / Ayame đã phát hành UTAU, một phần mềm chia sẻ công cụ hỗ trợ miễn phí, nâng cao được thực hiện miễn phí để tải xuống từ trang web chính của nó. UTAU, có nghĩa là "hát" bằng tiếng Nhật, có nguồn gốc từ hoạt động của "Jinriki Bōkaroido" (人力ボーカロイド, Manual Vocaloid), nơi người ta chỉnh sửa một ca khúc hiện có, trích âm, điều chỉnh, và ráp lại chúng để tạo ra một Vocaloid giọng hát tuyệt vời. UTAU ban đầu được tạo ra để hỗ trợ quá trình này bằng cách sử dụng tổng hợp ghép nối. UTAU có khả năng sử dụng các tệp sóng do người dùng cung cấp, để giọng hát có thể được tổng hợp bằng cách giới thiệu lời bài hát và giai điệu. Nó đi kèm với bộ tổng hợp giọng nói của AQUEST "AquesTalk" để tổng hợp các mẫu giọng nói của voicebank mặc định, Utane Uta (cũng có biệt danh là Defoko) trong lần ra mắt đầu tiên của UTAU (sau đó máy phát tự xóa). Tiếng nói cho chương trình UTAU được chính thức gọi là "UTAU" nhưng thường được gọi là "UTAUloids", tham chiếu đến "Vocaloids". Chúng cũng được gọi là "voicebanks" (phổ biến hơn trong các khu vực nói tiếng Anh) và "(voice) libraries" ở Nhật Bản. Vô số voicebanks đã được phát triển bởi người dùng độc lập. Các khẩu lệnh này thường được phân phối trực tiếp từ người sáng tạo của họ thông qua tải xuống qua internet.

UTAU chủ yếu là một chương trình tiếng Nhật và do đó nhiều tiếng nói được tạo ra đặc biệt cho tiếng Nhật. Tuy nhiên, các ngôn ngữ đã được mở rộng và có nhiều UTAUloids song ngữ, chủ yếu là hát bằng tiếng Nhật và tiếng Anh. Trong khi có một số lượng lớn UTAU song ngữ, UTAU đa ngôn ngữ cũng đã được thực hiện có thể hát bằng ba hoặc nhiều ngôn ngữ (hiện đã có một số UTAU Tiếng Việt được phát hành và được mở rộng bởi người Việt Nam). Bất kể ngôn ngữ, các menu phần mềm vẫn còn bằng tiếng Nhật và máy tính của người dùng phải ở trong miền địa phương của Nhật Bản hoặc sử dụng AppLocale để chạy phần mềm. Hầu hết tài liệu của nó là bằng tiếng Nhật, nhưng tài liệu hướng dẫn sử dụng của nó đã được dịch sang tiếng Anh. Gần đây, chương trình đã được người dùng dịch sang tiếng Anh và các bản dịch khác vẫn đang chờ xử lý. Tuy nhiên, ngay cả với bản dịch, chương trình vẫn yêu cầu hỗ trợ cho văn bản tiếng Nhật.

Các tệp dự án của UTAU được lưu trong phần mở rộng ".ust" (Utau Sequence Text). Các tệp này có thể được phân phối tự do, cho phép UTAU khác nhau hát cùng một phần. Điều quan trọng cần lưu ý là các nguyên tắc mà người sáng tạo UST đã cung cấp về phân phối và sử dụng.ust. Các nhà sản xuất đã phát triển một số phương pháp sản xuất các ngân hàng âm thanh của họ và kết quả cho voicebanks khác nhau vì điều này.

Không giống như Vocaloid, các tệp UTAU không bị hạn chế vì nó không phải là một giấy phép dựa trên độc quyền. Do đó, có thể sử dụng các sản phẩm giấy phép nguồn mở với phần mềm UTAU, chẳng hạn như các sản phẩm được sản xuất cho loạt Macne (Mac 音シリーズ), được phát hành cho các chương trình Lý do 4 và GarageBand. Những sản phẩm này đã được Act2 bán và bằng cách chuyển đổi định dạng tệp của họ, cũng có thể làm việc với chương trình UTAU. Sau đó, các gói Macne Whisper ☆ Thiên thần Sasayaki, Macne Nana 2S và Macne Petit 2S đi kèm với voicebanks UTAU dựng sẵn.

Voicebank mặc định "Defoko" (Uta Utane) vay mượn giọng nói của cô từ phần mềm AquesTalk, đặc biệt là giọng nói "AquesTalk Female-1" được sản xuất bởi A-quest. Giấy phép đã được cấp cho bản phân phối của cô miễn phí với phần mềm. Koe Utane, "chị em" của Uta, cũng mượn giọng nói của cô từ phần mềm AquesTalk. Namine Ritsu (波音リツ), một giọng hát ban đầu được xây dựng cho UTAU, sau đó được thêm vào một phần mềm khác có tên "Sinsy" là "Namine Ritsu S".

Do thỏa thuận bản quyền của phần mềm, phần mềm giấy phép không mở như VOCALOID không được phép nhập vào phần mềm UTAU.Một số plug-in cho phần mềm cũng đã được phát triển bởi người dùng phần mềm bổ sung và nâng cao giọng hát của phần mềm.

Phần mềm "Sugarcape", dựa trên cùng một ý tưởng phần mềm miễn phí như UTAU, đã bước vào giai đoạn beta. Hiện tại có một phiên bản Mac chính thức của UTAU, có tên là UTAU-Synth. Nó có các tính năng tương tự như phiên bản Windows. Phiên bản UTAU-Synth có thể nhập cả giọng nói và bài hát được tạo bằng phiên bản Windows, nhưng các tệp dự án và cấu hình voicebank của nó không hoàn toàn tương thích với phiên bản Windows.

Vào cuối năm 2017, Plogue Art et Technologie, Inc. đã có một bản chuyển hướng chuyển hướng làm việc để làm cho giọng hát của UTAU xuất hiện trong engine Alter / Ego.

Microsoft Windows[sửa | sửa mã nguồn]

Các hệ điều hành Windows hiện đại dùng các hệ thống tổng hợp giọng nói dựa trên SAPI4 và SAPI5, kèm theo máy nhận dạng giọng nói. SAPI 4.0 có mặt trên các hệ điều hành như Windows 9x.

Nhiều phần mềm, như mIRC, dùng nhiều chức năng trong SAPI 4.0 hay SAPI 5.0. Windows XP có phần mềm Narrator. Hầu hết các phần mềm tương thích với Windows như Notepad, Office hay Adobe Acrobat có thể dùng các tính năng tổng hợp giọng nói; tùy theo lựa chọn trên trình đơn sau khi đã cài đặt. Chúng cung cấp hỗ trợ cho người khiếm thị.

Một ví dụ về việc SAPI 5 cho phép một phần mềm kết hợp công nghệ của Microsoft thành một màn hình nền có tính tương tác cao là Talking desktop. Phần mềm này kết hợp chức năng nhận dạng giọng nói với các phát âm của SAPI 5.

Microsoft Speech Server là một gói hoàn chỉnh để tổng hợp và nhận dạng giọng nói, và có thể ứng dụng cho các hệ thống liên lạc điện thoại có máy tính dùng Windows.

GNU/Linux[sửa | sửa mã nguồn]

Có rất nhiều hệ thống tổng hợp giọng nói cho GNU/Linux và đều có mã nguồn mở. Ví dụ bao gồm Festival, của Đại học Edinburgh, hay gnuspeech, của Tổ chức Phần mềm Tự do.

TI-99/4 và TI-99/4A[sửa | sửa mã nguồn]

TI-99/4 (1979) và TI-99/4A (1981) có thể đọc văn bản ở chế độ đọc từng chữ và đọc cả đoạn.

Trong máy TI Extended BASIC, lệnh CALL SAY có thể được dùng. Ví dụ, CALL SAY("I AM A TEXAS INSTRUMENTS T I 99 4 A HOME COMPUTER") sẽ khiến nó nói về bản thân với giọng Texas. Trong hệ thống này, ở chế độ đọc cả từ, các từ lạ sẽ được phát âm bằng cách đọc từng chữ cái. Ở chế độ đọc từng chữ cái, chất lượng giảm hẳn, dù hệ thống sẽ đọc bất cứ văn bản nào gửi đến nó.

TI-99/4 (1979) và TI-99/4A (1981) chứa các bộ vi xử lý 16-bit.

Alter/Ego[sửa | sửa mã nguồn]

Alter / Ego (Al ルター・エ) là một phần mềm tổng hợp giọng hát thời gian thực được tạo ra bởi Plogue.

Alter/ Ego tổng hợp văn bản thành giọng nói nhằm tạo ra nhiều giọng hát hiện đại hơn, làm việc để đăng các nghiên cứu năm 1990. Nó được cung cấp như một plug-in miễn phí và được sử dụng để làm nhạc để tạo ra giọng hát. Nó hoạt động theo cách tương tự với Chipspeech. Giọng hát được cắt sạch mặc dù âm thanh robot và phần mềm lý tưởng cho thử nghiệm giọng hát. Nó có khả năng chạy các công cụ phát biểu khác nhau.

Hiện tại chỉ có 1 bản phát hành cho phần mềm, nhưng nhiều hơn là do được phát hành theo các phong cách khác nhau. Các giọng hát phát hành được mua riêng. Các giọng hát đến như các tập tin cần phải được trích xuất khi họ thiếu trình cài đặt. Theo thời gian, Plogue đã nhận được nhiều yêu cầu thanh nhạc từ các cá nhân kể từ khi phát hành phần mềm, tuy nhiên chúng bị giới hạn bởi nhóm phát triển nhỏ và bận rộn. Theo ghi nhận của BPB, Alter / Ego được ca ngợi là một công cụ mạnh mẽ theo tiêu chuẩn của phần mềm tự do. Tuy nhiên, nó có một đường cong học tập dốc, mặc dù được đánh dấu là dễ dàng như thế nào để có được bộ tổng hợp để hát lời bài hát, gọi sản phẩm là "vui" để làm việc với general.Later vào tháng 12 năm đó, phần mềm được trao giải nhì 50 danh sách dụng cụ miễn phí

Tạp chí âm nhạc máy tính (Computer Music magazine) cũng đã giới thiệu bộ tổng hợp vào tháng 12 năm 2015.

Vào tháng 1 năm 2016, đã có thông báo rằng có 6 giọng hát mới trong sản xuất. Không có nhiều giọng hát là do sau khi Leora và Marie Orks cuối cùng hai bản cập nhật thanh nhạc. Plogue có kể từ đó chuyển sang các thích ứng khác của động cơ. Một sự thích ứng như vậy là khả năng cho động cơ phát hiện tiếng nói chuyển văn bản thành giọng nói của Microsoft và tải chúng vào động cơ. UTAU cũng đã được thử nghiệm. Plogue lưu ý rằng động cơ được thiết kế để có người dùng thực hiện hỗ trợ giọng hát ngay từ đầu, mặc dù điều này vẫn chưa được thực hiện do thiếu sự hỗ trợ cho điều này.

Cantor[sửa | sửa mã nguồn]

Cantor là một phần mềm tổng hợp giọng hát được phát hành bốn tháng sau khi phát hành ban đầu của Vocaloid bởi công ty VirSyn, và được dựa trên ý tưởng tương tự của synethesizing tiếng nói của con người. VirSyn phát hành phiên bản tiếng Anh và tiếng Đức của phần mềm này. Cantor 2 khoe khoang nhiều giọng nói từ những âm thanh gần như thực tế đến giọng hát biểu cảm cao và giọng nói robot. Cantor không dựa trên các mẫu ca hát, và kết quả của nó được tái tạo bằng một công cụ tổng hợp phụ gia biến hình có nguồn gốc từ bộ tổng hợp phần mềm Cube của VirSyn. Nó được sử dụng để tạo ra 39 âm vị mà VirSyn sử dụng để tái tạo giọng nói hay ca hát tiếng Anh. Mỗi âm vị được tạo ra bằng cách truyền đi một nguồn âm thanh cộng thêm thông qua một bộ lọc formant, nó biến đổi giữa trạng thái bắt đầu và trạng thái kết thúc. Các đáp ứng bộ lọc này có thể chỉnh sửa được: Có thể xác định tối đa sáu đỉnh và ba đáy trong phản ứng bộ lọc formant là các điểm morph. Cantor 2 cung cấp 20 giọng hát sẵn sàng để sử dụng bằng tiếng Anh và tiếng Đức và thêm nhiều tiếng nói mới trên phần mềm Cantor gốc, nâng tổng cộng lên 50 giọng nói.

Máy phát âm thanh được sử dụng kết hợp tổng hợp phụ gia và điêu khắc tiếng ồn mà nó sử dụng đặc biệt cho 50 âm thanh lồng tiếng được cung cấp bởi phần mềm như được đặt làm bộ hoàn chỉnh cho âm thanh chưa được phát âm. Khái niệm về âm thanh được lồng tiếng và không rõ ràng là phức tạp nhưng đã được sử dụng để mô tả cách Cantor có thể nắm vững khả năng ngôn ngữ của nó trong lời nói của con người. Đối với âm thanh lồng tiếng, synth phụ gia điều khiển thành phần âm thanh của âm thanh (dây thanh âm), trong khi tiếng ồn synth kiểm soát thành phần hơi thở (thì thầm). Nó kiểm soát lên đến 256 partials. Khi người dùng tăng cao hơn vào quãng tám, những người này trở thành nhóm được kiểm soát. Đối với những người đã sử dụng phần mềm khác của VirSyn, Cantor là những cơ sở quen thuộc và có nhiều điểm chung với những bộ vi xử lý trước đây mà VirSyn đã sản xuất.

Vì thiết kế của nó, nó giống như một nhạc cụ ảo hơn là một ca sĩ ảo. Nó không bao giờ tuyên bố bắt chước một giọng ca sĩ thực sự và được dự định hoàn toàn cho các hiệu ứng đặc biệt. Mặc dù nó là phức tạp, Cantor được coi là một thiết kế đơn giản tổng thể và tương đối dễ sử dụng cho mục đích của nó.

Nó lưu trữ các khả năng của VST, AU và RTAS. Bởi bản phát hành của Cantor 2, định dạng tệp midi hoàn toàn có chức năng. Nó có thể hoạt động như một phần mềm độc lập hoặc như một plugin; có sự khác biệt nhỏ giữa phần mềm cho cả hai. Nó hoạt động như một phần mềm độc lập hoặc plug-in và hỗ trợ ReWire. Mặc dù nó được phát hành bằng tiếng Đức và tiếng Anh, với sự điều chỉnh của âm thanh đầu ra nó đã có thể tái tạo các ngôn ngữ giọng hát ngoài này và bắt chước các ngôn ngữ khác. Cantor được phát hành sau khi động cơ Vocaloid gốc và được coi là một phần mềm phù hợp để cạnh tranh với động cơ Vocaloid của Yamaha, sau đó chỉ được biết đến ở bán cầu tây bởi Vocaloids 'Leon', 'Lola' và 'Miriam'. Cantor đạt đến một mức độ tổng hợp giọng hát mà chưa đạt được.

Một bản demo của phần mềm đã được phát hành. Nó yêu cầu mua một dongle elicence để tải về bản demo, cũng như các phần mềm đầy đủ nếu nó được mua điện tử. [1] Phiên bản cuối cùng, Cantor 2.1 được phát hành vào ngày 6 tháng 2 năm 2007. Mặc dù các bản cập nhật đã ngừng hoạt động, phần mềm này chưa bao giờ bị xóa khỏi bán hàng. Album Light + Shade của Mike Oldfield có cả ca khúc Vocaloid 'Miriam' cùng với phần mềm Cantor trong bài hát "Tears of a Angel" (nước mắt Thiên thần). Mặc dù là một chương trình đối thủ với Vocaloid, nó có thể được mua trên trang web của Crypton Future Media.

CeVIO[sửa | sửa mã nguồn]

CeVIO là tên tập thể của một loạt các dự án phần mềm máy tính, bao gồm Vision (digital signage) và Creative Studio (phần mềm tạo âm thanh). CeVIO được tạo ra để hỗ trợ việc tạo nội dung do người dùng tạo. Nó hoạt động thông qua phương pháp chuyển văn bản thành giọng nói. Nó cho phép phần mềm tạo âm thanh để tổng hợp giọng nói và giọng nói. Bài phát biểu và bài hát là các tính năng chính của chương trình này. Phần Speech cung cấp một từ điển lớn các từ mà Sato Sasara, Suzuki Tsudumi và Takahashi nói và chính xác bằng tiếng Nhật, mặc dù bạn có tùy chọn tự chỉnh sửa nó nếu cần thiết. Phần Speech được tạo ra với sự trợ giúp của phương pháp HTS, phương pháp này nổi tiếng trong cơ sở người hâm mộ VOCALOID vì phương pháp này tạo ra các bộ tổng hợp trực tuyến Sinsy, Open J-Talk, Renoid Player, và nhiều hơn nữa. Phần Speech cung cấp các loại giọng nói khác nhau cho mỗi nhân vật.

Ngữ điệu giọng nói của CeVIO Creative Studio có thể được điều khiển bằng ba thông số: vui vẻ, tức giận và buồn. Những thứ khác cũng có thể được kiểm soát, chẳng hạn như âm lượng và tốc độ của phụ âm và nguyên âm.

Phần mềm ban đầu được phát hành là "CeVIO Creative Studio FREE" với Sato Sasara là giọng nói duy nhất. Một là miễn phí để tạo ra các bài hát, chèn lời bài hát, và thêm hơi thở vào cuối các ghi chú, nhưng ngay cả sau đó những người sẽ bị cuốn vào cuối của cô đã tự động thiết lập hơi thở. Bất cứ điều gì khác sẽ yêu cầu phần mềm bên ngoài nhưng không thực sự ngăn chặn sự xáo trộn của quá trình chuyển đổi nguyên âm của cô. Sau khi phát hành "CeVIO Creative Studio S" vào ngày 14 tháng 11 năm 2014, phiên bản MIỄN PHÍ đã được thay thế bằng bản dùng thử miễn phí một tháng của phiên bản đầy đủ. Phiên bản demo miễn phí không còn có sẵn kể từ ngày 19 tháng 11 năm 2014.

Trong phiên bản đầy đủ, nhiều tùy chọn để tinh chỉnh trở nên khả dụng. Fine-Tune Amplitude Timing, cho phép chỉnh sửa choppiness. Quảng cáo chiêu hàng có thể được điều chỉnh như trước đây, nhưng giờ đây cũng có thể chỉnh sửa âm thanh nổi, cùng với thời gian rung và rung cũng có thể chỉnh sửa được. Quan trọng nhất, khối lượng và động lực có thể được chỉnh sửa. Yếu tố giới tính cũng có sẵn, điều này làm cho giọng nói kém hoặc trưởng thành hơn. Tùy chọn để nhập MIDI và.xml vẫn tồn tại. Phần mở rộng của tệp cũng đã thay đổi từ ".ccs" thành ".csv" của phiên bản miễn phí.

Chipspeech[sửa | sửa mã nguồn]

Chipspeech là một phần mềm tổng hợp giọng hát được tạo ra bởi Plogue với mục tiêu tái tạo các bộ tổng hợp năm 1980. Phần mềm này được sử dụng để tạo giọng hát để sử dụng trong âm nhạc. Chipspeech được thiết kế để sản xuất giọng hát kiểu cổ điển từ các bộ tổng hợp được sử dụng bởi ngành công nghiệp âm nhạc trong những năm 1980. Do đó, giọng hát không có ý nghĩa thực tế và phù hợp hơn cho thử nghiệm âm thanh. Nó hoạt động như một phương pháp Text-to-speech. Người dùng gõ lời bài hát vào và nhận kết quả phát ngay lập tức, đó là một khả năng vượt ra ngoài soundchips gốc mà giọng hát phần mềm được dựa trên. Phần mềm đơn giản như Vocaloid. Mặc dù tiếng Anh và tiếng Nhật đến như là tiêu chuẩn, các ngôn ngữ khác có thể được tạo ra bằng cách nhập trực tiếp các âm tiết. Mặc dù giọng hát giống như con người có thể đạt được, kết quả luôn luôn là máy hơn là giống như con người. Nó có khả năng các phương pháp tổng hợp khác nhau hoặc tái lấy mẫu. Ngoài phiên bản 1.032 của phần mềm, chương trình "Nói và Chính tả" mới được thêm vào tạo tính năng uốn mạch.

Bản thân Chipspeech được tạo ra như là kết quả của nghiên cứu cho Chipsounds bởi Plogue trong những năm 2000. Bản thân David Viens thường xuyên thu thập Soundchips ngay cả khi không cần chúng. Sự ám ảnh này cuối cùng dẫn đến các sự kiện tiếp theo đã tạo ra phần mềm Chipspeech sau khi ông đã trải qua nhiều năm hack, chế tạo protoboard, thăm dò và kỹ thuật đảo ngược của các chip thoại. Ông lưu ý rằng mục tiêu chính của phần mềm là trở thành một trình mô phỏng ca hát chứ không phải là phần mềm chuyển văn bản thành giọng nói. Dữ liệu nguồn của mỗi giọng hát là 8 kHz hoặc 10 kHz. Mặc dù tất cả nỗ lực của họ, dự án đã dừng lại. Hubert Lamontagne đến với công ty Plogue với kiến thức về ngữ âm, Hubert đã quan tâm đến việc tạo ra một bộ tổng hợp âm thanh cổ điển, ông đã thiết kế bộ tổng hợp để làm việc ngoài việc trở thành một thư viện âm thanh.

Ban đầu nó xuất hiện với 7 "ký tự" khi mua, nhiều giọng hát đã được thêm vào từ đó và tiếp tục được thêm vào. Những nhân vật đi kèm với cốt truyện của riêng mình và được dựa trên một bộ tổng hợp âm thanh. Giải trí của những tiếng nói đã được thực hiện với sự cho phép từ người có giấy phép tương ứng của họ. Bản thân Plogue đã giành được quyền đối với dữ liệu bài phát biểu từ ba trò chơi TI-99 / 4A (Alpiner, Parsec và Moon Mine) và từ vựng nội bộ của Thiết bị nói tiếng TI. Quá trình giành quyền cho giọng hát đã mất hơn 10 năm, vì công ty không muốn coi thường chủ bản quyền ngay cả khi gặp các vấn đề như chủ giấy phép đã phá sản. Và mặc dù công nghệ này dễ thi đua, nhưng dữ liệu cần thiết cho mô phỏng thì không.

Vào tháng 1 năm 2016, Plogue thông báo rằng Hubert Lamontagne đã tìm ra cách để cải thiện chất lượng. Vào ngày 9 tháng 2, Vers. 1.066 đã được phát hành. Lỗi cố định này với Deeklatt và Otto Mozer. Những cải tiến về giọng nói cho Dandy 704 và Bert Gotrax đã được lên kế hoạch cho bản phát hành tiếp theo và được cập nhật trong 1.072. Một số giọng hát như Dandy 704 bị hạn chế bởi cách xa chúng có thể được cải thiện. Ngoài ra, Chipspeech sẽ nhận được khả năng nói chuyện cũng như hát trong bản cập nhật lớn tiếp theo của nó. Chipspeech cũng đã được xuất khẩu sang Nhật Bản trong tháng 6 năm 2016. Việc tiếp nhận phần mềm chủ yếu là tích cực. Nó đã giành được 3 giải thưởng Âm nhạc máy tính; Lựa chọn, hiệu suất và sự đổi mới của biên tập viên. Phần mềm này được mô tả như một sản phẩm được đánh bóng tại buổi đánh giá MusicRadar của họ và được ghi nhận là "rất nhiều niềm vui để sử dụng".

AskAudio trong bài "Voice of the Machines" của họ tập trung vào thực tế là với việc nâng cao phần mềm Autotuning, con người luôn được yêu cầu. Chipspeech cho phép một cách tiếp cận hoài cổ để tổng hợp giọng hát với giọng hát của nó đến hoàn toàn từ một máy tính. Nó liệt kê các mặt tích cực của phần mềm là "Cực kỳ độc đáo, khá dễ sử dụng, âm thanh tuyệt vời, giá cả phải chăng" nhưng lưu ý là điểm yếu chính của nó là làm thế nào phần mềm căng thẳng CPU.

CDM, người đã được cấp quyền truy cập sớm độc quyền vào phần mềm, cũng nhấn mạnh cách các nhà tổng hợp hiện đại "nhàm chán" đã trở thành và tập trung vào "niềm vui" mà phần mềm cung cấp. Một trong những thành tích nổi bật của phần mềm này là làm thế nào hiếm một số chip lịch sử mà nó nhằm mục đích tái tạo đã trở thành.

Vào tháng 8 năm 2016, Chipspeech đứng đầu top 25 bảng xếp hạng nhạc cụ ảo tại Sonicwire, thuộc sở hữu của Crypton Future Media, đánh bại các sản phẩm Vocaloid của họ như Hatsune Miku mà thường thống trị bảng xếp hạng của họ.

Phiên bản 1.5 đã được phát hành vào ngày 16 tháng 9 năm 2016, thêm khả năng nói chuyện, điều chỉnh nâng cao và hai giọng hát mới "Rotten.ST" và "CiderTalk'84" dựa trên giọng hát của 16 giai đoạn cắn.

Vào năm 2017, Voder và Software Automatic Mouth đã được thông báo đến với phần mềm vào năm 2017.

LaLaVoice[sửa | sửa mã nguồn]

LaLaVoice (ララボイス) là một bộ tổng hợp giọng hát được thiết kế cho tiếng Nhật. Phiên bản cuối cùng của phần mềm có tiêu đề "LaLaVoice2001". Phần mềm này chỉ được phát hành bằng tiếng Nhật và một hệ điều hành tiếng Nhật là cần thiết cho phần mềm.

LaLaVoice có một số khả năng, mà nó chủ yếu đạt được từ đầu vào text-to-speech cơ bản, mặc dù nó cũng có thể nhập các âm thanh bằng cách sử dụng một micro. Cũng như đọc văn bản đơn giản, nó có khả năng tạo ra giọng ca hát ("LaLaSong") và đọc các khung trang web cụ thể. Giọng hát đã vang lên khi chơi. Bản thân giọng hát được dựa trên một họ các nhân vật từ các thành viên thực tế hơn của gia đình (như bà, gái, trai, ông, vv) cho những người dự định là linh hồn dựa trên robot.

Phần mềm này cũng hỗ trợ Microsoft Office và có thể được sử dụng với Excel hoặc Word và thậm chí có thể đọc e-mail.

Chức năng cuối cùng của phần mềm là một chế độ mà một con thỏ được gọi là "SuPaamimi" ("すぅぱぁみみ") sẽ hoạt động như một chương trình quản lý lịch biểu. SuPaamimi cài đặt với một liên kết trên máy tính để bàn và sẽ đọc các cuộc hẹn ra.

NIAONiao Virtual Singer[sửa | sửa mã nguồn]

NIAONiao Virtual Singer (Tiếng Trung: 袅袅虚拟歌手, bính âm: Niǎoniǎo xūnǐ gēshǒu), là một ứng dụng tổng hợp giọng hát miễn phí được xây dựng cho tiếng Trung và là trình tổng hợp giọng hát đầu tiên được sản xuất tại Trung Quốc. Phần mềm này hoạt động tương tự như phần mềm Vocaloid của Yamaha và một phần mềm chia sẻ miễn phí khác được gọi là UTAU.

Các voicebank mặc định được đặt tên là Yu Niaoniao (余袅袅), tuy nhiên các voicebanks bổ sung có thể được thực hiện thủ công để tạo ra giọng hát mới và các ngôn ngữ bổ sung là có thể. Trang web cho phần mềm cung cấp một số giọng hát khác để tải xuống.

Các mẫu chính được đóng gói trong một tệp lớn duy nhất. NIAONiao có thể có phụ âm cuối cùng trong một giọng nói, vì nó được xây dựng cho ngôn ngữ Trung Quốc. Có một bảng điều khiển ở phía dưới để kiểm soát các thông số, pitchbends và vibrato.

NIAONiao có thể nhập các tệp MIDI, tệp VSQX và tệp UST, xuất các bản nhạc ở định dạng tệp "Niao" (*.nn) và có thể hiển thị trực tiếp các bản nhạc thanh âm dưới dạng tệp WAV, MP3 hoặc MIDI.

Sharpkey[sửa | sửa mã nguồn]

Sharpkey là một chương trình tổng hợp giọng nói được phát triển và phát hành bởi Boxstar vào năm 2016. Sharpkey là một hit trong cộng đồng VOCALOID hiện tại và dẫn đến sự sáng tạo và tham gia của các nhà sản xuất, bài hát và thậm chí cả hàng hóa.

Mặc dù tồn tại ngắn của Sharpkey, nó tạo ra 6 giọng nói riêng lẻ như Huan Xiao Yi, Kiana, Yuan Xiao, và nhiều hơn nữa. Nó cũng bắt đầu dự án Sharpkey Galaxy liên quan đến người hâm mộ trong việc tạo ra tiếng nói mới và hỗ trợ trong việc nêu rõ niềm tin của Sharpkey rằng âm nhạc nên được miễn phí cho tất cả mọi người.

Realivox[sửa | sửa mã nguồn]

Realivox là một bộ tổng hợp giọng nói. Phần mềm cho phép chỉnh sửa và điều chỉnh âm thanh tinh tế. Phần mềm này có hai dạng, mặc dù cả hai đều nhắm đến mục tiêu tương tự. Nó cũng có thể làm việc với Kompakt.

Realivox Ladies: Đây là một phiên bản nhiều gói với 5 giọng nữ với mỗi giọng hát khác nhau - Cheryl (giọng hát thoáng mát được thiết kế cho các bộ phim), Teresa (ca sĩ opera soprano), Patty (nhạc pop và nhạc dân tộc), Julie (full phạm vi) và Toni (RnB). Không giống như Blue, Ladies tập trung vào 32 mẫu âm thanh chính đơn giản như "ah". Do mỗi trường hợp sử dụng tùy chọn lựa chọn giọng nói, có thể xây dựng giọng hát để tạo ra một dàn hợp xướng âm thanh bằng cách sử dụng năm giọng hát. Các gói đến như là một phiên bản "lite" hoặc "đầy đủ", với sự khác biệt là Teresa vắng mặt trong phiên bản lite. Gói này cũng đã được cập nhật lên phiên bản 2 kể từ khi phát hành ban đầu. Phiên bản cập nhật chứa gấp đôi số lượng khớp nối như bản gốc. Bản nâng cấp được cung cấp cho những người đã mua phiên bản đầu tiên miễn phí. Bản cập nhật được thực hiện với các bản ghi âm mới từ các ca sĩ gốc.

Realivox - Blue: Đây là một ca khúc phong cách cổ điển với một ca sĩ nữ solo. Trái ngược với sản phẩm "Realivox Ladies", Blue là một gói phức tạp hơn với các tính năng nâng cao. Giọng hát của cô phức tạp với 12.000 mẫu với 32 mẫu âm thanh bao gồm hai và một nửa quãng tám của kết quả hát, trong khi phụ âm đóng có 192 mẫu cho một số âm thanh như "t". Tất cả sáu nguyên âm chứa kết quả legato, điều này cũng được bao gồm cho âm thanh ồn ào âm thanh như "mm". Cô cũng có khả năng đa âm. Cô được thiết kế để trở thành một giọng hát giữa giọng hát và có tông màu trung thực. Các mẫu được kết hợp để xây dựng từ, với sự chuyển tiếp giữa các âm thanh gần như vô hình. Cô được phát hành vào ngày 26 tháng 5 năm 2014.

VOCALINA[sửa | sửa mã nguồn]

VOCALINA (보카 리나) là một bộ tổng hợp giọng nói "văn bản thành giọng nói", đó là công nghệ tổng hợp giọng nói đầu tiên (Ca hát TTS Technology) được phát triển tập trung vào tiếng Hàn và tập trung vào ca hát. Nó được thiết kế để dễ sử dụng và tạo ra kết quả hát chất lượng cao. Nó được sử dụng và ca hát bằng tiếng Hàn, và có chức năng tương tự như của động cơ tổng hợp Vocaloid. Sử dụng trình soạn thảo người dùng có thể thay đổi độ cao giọng hát (Pitch), động lực (Dynamics), Vibe khẩu phần (Rung), Reverb (REV) và Echo (ECO) để có kết quả tốt hơn. Vì nó là một Studio, người ta có thể kết hợp các giọng hát ngay lập tức, nhập khẩu BGM là có thể.

Nó được cập nhật lần cuối vào tháng 9 năm 2013 lên phiên bản 2.2.0. Nó bổ sung thêm các chức năng mới như tăng cường khả năng cân bằng và khả năng sử dụng plug-in VST, bộ trộn track cũng được cải thiện. Chất lượng chung đã được cải thiện và âm thanh grating đã được gỡ bỏ, âm thanh tổng thể tổng thể đã được cải thiện rất nhiều trong khi chỉnh sửa và hiệu suất được tăng cường. Một công cụ tìm lời mới và đoạn cắt ngắn đã được thêm vào và hỗ trợ cho các tệp vorbis ogg đã được giới thiệu.

Vào ngày 1 tháng 1 năm 2016, nó cập nhật thành 2.3 chức năng mới.

Dịch vụ của Vocalina được cho là sẽ chấm dứt vào ngày 1/10/2017. Thỏa thuận này hiện đã được gia hạn thêm 1 năm nữa và dịch vụ sẽ kết thúc vào ngày 1 tháng 10 năm 2018 thay vào đó, với Vocalina là dịch vụ miễn phí cho đến lúc đó.

SynthV[sửa | sửa mã nguồn]

SynthV là phần mềm tổng hợp giọng hát được tạo bởi Dreamtonic. Nó hỗ trợ một số ngôn ngữ khác nhau, như tiếng Anh, tiếng Nhật và tiếng Trung. SynthV tiếng Anh có Eleanor Forte là một giọng nữ tiếng Anh. Cô là một trong những giọng nói đầu tiên được giới thiệu cho phần mềm và là giọng nói đầu tiên được phát hành. Tên đầu tiên của cô, Eleanor, có nghĩa là "ánh sáng" và là một tên cao quý, họ của cô, Forte, có nghĩa là "sức mạnh", và tham chiếu đến năng động âm nhạc f (forte).

Các SynthV tiếng Trung bao gồm MAN-M1, MAN-F1, AiKO (艾可), Xích Vũ (赤羽), Shian (诗岸), Thương Khung (苍穹) và Hải Y (海伊). SynthV tiếng Nhật gồm JA-F1, Yamine Renri (闇音レンリ) và Genbu (ゲンブ).

Các phần mềm của bên thứ ba[sửa | sửa mã nguồn]

Các hệ thống phát triển bởi bên thứ ba có thể được tích hợp vào trong các hệ điều hành (trừ SAPI) là Lernout & Hauspie (LH) TTS 3000, 1st Read It Aloud!, Total Speech, PCVoz, TextAloud, Read Genius, Speech RealSpeak, IBM ViaVoice và Dolphin Orpheus [1] Lưu trữ 2006-10-16 tại Wayback Machine.

Balabolka: đáng chú ý ở khả năng mở trực tiếp nhiều định dạng tập tin doc, dox, txt, pdf, epub, odt nhanh chóng. Nó cũng có thể chuyển đổi các tập tin sang định dạng mp3, dễ dàng để nghe một tài liệu trên điện thoại hoặc máy nghe nhạc MP3. Thậm chí chuyển đổi hàng loạt tạo ra nhiều tập tin âm thanh của nhiều tài liệu.
TypeIt ReadIt: với giao diện đơn giản và khả năng xuất văn bản của bạn vào một tập tin txt hoặc wav, đây là một phần mềm miễn phí tuyệt vời đơn giản để đọc một cách nhanh chóng. Dán (paste) bất kỳ văn bản (chữ) nào vào cửa sổ của nó, hoặc mở một tập tin txt trực tiếp. Phần mềm sử dụng giọng nói đi kèm với Windows.
Natural Reader Free: Phiên bản miễn phí không thể xuất ra file mp3, nhưng có một giao diện đơn giản để dán và nghe đọc văn bản bằng cách nhấn vào nút play rõ ràng nhìn thấy được.
eSpeak: phần mềm chứa nhiều giọng đọc hoàn toàn khác với những giọng có sẵn trong Microsoft Windows. Chương trình này sử dụng động cơ, bộ máy (engine) của mình. Chương trình có thể mở các tập tin txt và xuất sang định dạng wav. Nó cũng có đôi môi đáng sợ di chuyển. Đó chủ yếu là một chương trình Linux, nhưng cũng được phát triển trên các phiên bản Windows với giao diện không kém phần độc đáo.