Speechz Text to speech 1.0

Giấy phép: Miễn phí ‎Kích cỡ tệp: N/A
‎Xếp hạng người dùng: 0.0/5 - ‎0 ‎Phiếu

Speechz Văn bản thành giọng nói

Tổng hợp giọng nói là sản xuất nhân tạo của bài phát biểu của con người. Một hệ thống máy tính được sử dụng cho mục đích này được gọi là một tổng hợp giọng nói, và có thể được thực hiện trong các sản phẩm phần mềm hoặc phần cứng. Một hệ thống chuyển văn bản thành giọng nói (TTS) chuyển đổi văn bản ngôn ngữ bình thường thành giọng nói; các hệ thống khác hiển thị các biểu diễn ngôn ngữ tượng trưng như phiên âm thành lời nói. [1] Tổng hợp bài phát biểu có thể được tạo ra bằng cách nối miếng của bài phát biểu ghi lại được lưu trữ trong một cơ sở dữ liệu. Hệ thống khác nhau về kích thước của các đơn vị bài phát biểu được lưu trữ; một hệ thống lưu trữ điện thoại hoặc diphones cung cấp phạm vi đầu ra lớn nhất, nhưng có thể thiếu rõ ràng. Đối với các miền sử dụng cụ thể, việc lưu trữ toàn bộ từ hoặc câu cho phép đầu ra chất lượng cao. Ngoài ra, một bộ tổng hợp có thể kết hợp một mô hình của đường thanh nhạc và các đặc điểm giọng nói khác của con người để tạo ra một đầu ra giọng nói hoàn toàn "tổng hợp". [2] Chất lượng của một bộ tổng hợp lời nói được đánh giá bởi sự tương đồng của nó với giọng nói của con người và bởi khả năng của nó để được hiểu. Một chương trình chuyển văn bản thành giọng nói dễ hiểu cho phép những người khiếm thị hoặc khuyết tật đọc nghe các tác phẩm viết trên máy tính tại nhà. Nhiều hệ điều hành máy tính đã bao gồm tổng hợp giọng nói từ đầu những năm 1990.

Tổng quan về một hệ thống TTS điển hình

Thông báo tự động THỰC ĐƠN0:00 Một giọng nói tổng hợp thông báo một chuyến tàu đến Thụy Điển. Vấn đề khi phát tệp này? Xem trợ giúp phương tiện.

Mẫu của Microsoft Sam THỰC ĐƠN0:00 Giọng nói tổng hợp giọng nói mặc định của Microsoft Windows XP nói rằng Con cáo nâu nhanh chóng nhảy qua lười biếng 1.234.567.890 lần. soi" Vấn đề khi phát tệp này? Xem trợ giúp phương tiện. Một hệ thống chuyển văn bản thành giọng nói (hoặc "engine") bao gồm hai phần:[3] front-end và back-end. Front-end có hai nhiệm vụ chính. Đầu tiên, nó chuyển đổi văn bản thô có chứa các biểu tượng như số và chữ viết tắt thành tương đương với các từ được viết ra. Quá trình này thường được gọi là chuẩn hóa văn bản, tiền xử lý hoặc tokenization. Front-end sau đó gán các phiên âm cho mỗi từ, và chia và đánh dấu văn bản thành các đơn vị prosodic, như cụm từ, mệnh đề và câu. Quá trình gán phiên âm cho các từ được gọi là chuyển đổi văn bản sang âm vị hoặc grapheme-to-phoneme. Phiên âm và thông tin prosody với nhau tạo nên các đại diện ngôn ngữ tượng trưng đó là đầu ra của front-end. Back-end—thường được gọi là bộ tổng hợp—sau đó chuyển đổi biểu diễn ngôn ngữ tượng trưng thành âm thanh. Trong một số hệ thống nhất định, phần này bao gồm tính toán của prosody mục tiêu (đường viền sân, thời lượng âm vị),[4] sau đó được áp dụng cho bài phát biểu đầu ra.

lịch sử phiên bản

  • Phiên bản 1.0 đăng trên 2013-10-06

Chi tiết chương trình