Base TTS là gì ?
Các nhà nghiên cứu của Amazon AI đã giới thiệu một mô hình chuyển văn bản thành giọng nói (TTS) có tên là BASE TTS, viết tắt của Big Adaptive Streamable TTS with Emergent Abilities (Hệ thống chuyển văn bản thành giọng nói).
Bài viết liên quan: Base TTS – Mô hình AI mới chuyển văn bản thành giọng nói của Amazon
BASE TTS là mô hình TTS (Text to Speech) lớn nhất hiện nay, được huấn luyện trên 100.000 giờ dữ liệu giọng nói phổ biến ở các nước, đạt được chất lượng giọng nói tự nhiên nhất.
Hệ thống sử dụng mô hình Transformer với 1 tỷ tham số để chuyển đổi văn bản thô thành các mã rời rạc (“speechcodes”) tiếp theo là bộ giải mã dựa trên phép toán tích, chuyển đổi các speechcodes này thành dạng sóng theo từng phần, có thể truyền trực tuyến.
Họ nhận thấy mô hình 400 triệu tham số có kích thước trung bình – được huấn luyện trên 10.000 giờ âm thanh – cho thấy sự cải thiện đáng kể về tính linh hoạt và mạnh mẽ trên các câu thử nghiệm khó.
Các câu thử nghiệm chứa các tính năng phức tạp về từ vựng, cú pháp và cận ngôn ngữ như danh từ ghép, cảm xúc, từ nước ngoài và dấu câu thường khiến các hệ thống chuyển văn bản thành giọng nói gặp khó khăn.
Mặc dù BASE TTS không xử lý chúng hoàn hảo, nhưng nó tạo ra ít lỗi hơn đáng kể về trọng âm, ngữ điệu và phát âm so với các mô hình hiện có.
Phiên bản mô hình lớn nhất với 980 triệu tham số – được huấn luyện trên 100.000 giờ âm thanh – không thể hiện thêm khả năng nào vượt ra ngoài phiên bản 400 triệu tham số.
Mặc dù là một quá trình thử nghiệm, việc tạo ra BASE TTS cho thấy các mô hình này có thể đạt đến ngưỡng linh hoạt mới khi chúng được mở rộng – một dấu hiệu đáng khích lệ cho AI hội thoại. Các nhà nghiên cứu lên kế hoạch nghiên cứu sâu hơn để xác định kích thước mô hình tối ưu cho các khả năng mới nổi.
Mô hình này cũng được thiết kế để nhẹ và có thể truyền trực tuyến, đóng gói riêng dữ liệu cảm xúc và ngữ điệu. Điều này có thể cho phép truyền âm thanh nói tự nhiên qua các kết nối băng thông thấp.
Nguồn: https://www.amazon.science/publications/base-tts-lessons-from-building-a-billion-parameter-text-to-speech-model-on-100k-hours-of-data