AI BIẾT TUỐT:
Voicebox là một mô hình AI tổng hợp dành cho lời nói có thể khái quát hóa các nhiệm vụ mà nó không được đào tạo cụ thể với hiệu suất hiện đại. Không giống như các bộ tổng hợp giọng nói hiện có, nó có thể được huấn luyện trên dữ liệu đa dạng, không có cấu trúc mà không yêu cầu đầu vào được dán nhãn cẩn thận.
Voicebox sử dụng một phương pháp tiếp cận mới gọi là Flow Matching, đây là cải tiến mới nhất của Meta về các mô hình tạo sinh không tự hồi quy có thể học ánh xạ không xác định cao giữa văn bản và giọng nói.
Voicebox có thể tạo ra các clip âm thanh chất lượng cao theo nhiều phong cách khác nhau và có thể tổng hợp giọng nói trên sáu ngôn ngữ, cũng như thực hiện loại bỏ tiếng ồn, chỉnh sửa nội dung, chuyển đổi kiểu và tạo mẫu đa dạng.
Một trong những ưu điểm chính của Voicebox là khả năng sửa đổi bất kỳ phần nào của mẫu nhất định, không chỉ phần cuối của đoạn âm thanh được đưa ra. Điều này làm cho nó rất linh hoạt và phù hợp với các tác vụ như tổng hợp văn bản thành giọng nói trong ngữ cảnh, chuyển phong cách đa ngôn ngữ, khử nhiễu và chỉnh sửa giọng nói cũng như lấy mẫu giọng nói đa dạng.
Ngoài ra, Hộp thoại còn hoạt động tốt hơn trạng thái hiện có- các mô hình giọng nói tiên tiến về tỷ lệ lỗi từ và số liệu về độ tương tự của âm thanh. Mặc dù Voicebox hiện không được cung cấp rộng rãi do có nguy cơ sử dụng sai mục đích, nhưng Meta đã chia sẻ các mẫu âm thanh và tài liệu nghiên cứu mô tả chi tiết cách tiếp cận cũng như kết quả của nó.
Độ đột phá này trong việc tạo ra AI cho giọng nói rất thú vị vì nó có tiềm năng ứng dụng trong việc giúp mọi người giao tiếp và tùy chỉnh giọng nói cho trợ lý ảo.
Đánh giá
Chưa có đánh giá nào.