Meta ra mắt mô hình dịch thuật trí tuệ nhân tạo “giao tiếp liền mạch” để mang đến trải nghiệm trò chuyện qua ngôn ngữ tự nhiên hơn

Vào tháng 8 năm nay, Meta đã ra mắt mô hình dịch thuật trí tuệ nhân tạo đa phương thức SeamlessM4T, hỗ trợ văn bản trong gần 100 ngôn ngữ và giọng nói trong 36 ngôn ngữ. Mô hình hiện đã có một kiến trúc “v2” được cập nhật, mà Meta gọi là mô hình “Giao tiếp liền mạch”, làm cho việc dịch thuật trong cuộc trò chuyện trở nên tự nhiên và biểu cảm hơn.

Đặc điểm đầu tiên trong hai tính năng mới là “SeamlessExpressive”, như tên gọi của nó, chuyển đổi giọng nói của bạn thành giọng nói đã được dịch, bao gồm cường độ, âm lượng, màu sắc cảm xúc (phấn khích, buồn, hoặc thì thầm), tốc độ nói và khoảng dừng. Xét về việc giọng nói đã được dịch hiện tại thường nghe rất cơ khí, đột phá này vẫn rất đáng mong đợi và nó sẽ hỗ trợ rất nhiều cả trong cuộc sống hàng ngày và trong sản xuất nội dung. Hiện tại, các ngôn ngữ được hỗ trợ bao gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Đức, tiếng Pháp, tiếng Ý và tiếng Trung. Tuy nhiên, khi IT House viết bài này, trang demo thiếu tiếng Ý và tiếng Trung.

Tính năng thứ hai, “SeamlessStreaming”, bắt đầu dịch thuật trong khi người nói vẫn đang nói, cho phép người khác nghe được dịch thuật nhanh hơn. Vẫn còn một độ trễ ngắn dưới hai giây, nhưng ít nhất bạn không phải chờ đến khi người khác kết thúc một câu. Theo Meta, thách thức lớn nhất là các ngôn ngữ khác nhau có cấu trúc câu khác nhau, vì vậy họ đã phát triển một thuật toán chuyên dụng để nghiên cứu các phần của đầu vào âm thanh để quyết định liệu có đủ ngữ cảnh để bắt đầu tạo ra đầu ra dịch thuật, hay tiếp tục lắng nghe.

Tác giả nhận thấy rằng Meta chưa tiết lộ khi công chúng sẽ có thể sử dụng các tính năng mới này, nhưng chúng ta có thể mong đợi Meta tích hợp chúng vào kính thông minh của mình trong tương lai để làm cho chúng trở nên thực tế hơn.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

You cannot copy content of this page