Có thể tạo ra video vô tận không? Mô hình lớn VideoPoet của Google đã trực tuyến, cư dân mạng: công nghệ cách mạng

Google không xa lạ với việc tạo ra video. Trước tiên, họ đã phối hợp phát hành WALT cùng đội ngũ của Stanford Li Feifei, và những video thực tế được tạo ra bởi Transformer đã thu hút rất nhiều sự chú ý.

Mô hình tạo video mới của Google, VideoPoet, một lần nữa dẫn đầu thế giới! Hiệu ứng tạo video trong mười giây vượt trội hơn Gen-2, và nó cũng có thể thực hiện việc tạo âm thanh và biến đổi phong cách. Tạo video trí tuệ nhân tạo có thể trở thành lĩnh vực tiên phong tiếp theo vào năm 2024.

Nhìn lại những tháng gần đây, một làn sóng lớn các mô hình tạo video như Gen-2 của RunWay, Pika 1.0 của Pika Lab và các nhà sản xuất trong nước đã xuất hiện và liên tục được nâng cấp theo chu kỳ.

Không, RunWay đã thông báo sớm rằng Gen-2 hỗ trợ chức năng chuyển văn bản thành giọng nói, có thể tạo giọng đọc cho video.

Tất nhiên, Google không xa lạ với việc tạo video. Trước tiên, họ đã phối hợp phát hành WALT cùng đội ngũ của Stanford Li Feifei, và những video thực tế được tạo ra bởi Transformer đã thu hút rất nhiều sự chú ý.

Hôm nay, nhóm nghiên cứu của Google đã phát hành mô hình tạo video mới VideoPoet, có thể tạo ra video mà không cần dữ liệu cụ thể.

Địa chỉ bài báo: https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

Điều đáng kinh ngạc nhất là VideoPoet có thể tạo ra video hành động lớn liên tục kéo dài 10 giây một lần, hoàn toàn vượt trội so với việc tạo video của Gen-2 chỉ có những chuyển động nhỏ.

Ngoài ra, khác với các mô hình hàng đầu, VideoPoet không dựa trên mô hình khuếch tán, mà là một mô hình đa phương thức lớn, có thể có các khả năng T2V, V2A và có thể trở thành xu hướng chính trong việc tạo video trong tương lai.

Cư dân mạng đã “sốc” sau khi xem nó.

Tại sao không, hãy xem trải nghiệm trước.

Văn bản thành video

Trong quá trình chuyển đổi văn bản thành video, video kết quả có độ dài biến đổi và có thể thể hiện nhiều hành động và phong cách khác nhau tùy thuộc vào nội dung văn bản.

Ví dụ, gấu trúc chơi bài:

Hai con gấu trúc chơi bài

Nổ bí ngô:

Một quả bí ngô nổ, chạy chậm

Phi hành gia đua ngựa:

Một phi hành gia cưỡi ngựa đua

Hình ảnh thành video

VideoPoet cũng có thể chuyển đổi hình ảnh đầu vào thành hoạt hình dựa trên các gợi ý đã cho.

Trái: Một con tàu đi trên biển động, bao quanh bởi sấm sét và chớp nhoáng, được vẽ theo phong cách tranh dầu động. Giữa: Bay qua một thiên hà đầy những ngôi sao lấp lánh. Phải: Một người du khách với cây gậy đứng trên mép vách đá, nhìn chằm chằm. Sương mù biển cuồn cuộn trong gió

Tạo phong cách video

Đối với việc tạo phong cách video, VideoPoet dự đoán thông tin về dòng chảy quang học và độ sâu trước khi đưa thêm văn bản vào mô hình.

Trái: Một con wombat đeo kính mát và cầm một quả bóng biển trên bãi biển nắng. Giữa: Một con gấu bông trượt băng trên mặt băng trong. Phải: Một con sư tử kim loại rống dưới ánh sáng của một lò nung.

Từ trái qua phải: chân dung thực tế, nghệ thuật số, nghệ thuật bút chì, mực, kép xuyên, toàn cảnh 360 độ

Video thành âm thanh

VideoPoet cũng có thể tạo ra âm thanh.

Như sau, chúng ta trước tiên tạo ra một đoạn video hoạt hình trong 2 giây từ mô hình và sau đó thử dự đoán âm thanh mà không có bất kỳ hướng dẫn văn bản nào. Điều này cho phép tạo ra video và âm thanh từ một mô hình duy nhất.

Thông thường, VideoPoet tạo ra video ở chế độ dọc để phù hợp với đầu ra của video ngắn.

Google cũng đã tạo ra một bộ phim ngắn gồm nhiều phim ngắn được tạo ra bởi VideoPoet.

Đối với tỷ lệ văn bản cụ thể, các nhà nghiên cứu đã yêu cầu Bard viết trước một câu chuyện ngắn về một con gấu trúc du lịch, kèm theo phân cảnh và danh sách gợi ý. Video được tạo ra cho mỗi gợi ý và tất cả các đoạn video được tạo ra được ghép lại để tạo ra video cuối cùng.

Kể chuyện qua video

Tạo ra câu chuyện hình ảnh với các gợi ý thay đổi theo thời gian.

Đầu vào: Một người đàn ông đi bằng nước Mở rộng: Một người đàn ông đi bằng nước. Có sấm sét phía sau trong khi khói màu tím phát ra từ người đàn ông

Đầu vào: Hai con gấu trúc đi xe máy trên một con đường núi bao quanh bởi cây thông, 8k Mở rộng: Hai con gấu trúc đi xe máy. Mưa sao băng rơi từ phía sau gấu trúc, đập xuống đất và gây nổ

Máy tạo video tức thì LLM

Hiện tại, hiệu suất của Gen-2 và Pika 1.0 trong việc tạo video là đáng kinh ngạc, nhưng không may, chúng không thể thực hiện tốt trong việc tạo video có những chuyển động lớn liên tục và mạch lạc.

Thường xuyên, chúng tạo ra những hiện tượng nổi bật trong video khi tạo ra những chuyển động lớn.

Về vấn đề này, các nhà nghiên cứu của Google đã đề xuất VideoPoet, có thể thực hiện nhiều nhiệm vụ tạo video bao gồm chuyển văn bản thành video, chuyển hình ảnh thành video, tạo phong cách video, sửa chữa/mở rộng video và chuyển video thành âm thanh.

So sánh với các mô hình khác, phương pháp của Google tích hợp một cách mượt mà nhiều chức năng tạo video vào một mô hình ngôn ngữ lớn duy nhất, thay vì dựa vào các thành phần chuyên biệt được đào tạo riêng cho mỗi nhiệm vụ.

Cụ thể, VideoPoet chủ yếu bao gồm các thành phần sau đây:

  • Bộ mã hóa video MAGVIT V2 và bộ mã hóa âm thanh SoundStream được đào tạo trước có thể chuyển đổi hình ảnh, video và đoạn âm thanh có độ dài khác nhau thành các chuỗi mã rời rạc trong một từ vựng thống nhất. Những mã này tương thích với các mô hình ngôn ngữ văn bản và có thể dễ dàng kết hợp với các modal khác như văn bản.
  • Mô hình ngôn ngữ tự động hóa có thể thực hiện việc học chéo giữa video, hình ảnh, âm thanh và văn bản, và dự đoán mã video hoặc âm thanh tiếp theo trong một chuỗi theo cách tự động hóa.
  • Một loạt các mục tiêu học tập đa modal được giới thiệu trong khung mô hình ngôn ngữ lớn, bao gồm từ văn bản sang video, từ văn bản sang hình ảnh, từ hình ảnh sang video, tiếp tục khung video, sửa chữa/mở rộng video, tạo kiểu video và từ video sang âm thanh, v.v. Hơn nữa, những nhiệm vụ này có thể được kết hợp với nhau để đạt được khả năng tạo mẫu không cần dữ liệu (ví dụ: từ văn bản sang âm thanh).

VideoPoet có khả năng đa nhiệm trên nhiều đầu vào và đầu ra tập trung vào video. Trong đó, LLM có thể chọn lấy văn bản làm đầu vào để hướng dẫn việc tạo ra các nhiệm vụ từ văn bản sang video, từ hình ảnh sang video, từ video sang âm thanh, tạo kiểu và mở rộng hình ảnh.

Một lợi thế quan trọng của việc sử dụng LLM cho việc đào tạo là nhiều cải tiến về hiệu suất có thể tái sử dụng được giới thiệu trong cơ sở hạ tầng đào tạo LLM hiện có.

Tuy nhiên, LLM hoạt động trên các mã rời rạc, điều này có thể gây khó khăn cho việc tạo video.

May mắn thay, bộ mã hóa video và âm thanh có thể mã hóa các đoạn video và âm thanh thành các chuỗi mã rời rạc (tức là chỉ số số nguyên) và chuyển đổi chúng trở lại các biểu diễn ban đầu của chúng.

VideoPoet đào tạo một mô hình ngôn ngữ tự động hóa học qua các modal video, hình ảnh, âm thanh và văn bản bằng cách sử dụng nhiều bộ mã hóa (MAGVIT V2 cho video và hình ảnh, SoundStream cho âm thanh).

Sau khi mô hình đã tạo ra các mã dựa trên ngữ cảnh, bộ giải mã mã hóa có thể được sử dụng để chuyển đổi các mã này trở lại thành một biểu diễn có thể xem được.

Thiết kế nhiệm vụ VideoPoet: Các chế độ khác nhau được chuyển đổi thành mã thông qua bộ mã hóa và giải mã mã hóa. Có một mã ranh giới xung quanh mỗi modal, và mã nhiệm vụ đại diện cho loại nhiệm vụ cần thực hiện.

Ba lợi thế chính

Tóm lại, VideoPoet có ba lợi thế chính so với các mô hình tạo video như Gen-2.

Video dài hơn

VideoPoet có thể tạo ra các video dài hơn bằng cách điều chỉnh 1 giây cuối cùng của video và dự đoán 1 giây tiếp theo.

Bằng cách lặp đi lặp lại, VideoPoet không chỉ mở rộng video một cách tốt mà còn giữ nguyên diện mạo của tất cả các đối tượng, ngay cả qua nhiều lần lặp.

Dưới đây là hai ví dụ về VideoPoet tạo video dài từ đầu vào văn bản:

Bên trái: Phi hành gia nhảy múa trên sao Hỏa với pháo hoa đầy màu sắc ở phía sau. Bên phải: Cảnh quay từ trên cao của một thành phố đá nhỏ nhọn trong rừng rậm, có một con sông màu xanh, thác nước và những vách đá dựng đứng dốc đứng so với những gì chỉ có thể được tạo ra bằng mô hình video 3-4 giây, VideoPoet có thể tạo ra một video 10 giây mỗi lần.

Cảnh quan mùa thu của lâu đài được ghi lại bằng drone

Kiểm soát chính xác

Một khả năng quan trọng của các ứng dụng tạo video là người dùng có bao nhiêu kiểm soát về hiệu ứng động được tạo ra.

Điều này sẽ phần lớn xác định xem mô hình có thể được sử dụng để tạo ra các video dài phức tạp và nhất quán hay không.

VideoPoet không chỉ có thể thêm hiệu ứng động vào hình ảnh đầu vào thông qua mô tả văn bản, mà còn điều chỉnh nội dung thông qua gợi ý văn bản để đạt được hiệu ứng mong muốn.

Bên trái: Quay đầu nhìn vào camera; Bên phải: Ngáp

Ngoài việc hỗ trợ chỉnh sửa video từ hình ảnh đầu vào, video đầu vào cũng có thể được kiểm soát chính xác thông qua văn bản.

Đối với video nhỏ nhỏ nhảy múa ở bên trái, người dùng có thể mô tả các tư thế nhảy múa khác nhau qua văn bản để khiến nó nhảy múa theo cách khác nhau.

Tạo “bên trái”: nhảy múa robot để tạo “giữa”: nhảy múa Griddy để tạo “bên phải”: làm một Freestyle

Tương tự, các đoạn video hiện có được tạo ra bởi VideoPoet có thể được chỉnh sửa tương tác.

Nếu chúng ta cung cấp một video đầu vào, chúng ta có thể thay đổi chuyển động của đối tượng để thực hiện các hành động khác nhau. Các hoạt động trên các đối tượng có thể tập trung vào khung hình đầu tiên hoặc khung hình giữa, cho phép kiểm soát chỉnh sửa một cách chính xác.

Ví dụ, bạn có thể ngẫu nhiên tạo ra một số đoạn video từ video đầu vào và sau đó chọn đoạn video kế tiếp mong muốn.

Như được hiển thị trong hình, video ở bên trái nhất được sử dụng như một kích thích có điều kiện, tạo ra bốn video dưới sự kích thích ban đầu:

“Gần cận một con robot steampunk cũ đáng yêu được phủ rêu và mầm cây, bao quanh bởi cỏ cao.”

Đối với 3 đầu ra đầu tiên, không tạo ra các hành động kích thích tự động từ gợi ý. Trong video cuối cùng, “Bắt đầu, nền là khói” được thêm vào gợi ý để hướng dẫn việc tạo ra hành động.

Kỹ thuật di chuyển gương

VideoPoet cũng có thể kiểm soát chính xác các thay đổi trong hình ảnh bằng cách gắn phương pháp di chuyển máy ảnh yêu cầu vào gợi ý văn bản.

Ví dụ, các nhà nghiên cứu đã sử dụng mô hình để tạo ra một hình ảnh với gợi ý “hình ảnh khái niệm trò chơi phiêu lưu, núi có tuyết, bình minh, con sông trong xanh.” Ví dụ dưới đây thêm phần đuôi văn bản đã cho vào hành động mong muốn.

Từ trái qua phải: thu nhỏ, trượt thu nhỏ, quét sang trái, ống kính chuyển động hình cung, quay phim cần cẩu, quay phim từ trên cao bằng drone

Kết quả đánh giá.

Cuối cùng, VideoPoet thể hiện như thế nào trong các đánh giá thí nghiệm cụ thể?

Để đảm bảo tính khách quan trong việc đánh giá, các nhà nghiên cứu của Google đã chạy tất cả các mô hình trên nhiều đề bài khác nhau và yêu cầu mọi người đánh giá sở thích của họ.

Biểu đồ dưới đây cho thấy tỷ lệ phần trăm câu hỏi sau đây mà VideoPoet được chọn là sở thích màu xanh lá cây.

Độ chính xác văn bản:

Đánh giá sở thích của người dùng về độ chính xác văn bản, tức là tỷ lệ phần trăm video được ưa thích về việc tuân thủ đúng đề bài.

Sự thú vị của hành động:

Đánh giá sở thích của người dùng về sự hấp dẫn của hành động, tức là tỷ lệ phần trăm video được ưa thích về việc tạo ra những hành động thú vị.

Tóm lại, trung bình có 24-35% người cho rằng các ví dụ được tạo ra bởi VideoPoet tuân thủ đề bài tốt hơn so với các mô hình khác, trong khi tỷ lệ tương tự cho các mô hình khác chỉ là 8-11%.

Ngoài ra, 41%-54% người đánh giá cho rằng các hành động ví dụ trong VideoPoet thú vị hơn, so với chỉ có 11%-21% cho các mô hình khác.

Về hướng nghiên cứu trong tương lai, các nhà nghiên cứu của Google cho biết rằng khung VideoPoet sẽ thực hiện việc tạo ra “bất kỳ-bất kỳ”, chẳng hạn như mở rộng văn bản thành âm thanh, âm thanh thành video, và phụ đề video, v.v.

Cư dân mạng không khỏi tự hỏi, liệu Runway và Pika có thể chịu đựng được công nghệ chuyển đổi văn bản thành video đầy đổi mới sắp tới từ Google và OpenAI không?

Tài liệu tham khảo:

  • https://sites.research.google/videopoet/
  • https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

 

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

You cannot copy content of this page