Nửa năm đã trôi qua, video AI đã đi đâu mất rồi?

Nửa năm đã trôi qua, video AI đã đi đâu mất rồi?

Đường đua video AI đã đạt tới giai đoạn nào? Liệu video do AI tạo ra có thể cách mạng hóa Hollywood không? Liệu nó có thể đi vào con đường thương mại và trở thành một sản phẩm đáng tin cậy không? Hãy cùng thảo luận về bài viết này bên dưới và giới thiệu nó tới bạn bè trên Internet.

Kể từ khi Sora ra mắt vào đầu năm nay, nhiều người trong và ngoài nước đã cố gắng sử dụng AI để lật đổ Hollywood. Dạo gần đây, cộng đồng video AI rất sôi động khi các sản phẩm lần lượt được ra mắt, tất cả đều muốn vượt mặt Sora.

Hai công ty khởi nghiệp video AI nước ngoài đã dẫn đầu. Luma, một công ty công nghệ trí tuệ nhân tạo tại San Francisco, đã ra mắt mô hình tạo video Dream Machine và phát hành video quảng cáo cấp độ phim ảnh. Sản phẩm cũng có sẵn cho người dùng dùng thử miễn phí. Một công ty khởi nghiệp khác có uy tín nhất định trong lĩnh vực video AI là Runway cũng tuyên bố sẽ mở mô hình Gen-3 Alpha cho một số người dùng thử nghiệm, khẳng định nó có thể tạo ra các chi tiết như ánh sáng và bóng tối.

Không chịu kém cạnh, thị trường trong nước cũng chứng kiến ​​sự ra mắt của ứng dụng web KeLing của Kuaishou, cho phép người dùng tạo nội dung video dài tới 10 giây và cũng có chức năng điều khiển khung hình đầu tiên và cuối cùng cũng như chức năng điều khiển ống kính máy ảnh. Bộ phim ngắn giả tưởng AI gốc "The Magic Mirror of Mountains and Seas: Cutting Through the Waves" cũng được phát sóng trên Kuaishou và tất cả hình ảnh đều được tạo ra bởi AI. Phim ngắn khoa học viễn tưởng AI "Sanxingdui: Ngày tận thế của tương lai" cũng đã được phát sóng gần đây. Video này được sản xuất cho sản phẩm video AI Jimeng của ByteDance.

Video AI cập nhật nhanh đến mức nhiều cư dân mạng thốt lên: "Hollywood có thể lại đình công".

Ngày nay, trong lĩnh vực video AI có sự góp mặt của các ông lớn công nghệ, Internet trong và ngoài nước như Google, Microsoft, Meta, Alibaba, ByteDance, Meitu, cũng như các công ty mới nổi như Runway, Aishi Technology. Theo số liệu thống kê chưa đầy đủ từ "Dingjiao", chỉ riêng tại Trung Quốc, có khoảng 20 công ty đã tung ra sản phẩm/mô hình video AI do chính họ phát triển.

Dữ liệu từ Viện nghiên cứu TouBao cho thấy quy mô thị trường ngành sản xuất video AI của Trung Quốc là 8 triệu nhân dân tệ vào năm 2021 và ước tính quy mô thị trường này sẽ đạt 9,279 tỷ nhân dân tệ vào năm 2026. Nhiều người trong ngành tin rằng con đường sản xuất video sẽ mở ra khoảnh khắc Midjourney vào năm 2024.

Người Sora trên toàn thế giới đã đạt tới giai đoạn nào? Ai là người mạnh nhất? Liệu AI có thể chiếm lĩnh Hollywood không?

1. Besieging Sora: Có nhiều sản phẩm, nhưng ít sản phẩm hữu ích

Có rất nhiều sản phẩm/mô hình được ra mắt trong video theo dõi AI, nhưng chỉ có một số lượng hạn chế có thể được công chúng sử dụng . Một đại diện nổi bật từ nước ngoài là Sora, hiện vẫn đang trong giai đoạn thử nghiệm nội bộ sau nửa năm và chỉ mở cửa cho các nhóm an ninh cùng một số nghệ sĩ thị giác, nhà thiết kế và nhà làm phim. Tình hình ở Trung Quốc cũng tương tự. Sản phẩm video AI "Xunguang" của Học viện Alibaba DAMO và mô hình video AI UniVG của Baidu đều đang trong giai đoạn thử nghiệm nội bộ. Đối với Kuaishou Keling hiện đang rất phổ biến, người dùng muốn sử dụng cũng phải xếp hàng để đăng ký, điều này đã loại bỏ hơn một nửa số sản phẩm.

Trong số các sản phẩm video AI còn lại có thể sử dụng, một số có ngưỡng sử dụng nhất định và người dùng cần phải trả phí hoặc hiểu một số công nghệ nhất định. Ví dụ, nếu người dùng không có bất kỳ kiến ​​thức nào về mã hóa, họ sẽ không biết phải bắt đầu từ đâu với Open-Sora của Luchen Technology.

"Định Kiều" đã phân loại các sản phẩm video AI được phát hành trong và ngoài nước, nhận thấy phương thức hoạt động và chức năng của từng công ty đều tương tự nhau. Người dùng trước tiên tạo hướng dẫn bằng văn bản, sau đó chọn các chức năng như kích thước khung hình, độ rõ nét của hình ảnh, kiểu tạo và giây tạo, rồi cuối cùng nhấp vào một nút để tạo.

Mức độ khó khăn về mặt kỹ thuật đằng sau những chức năng này là khác nhau. Phần khó nhất chính là độ rõ nét và số giây của video được tạo ra , đây cũng là trọng tâm cạnh tranh giữa các công ty trong lĩnh vực video AI trong quá trình quảng bá. Nó liên quan chặt chẽ đến chất lượng của tài liệu được sử dụng trong quá trình đào tạo và lượng sức mạnh tính toán.

Nhà nghiên cứu AI Cyrus nói với Dingjiao rằng hiện nay hầu hết các video AI trong và ngoài nước đều hỗ trợ tạo video độ phân giải 480p/720p và một số ít hỗ trợ video độ phân giải cao 1080p.

Ông cho biết, càng có nhiều tài liệu chất lượng cao thì sức mạnh tính toán sẽ càng cao và mô hình được đào tạo có thể tạo ra video chất lượng cao hơn. Tuy nhiên, điều này không có nghĩa là có vật liệu chất lượng cao và sức mạnh tính toán có thể tạo ra vật liệu chất lượng cao. Tuy nhiên, nếu một mô hình được đào tạo bằng vật liệu có độ phân giải thấp bị buộc phải tạo video có độ phân giải cao, video đó sẽ bị hỏng hoặc lặp lại, chẳng hạn như có thêm tay và chân. Những vấn đề này có thể được giải quyết bằng cách phóng to, sửa chữa và vẽ lại, nhưng hiệu ứng và độ chi tiết chỉ ở mức trung bình.

Nhiều công ty cũng sử dụng những giây dài được tạo ra như một điểm bán hàng.

Hầu hết các video AI trong nước đều hỗ trợ 2-3 giây và những sản phẩm có thể đạt 5-10 giây được coi là tương đối mạnh. Ngoài ra còn có một số sản phẩm rất phổ biến, chẳng hạn như Jimeng, có thể lên tới 12 giây. Tuy nhiên, không có phần mềm nào có thể sánh được với Sora, phần mềm từng tuyên bố có thể tạo ra tối đa 60 giây video. Tuy nhiên, vì sản phẩm chưa được mở ra để sử dụng nên chưa thể xác minh được hiệu suất cụ thể của nó.

Độ dài của video thôi là chưa đủ, nội dung video tạo ra cũng phải hợp lý. Zhang Heng, nhà nghiên cứu chính của Shiliu AI, chia sẻ với "Dingjiao": Về mặt kỹ thuật, AI có thể được yêu cầu xuất dữ liệu liên tục. Có thể nói không ngoa rằng việc tạo ra một video dài một giờ cũng không phải là vấn đề. Tuy nhiên, phần lớn thời gian, thứ chúng ta muốn không phải là video giám sát, hay hoạt hình phong cảnh lặp đi lặp lại, mà là một bộ phim ngắn với hình ảnh đẹp và một câu chuyện.

Dingjiao đã thử nghiệm năm sản phẩm AI miễn phí phổ biến dành cho video Trung Quốc, cụ thể là Jimeng của ByteDance, Morph Studio của Morph AI, PixVerse của Aishi Technology, Yiying AI của MewXAI và Vega AI của Right Brain Technology, và đưa cho chúng cùng một hướng dẫn văn bản: "Một cô bé mặc váy đỏ đang cho một chú thỏ trắng ăn cà rốt trong công viên."

Tốc độ tạo ra một số sản phẩm tương tự nhau, chỉ mất 2-3 phút, nhưng độ rõ nét và thời gian tạo ra khác nhau rất nhiều, độ chính xác thậm chí còn hỗn loạn hơn.

Ưu điểm và nhược điểm của từng loại đều rõ ràng. Giấc mơ chiến thắng về thời gian, nhưng chất lượng thế hệ không cao. Cô bé, nhân vật chính, bị biến dạng trực tiếp ở giai đoạn sau. Vega AI cũng gặp vấn đề tương tự. Chất lượng hình ảnh của PixVerse tương đối kém.

Trong khi đó, nội dung do Morph tạo ra khá chính xác nhưng chỉ kéo dài trong khoảng 2 giây. Chất lượng hình ảnh của Yiying cũng tốt, nhưng khả năng hiểu văn bản chưa tốt, và yếu tố chính là con thỏ bị mất đi. Video được tạo ra không đủ chân thực và mang phong cách hoạt hình.

Tóm lại, chưa có sản phẩm nào có thể cung cấp video đáp ứng được các yêu cầu.

2. Thách thức của video AI: độ chính xác, tính nhất quán và sự phong phú

Trải nghiệm "tiêu điểm cố định" rất khác so với các video quảng cáo do nhiều công ty phát hành. Nếu video AI muốn thực sự được thương mại hóa thì vẫn còn một chặng đường dài phía trước.

Trương Hằng chia sẻ với "Dingjiao" rằng về mặt kỹ thuật, họ chủ yếu xem xét mức độ của các mô hình video AI khác nhau theo ba chiều: độ chính xác, độ nhất quán và độ phong phú.

Trương Hành đưa ra một ví dụ để minh họa cách hiểu ba chiều này.

Ví dụ, tạo video "hai cô gái đang xem trận bóng rổ trên sân chơi".

Độ chính xác được thể hiện ở, trước tiên là sự hiểu biết chính xác về cấu trúc nội dung, ví dụ, các đối tượng xuất hiện trong video phải là con gái và có hai con gái; Thứ hai, kiểm soát quá trình chính xác, ví dụ, sau khi thực hiện cú đánh, bóng rổ phải từ từ rơi khỏi lưới; và cuối cùng là mô hình dữ liệu tĩnh chính xác, ví dụ, khi có vật cản trước máy ảnh, quả bóng rổ không thể biến thành quả bóng bầu dục.

Tính nhất quán đề cập đến khả năng mô hình hóa của AI theo thời gian và không gian, bao gồm sự chú ý của chủ thể và sự chú ý dài hạn.

Sự chú ý chính có thể hiểu là khi xem một trận bóng rổ, hai cô bé phải luôn ở trong tầm mắt và không được chạy lung tung; Sự chú ý dài hạn có nghĩa là trong quá trình chuyển động, các thành phần khác nhau trong video không thể bị mất, cũng không thể bị biến dạng hoặc có các tình trạng bất thường khác.

Sự phong phú có nghĩa là AI cũng có logic riêng và có thể tạo ra một số chi tiết hợp lý ngay cả khi không có lời nhắc bằng văn bản.

Về cơ bản, các công cụ video AI có trên thị trường vẫn chưa thể đạt được đầy đủ các chiều hướng trên và nhiều công ty liên tục đề xuất các giải pháp.

Ví dụ, xét về tính nhất quán của ký tự, một yếu tố rất quan trọng trong video, Ji Meng và Ke Ling đã nghĩ đến việc sử dụng video dựa trên hình ảnh thay vì video dựa trên văn bản. Nghĩa là, trước tiên người dùng tạo ra hình ảnh có văn bản, sau đó tạo ra video có hình ảnh hoặc trực tiếp đưa ra một hoặc hai hình ảnh và AI sẽ kết nối chúng thành một video động.

"Nhưng đây không phải là một đột phá công nghệ mới và độ khó của video tạo bằng hình ảnh cũng thấp hơn so với video tạo bằng văn bản", Trương Hằng nói với "Dingjiao". Nguyên lý của video tạo văn bản là AI trước tiên sẽ phân tích cú pháp văn bản do người dùng nhập vào, chia nhỏ thành một nhóm mô tả cảnh quay, chuyển đổi mô tả thành văn bản rồi thành hình ảnh và thu được các khung hình chính ở giữa của video. Bằng cách kết nối những hình ảnh này, bạn có thể có được một video hành động liên tục. Video tạo ra từ hình ảnh tương đương với việc cung cấp cho AI một hình ảnh cụ thể mà nó có thể bắt chước. Video được tạo ra sẽ tiếp tục các đặc điểm khuôn mặt trong hình ảnh và đạt được sự nhất quán của nhân vật chính.

Ông cũng cho biết trong các tình huống thực tế, hiệu ứng của video tạo bằng hình ảnh phù hợp hơn với kỳ vọng của người dùng. Vì văn bản có khả năng hạn chế trong việc thể hiện chi tiết hình ảnh nên việc sử dụng hình ảnh làm tài liệu tham khảo sẽ giúp tạo video, nhưng vẫn chưa khả thi về mặt thương mại. Theo trực giác, 5 giây là giới hạn trên của video được tạo bằng hình ảnh. Nếu dài hơn 10 giây, nó có thể không có nhiều ý nghĩa, vì nội dung sẽ bị lặp lại hoặc cấu trúc sẽ bị bóp méo và chất lượng sẽ giảm.

Hiện nay, nhiều phim ngắn và chương trình truyền hình tự nhận được sản xuất hoàn toàn bằng AI chủ yếu sử dụng công nghệ chuyển hình ảnh thành video hoặc video thành video.

Jimeng cũng sử dụng chức năng khung hình cuối cùng của video dạng hình ảnh và cố tình thử "lấy nét cố định". Trong quá trình kết hợp, các ký tự xuất hiện bị biến dạng và méo mó.

Cyrus cũng cho biết video đòi hỏi tính liên tục và nhiều công cụ video AI hỗ trợ chuyển đổi hình ảnh sang video cũng suy ra các hành động tiếp theo thông qua hình ảnh trong một khung hình. Còn về việc suy luận có đúng hay không thì vẫn phụ thuộc vào may mắn.

Có thể hiểu rằng để đạt được sự nhất quán trong các nhân vật chính của Wensheng Video, mỗi công ty không chỉ dựa vào việc tạo dữ liệu. Zhang Heng cho biết hầu hết các mô hình đều dựa trên mô hình DIT cơ bản ban đầu, kết hợp với nhiều công nghệ khác nhau, chẳng hạn như ControlVideo (một phương pháp tạo văn bản-video có thể điều khiển do Viện Công nghệ Cáp Nhĩ Tân và Huawei Cloud đề xuất) để giúp AI ghi nhớ sâu hơn các đặc điểm trên khuôn mặt của nhân vật chính, để khuôn mặt không thay đổi quá nhiều trong quá trình chuyển động.

Tuy nhiên, nó vẫn đang trong giai đoạn thử nghiệm. Ngay cả với sự hỗ trợ của công nghệ, vấn đề về tính nhất quán của ký tự vẫn chưa được giải quyết hoàn toàn.

3. Tại sao video AI lại phát triển chậm như vậy?

Trong lĩnh vực AI, Hoa Kỳ và Trung Quốc hiện đang là hai quốc gia cạnh tranh nhất.

Từ báo cáo có liên quan của "Những học giả trí tuệ nhân tạo có ảnh hưởng nhất thế giới năm 2023" (gọi tắt là danh sách "Học giả AI 2000"), có thể thấy rằng trong số 1.071 "Tổ chức AI 2000" toàn cầu trong bốn năm từ 2020 đến 2023, Hoa Kỳ có 443, tiếp theo là Trung Quốc với 137. Từ phân bổ quốc gia của "Học giả AI 2000" năm 2023, Hoa Kỳ có số lượng người được chọn lớn nhất, với tổng số 1.079 người, chiếm 54,0% tổng số toàn cầu, tiếp theo là Trung Quốc, với tổng số 280 người được chọn.

Trong hai năm qua, ngoài việc đạt được những tiến bộ vượt bậc trong lĩnh vực hình ảnh trực quan và âm nhạc, AI cũng đã có một số bước đột phá trong những lĩnh vực khó đột phá nhất, đó là video AI.

Tại Hội nghị Trí tuệ nhân tạo thế giới gần đây, đối tác Le Yuan của Yitian Capital đã công khai tuyên bố rằng công nghệ tạo video đã có những tiến bộ vượt xa mong đợi trong hai đến ba năm qua. Liu Ziwei, phó giáo sư tại Đại học Công nghệ Nanyang ở Singapore, tin rằng công nghệ tạo video hiện đang ở kỷ nguyên GPT-3 và sẽ mất khoảng nửa năm để hoàn thiện.

Tuy nhiên, ông Lê Nguyên cũng nhấn mạnh, trình độ kỹ thuật vẫn chưa đủ để hỗ trợ thương mại hóa trên diện rộng . Phương pháp luận và những thách thức được sử dụng trong việc phát triển các ứng dụng dựa trên mô hình ngôn ngữ cũng có thể áp dụng cho các lĩnh vực ứng dụng liên quan đến video.

Sự xuất hiện của Sora vào đầu năm đã làm cả thế giới chấn động. Nó đã tạo ra những đột phá về mặt kỹ thuật trong việc khuếch tán và tạo ra dựa trên mô hình khuếch tán mới DiT của kiến ​​trúc máy biến áp, giúp cải thiện chất lượng và tính chân thực của việc tạo ra hình ảnh và tạo ra một bước đột phá lớn trong video AI. Cyrus cho biết hầu hết các video văn hóa trong và ngoài nước hiện nay đều sử dụng những công nghệ tương tự nhau.

Vào thời điểm này, về cơ bản mọi người đều nhất quán về công nghệ cơ bản. Mặc dù mỗi công ty cũng đang tìm kiếm những đột phá công nghệ dựa trên điều này, nhưng vẫn cần nhiều dữ liệu đào tạo hơn để làm phong phú thêm các chức năng của sản phẩm.

Khi sử dụng Jimeng của ByteDance và Morph Studio của Morph AI, người dùng có thể chọn phương pháp chuyển động camera của video. Nguyên lý đằng sau điều này là các tập dữ liệu khác nhau.

"Trước đây, các hình ảnh được nhiều công ty sử dụng trong đào tạo tương đối đơn giản. Họ chủ yếu dán nhãn các thành phần trong hình ảnh, nhưng không giải thích ống kính nào được sử dụng để chụp thành phần đó. Điều này cho phép nhiều công ty phát hiện ra khoảng cách này, vì vậy họ đã sử dụng các tập dữ liệu video được dựng 3D để hoàn thiện các tính năng của ống kính." Trương Hằng cho biết, hiện tại, những dữ liệu này đến từ các bản dựng của ngành công nghiệp phim ảnh, truyền hình và các công ty trò chơi.

"Fixed focus" cũng đã thử chức năng này, nhưng sự thay đổi về ống kính không rõ ràng lắm.

Lý do tại sao Sora và các thuật toán khác phát triển chậm hơn GPT và Midjourney là vì chúng thiết lập một dòng thời gian khác và việc đào tạo các mô hình video khó hơn so với văn bản và hình ảnh. "Tất cả dữ liệu đào tạo video có sẵn đã cạn kiệt và chúng tôi cũng đang nghĩ đến một số cách mới để tạo ra một loạt dữ liệu có thể sử dụng cho mục đích đào tạo", Zhang Heng cho biết.

Hơn nữa, mỗi mô hình video AI đều có phong cách riêng. Ví dụ, các video phát sóng ẩm thực do Kuaishou Keling thực hiện tốt hơn vì chúng được hỗ trợ bởi một lượng lớn dữ liệu như vậy.

Shen Renkui, người sáng lập Shiliu AI, tin rằng các công nghệ video AI bao gồm Văn bản thành video, Hình ảnh thành video, Video thành video và Avatar thành video. Con người kỹ thuật số với hình ảnh và giọng nói tùy chỉnh đã được sử dụng trong lĩnh vực tiếp thị và đã đạt đến mức độ thương mại, trong khi video Avatar vẫn cần giải quyết các vấn đề về độ chính xác và khả năng kiểm soát.

Vào thời điểm này, cho dù là phim ngắn khoa học viễn tưởng AI "Sanxingdui: Apocalypse of the Future" do Douyin và Bona đồng sản xuất hay phim ngắn viễn tưởng AI "The Mirror of Mountains and Seas: Cutting Through the Waves" do Kuaishou sáng tạo ra, thì chủ yếu là các công ty người mẫu lớn đang tích cực tìm kiếm các đoàn làm phim và truyền hình để hợp tác. Họ có nhu cầu quảng bá sản phẩm công nghệ của riêng mình và các tác phẩm của họ chưa được lan truyền rộng rãi.

Trong lĩnh vực video ngắn, AI vẫn còn chặng đường dài phía trước và còn quá sớm để nói rằng nó đã chiếm lĩnh Hollywood.

Tác giả: Vương Lục

Nguồn: Tài khoản công khai WeChat: "Dingjiaoone (ID: dingjiaoone)"

<<:  LOL, một bộ sưu tập các tiêu đề bài viết về tài chính từ khi tôi 65 tuổi

>>:  Bí quyết bán hàng bùng nổ của Pinduoduo nằm ở chi tiết

Gợi ý

Cách chơi và bảo quản Bodhi Vajra (phương pháp này không chỉ tiết kiệm thời gian)

Nhiều bạn bè muốn mua những món đồ yêu thích của m...

Doanh nghiệp nên chọn điểm dừng chân đầu tiên thế nào khi ra nước ngoài?

Doanh nghiệp nên lựa chọn chiến lược ra nước ngoà...

Tìm chức năng ghi màn hình Apple ở đâu (Cách ghi màn hình trên điện thoại Apple)

Rất thiết thực. Chức năng quay màn hình của điện t...