8 sản phẩm tạo video bằng AI được thử nghiệm, sản phẩm nào sẽ trở thành Sora của Trung Quốc?

8 sản phẩm tạo video bằng AI được thử nghiệm, sản phẩm nào sẽ trở thành Sora của Trung Quốc?

Khi sự ra mắt của Sora đưa mô hình tạo video lên hàng đầu, ai có thể trở thành “phiên bản Trung Quốc của Sora”? Tác giả sẽ thảo luận vấn đề này theo ba góc độ: thiết kế sản phẩm, kết quả đo lường thực tế và phân tích ngành. Khuyến nghị cho những ai quan tâm đến các sản phẩm tạo video AI.

Vào đầu năm 2024, không có gì trong giới công nghệ thú vị hơn sự xuất hiện của Sora.

Giống như sự bùng nổ của phong trào khởi nghiệp LLM do ChatGPT mang lại vào đầu năm 2023, việc phát hành Sora cũng đã đưa mô hình tạo video lên vị trí hàng đầu.

Các gã khổng lồ công nghệ đang đẩy mạnh sản phẩm của mình và các công ty khởi nghiệp cũng đang bắt kịp xu hướng.

Ngày 13 tháng 3, công ty sản xuất mô hình video AI Aishi Technology đã hoàn thành vòng gọi vốn A1 trị giá 100 triệu nhân dân tệ; Vào ngày 12 tháng 3, Shengshu Technology đã hoàn thành vòng tài trợ A trị giá 100 triệu nhân dân tệ; Vào ngày 1 tháng 3, nhà cung cấp dịch vụ SaaS tạo video AI "Boolean Vector" đã hoàn thành khoản tài trợ gần 10 triệu nhân dân tệ...

Sora triển khai kiến ​​trúc DiT lần đầu tiên, tích hợp mô hình khuếch tán và mô hình lớn vốn độc lập trước đây, đồng thời mở ra một chương mới trong lịch sử các mô hình tạo video.

Không còn nghi ngờ gì nữa, một cơn bão công nghệ mới đang đến gần. Chỉ sau một đêm, các người mẫu tạo video ở mọi quy mô tại Trung Quốc đã cạnh tranh để giành được danh hiệu "Sora phiên bản Trung Quốc".

Để tìm ra câu trả lời cho câu hỏi này, "Zi Quadrant" đã tiến hành trải nghiệm thực tế với các sản phẩm tạo video trong nước hiện có và kết hợp thông tin công khai, dữ liệu từ các cơ quan thử nghiệm của bên thứ ba và các khía cạnh khác để tiến hành đánh giá toàn diện các mô hình tạo video chính thống hiện nay.

Chúng tôi sẽ khám phá toàn diện xem ai có thể trở thành "Sora phiên bản Trung Quốc" từ ba góc độ: thiết kế sản phẩm, kết quả thử nghiệm thực tế và phân tích ngành?

1. Ai có thể sao chép được sự đổi mới của DIT?

Mặc dù xu hướng Sora mới chỉ lan sang Trung Quốc từ bên kia đại dương, nhưng việc tạo video không phải là chủ đề mới.

Trước đó, bản nhạc này đã trải qua nhiều đợt cải tiến bao gồm Runway's Gen-2, Pika1.0 và Google VideoPoet, và cuối cùng đạt đến khoảnh khắc "Sora" với hiệu ứng thế hệ tốt hơn, thời lượng dài hơn, logic mạnh mẽ hơn và ổn định hơn.

“Bản thân góc phần tư” phân loại tình hình cơ bản của các công ty và sản phẩm video lớn trong nước.

▲Hình: Danh sách các công ty sản xuất video người mẫu lớn trong và ngoài nước, với lượt truy cập được tính đến tháng 2 năm 2024

Ở nước ngoài, "những công ty giàu có ở Thung lũng Silicon" như Google và Microsoft từ lâu đã tham gia vào nghiên cứu về công nghệ tạo video đa phương thức. Năm ngoái, Google đã phát hành mô hình lớn đa phương thức Gemini và mô hình video lớn VideoPoet, cho phép mọi người thấy được khả năng tạo video đa phương thức từ cấp độ hiệu ứng trực quan.

Ở Trung Quốc, chúng ta thấy nhiều khả năng hơn theo hướng công nghệ đa phương thức: có Baidu, một công ty lớn có nền tảng công nghệ sâu rộng, có Zhipu, một công ty kỳ lân mô hình lớn, và có những công ty khởi nghiệp như Shengshu Technology và Zhixiang Future hướng đến các mô hình lớn đa phương thức.

Tuyến mô hình khuếch tán là tuyến chính của video Wensheng và đóng vai trò quan trọng trong việc đảm bảo tạo ra hiệu ứng. Do đó, ngay cả Sora tuyệt vời cũng chỉ trải qua sự thay đổi trong kiến ​​trúc cơ bản chứ không phải là sự thay đổi hoàn toàn.

Đây là con đường đông đúc nhất cả trong và ngoài nước. Đầu tiên là Stability AI, một công ty đã xây dựng và mở mã nguồn mô hình khuếch tán, tiếp theo là Runway và Pika, những công ty đang tiến triển nhanh chóng, và sau đó là những gã khổng lồ như OpenAI, Meta và NVIDIA.

Quay trở lại Trung Quốc, ba công ty khổng lồ Tencent, Alibaba và ByteDance gần như độc quyền nghiên cứu trong lĩnh vực tạo video ở giai đoạn đầu và thỉnh thoảng tung ra bản demo để tạo bất ngờ cho mọi người. Nhưng khi nói đến các sản phẩm thực tế, các công ty khởi nghiệp rõ ràng đang đi trước một bước. Ví dụ, các công ty như Aishi Technology, Morph studio và Right Brain Technology đã bắt đầu mở chúng cho người dùng.

DiT, còn được gọi là "tuyến Sora", là viết tắt của Diffusion Transformer. Bản chất của nó là tích hợp phương pháp đào tạo và cơ chế của các mô hình lớn vào mô hình khuếch tán. Đánh giá từ các kết quả được trình bày trong báo cáo kỹ thuật Sora, nó có thể tạo ra hiệu ứng của một trình mô phỏng vật lý thế giới nếu nỗ lực hết sức.

Ngày nay, kiến ​​trúc cơ bản của Sora đã được nghiên cứu kỹ lưỡng và các thành phần và công nghệ đào tạo đang trên đà mở mã nguồn, nhưng điều này không có nghĩa là mọi người sẽ có Sora trong tương lai gần. Công nghệ, dữ liệu, sức mạnh tính toán và quy mô đào tạo đều là những rào cản.

Gần đây, người đứng đầu nhóm cốt lõi Sora đã tiết lộ trong một cuộc phỏng vấn: "Sora vẫn đang trong giai đoạn tiếp thu phản hồi, chưa phải là sản phẩm và sẽ không ra mắt công chúng trong thời gian ngắn".

Xét về góc độ công nghệ, AiShi Technology của Trung Quốc là một trong số ít công ty tuân thủ lộ trình DiT ngay từ đầu. Người sáng lập Wang Changhu cho biết trong một cuộc phỏng vấn công khai rằng sự xuất hiện của Sora đã chứng minh được định hướng đúng đắn của AiShi trong việc tạo ra các mô hình lớn cho video. Vì vậy, AiShi Technology đặt mục tiêu “vượt qua Sora trong 3-6 tháng” và nắm bắt cơ hội để bắt kịp.

2. Kiểm tra sản phẩm và “điểm chạy” của người dùng

Trong lĩnh vực mô hình tạo video, các công ty khởi nghiệp trong nước có thể được chia thành hai loại.

Một danh mục là các mô hình cơ bản lớn do chính mình phát triển, đại diện là PixVerse, PixWeaver, Morph Studio và Pixeling, tập trung vào các công cụ tạo video cho các tình huống chung.

Các danh mục khác bao gồm Vega AI, Li Bai AI Lab (promeai), 6PenArt, boolv.video và MewXAI. Thể loại này có số lượng nhiều hơn và hướng đến sản phẩm nhiều hơn, tập trung vào việc giải quyết các vấn đề trong một tình huống nhất định và giống như một nền tảng biên tập trực tuyến của AIGC.

Quá trình thử nghiệm và đánh giá của chúng tôi bao gồm ba phần: ngưỡng sử dụng, chức năng cơ bản của sản phẩm và khả năng tạo nội dung.

Đầu tiên là ngưỡng sử dụng. Tám sản phẩm chúng tôi thử nghiệm đều hỗ trợ sử dụng trang web (nhiều sản phẩm khởi nghiệp chỉ có thể sử dụng thông qua Discord) và đều miễn phí dùng thử.

Tuy nhiên, chỉ có PixVerse của AiShi Technology là không giới hạn số lượng bản dùng thử miễn phí. Các sản phẩm khác có giới hạn dùng thử từ ba đến năm lần. Sau khi vượt quá số lần dùng thử, bạn cần mở thành viên hoặc nạp năng lượng, giá dao động từ vài nhân dân tệ đến vài trăm nhân dân tệ.

Ngoại trừ PixVerse, các sản phẩm khác về cơ bản đều có những hạn chế về chức năng trước khi thanh toán. Ví dụ, Yiying AI và Pixeling chỉ có thể tạo video dài 2 giây và 4 giây, video dài hơn sẽ phải trả phí.

Do đó, xét về ngưỡng sử dụng một cách toàn diện, PixVerse thân thiện với người dùng hơn và có lợi thế tương đối trong lĩnh vực này. Các sản phẩm khác có ngưỡng sử dụng tương đối trung bình.

Tình hình cụ thể như sau:

Thứ hai là chức năng cơ bản của sản phẩm.

Ngoại trừ Promeal và 6PenArt, tất cả tám sản phẩm chúng tôi thử nghiệm đều có khả năng tạo video từ cả văn bản và hình ảnh. Tuy nhiên, Promeal và 6PenArt chỉ có khả năng tạo video từ hình ảnh chứ không phải từ văn bản.

Ngoài hai hãng này, các nhà sản xuất khác cũng khá phát triển nhưng sự khác biệt về chức năng sản phẩm lại khá lớn.

Trong số đó, PixVerse của AiShi Technology đã bổ sung thêm các chức năng phụ trợ phong phú vào các chức năng cơ bản. Ví dụ, ngoài các từ gợi ý tích cực, người dùng cũng có thể nhập các từ gợi ý tiêu cực để yêu cầu một số thành phần nhất định không được xuất hiện trong hình ảnh được tạo ra.

Khi tạo video từ hình ảnh, người dùng cũng có thể viết lời nhắc để kiểm soát hiệu ứng đầu ra. Bạn có thể chọn kiểu video, điều chỉnh tỷ lệ khung hình, v.v.

Trong số các sản phẩm tương tự, chỉ Pixeling có lời nhắc tiêu cực, lời nhắc video tạo bằng hình ảnh và điều chỉnh tỷ lệ video, và chỉ Yiying AI mới có thể điều chỉnh kiểu video và tỷ lệ hình ảnh.

Trình độ kỹ thuật của mô hình lớn quyết định chất lượng tạo video, trong khi khả năng của sản phẩm quyết định liệu mô hình lớn có thể được sử dụng tốt và kết hợp với tình huống ứng dụng hay không.

Đối với các sản phẩm tạo video, tính phong phú của chức năng quyết định mức độ dễ dàng để người dùng bắt đầu, khả năng kiểm soát việc tạo video và cuối cùng ảnh hưởng đến kết quả đầu ra và trải nghiệm của người dùng.

Vì vậy, xét về độ hoàn thiện của sản phẩm và tính hoàn chỉnh về mặt chức năng, PixVerse dẫn đầu chung cuộc, Pixeling của Zhixiang Future đứng thứ hai, Yiying AI đứng thứ ba và Vega AI đứng thứ tư. Trong số đó, vectơ Boolean là một ngoại lệ. Là một công cụ tạo video tập trung vào thương mại điện tử xuyên biên giới, công cụ này hoàn thiện hơn và dễ sử dụng hơn trong các tình huống cụ thể, nhưng lại không có tính cạnh tranh cao trong lĩnh vực tạo video.

Tất nhiên, ngoài các chức năng cơ bản, cốt lõi vẫn là hiệu ứng tạo video. Vì vậy, phần thứ ba là bài kiểm tra khả năng tạo nội dung video.

Đầu tiên là thời lượng tạo video. Hiện tại, Sora có thể tạo video dài 60 giây, nhưng các mô hình tạo video lớn của các công ty khởi nghiệp trong nước chủ yếu tập trung vào độ dài khoảng 2 đến 4 giây, do đó khoảng cách không quá lớn.

Thứ hai là khả năng diễn đạt dựa trên nội dung của từ gợi ý.

Khi Sora được phát hành, một video như thế này đã được xuất bản, với lời nhắc là: Đẹp quá, những con phố phủ đầy tuyết của Tokyo thật nhộn nhịp. Nhiều người đang tận hưởng ngày tuyết rơi tuyệt đẹp và mua sắm tại các gian hàng gần đó. Những cánh hoa anh đào và bông tuyết tuyệt đẹp bay trong gió.

Đầu tiên là PixVerse từ AiShi Technology.

Nội dung của 4s về cơ bản khôi phục lại toàn bộ các từ khóa được nhắc đến trong các từ gợi ý, đồng thời phản ánh được không khí “ồn ào” và “sảnh chờ”. Máy quay di chuyển chậm về phía trước dọc theo màn hình và phong cách chung của video vẫn giữ nguyên. Các tòa nhà, ánh đèn, cây ven đường và người đi bộ tương đối thực tế và không có hiện tượng đóng băng rõ ràng trong hình ảnh. Ngoại trừ dáng đi hơi không tự nhiên của các nhân vật, không có sự biến dạng nào của các yếu tố.

Thứ hai là VegaAI từ RightBrain Technology.

Nội dung 4s giống nhau, cũng chỉ có một cảnh quay, tiến triển chậm rãi trên một con phố đông đúc. Nhưng không giống như PixVerse thiết lập bối cảnh vào buổi tối khi đèn vừa bật sáng, VegaAI lại chọn ban ngày.

So với PixVerse của Aishi Technology, sự nhầm lẫn trong dấu chân của các nhân vật trong VegaAI nghiêm trọng hơn nhiều. Một số nhân vật thay đổi từ hai feet thành ba feet khi đi bộ, rồi biến mất. Ngoài ra, thế hệ của một số nhân vật cũng rất mơ hồ, chỉ có một nhân vật duy nhất và liên tục thay đổi.

Sau đó là Yiying AI.

Không giống như PixVerse và VegaAI có một số chuyển động ống kính nhất định, ống kính video do Yiying AI tạo ra là cố định và đây là video duy nhất trong số các video này chọn góc nhìn trực diện.

Tuy nhiên, việc lựa chọn góc nhìn chính diện cũng mang đến một vấn đề cho Yiying AI, đó là không thể xử lý tốt biểu cảm khuôn mặt của các nhân vật. Khuôn mặt của hai người đi về phía nhau trong video vẫn chưa ổn định. Ngoài ra, Yiying AI còn có vấn đề về chuyển động của nhân vật, nhưng do video tạo ra chỉ có 2 giây nên không rõ ràng.

Thứ tư là Pixeling từ Zhixiang Technology.

Video 4s sử dụng ống kính cố định và các nhân vật di chuyển về phía trước. Những cảnh tương tự không chỉ có cùng vấn đề về tạo hình nhân vật và chuyển động, mà khả năng hiểu ngữ nghĩa của Pixeling rõ ràng còn nông cạn hơn.

Ví dụ, từ "ồn ào" trong lời nhắc được thể hiện trong các video trước thông qua ánh đèn, cửa hàng trên phố và đám đông người, nhưng Pixeling lại chọn một con hẻm vào ngày mưa có ít người hơn. Toàn bộ bức tranh có vẻ khá vắng vẻ. Ngoài ra, từ "mua sắm" trong từ gợi ý không được phản ánh trong video.

Cuối cùng là Morph Studio.

Trang web chính thức của ứng dụng vẫn chưa mở để thử nghiệm công khai và "Self-Quadrant" đang được thử nghiệm thông qua Discord.

Có hai điều thú vị về Morph Studio. Một là hiệu ứng tạo ra từ gợi ý tiếng Anh tốt hơn nhiều so với từ gợi ý tiếng Trung. "Zi Quadrant" đầu tiên tạo ra một video sử dụng lời nhắc tiếng Trung và kết quả thu được hoàn toàn không liên quan đến lời nhắc. Sau đó "Zi Quadrant" đã thay đổi lời nhắc sang tiếng Anh và hiệu quả đầu ra được cải thiện đáng kể.

▲Hình ảnh: Ảnh chụp màn hình Discord

Xét về nội dung video, thời gian tạo video của Morph Studio chỉ là 3 giây, ngắn hơn các sản phẩm khác và độ rõ nét cũng thấp hơn, nhưng nội dung hình ảnh tổng thể lại chân thực hơn. Về chi tiết, các video do Morph Studio tạo ra vẫn còn tồn tại một số vấn đề như chi tiết bị mờ, méo, nhân vật "trôi", hiện rồi biến mất.

Ngoài Wensheng Video, còn có hai đơn vị chỉ hỗ trợ "Picture Video" là Shencai Promeal và 6PenArt. Nhưng cả hai đều không thể hiện tốt trong video thô.

Trong số đó, Shencai Promeal chỉ hỗ trợ tạo "hình ảnh động" từ một hình ảnh duy nhất và không có chức năng nhắc từ. Do đó, các ký tự trong video được tạo ra bị méo mó và không có giá trị sử dụng thực tế.

Ngược lại, 6PenArt giống một cộng đồng nội dung AIGC hơn, trong đó tạo hình ảnh và tạo video chỉ là một trong những khả năng của nó. Tuy nhiên, 6PenArt không hỗ trợ việc tạo video trực tiếp thông qua lời nhắc. Thay vào đó, trước tiên bạn cần tạo hình ảnh thông qua các từ gợi ý trên nền tảng và sau đó chuyển đổi hình ảnh thành video.

"Self-quadrant" tạo ra bốn bức tranh thông qua câu gợi ý "Một chú chó corgi đang đi dạo với một bông hoa trong miệng" .

▲Hình ảnh: Ảnh chụp màn hình 6PenArt

Sau đó, dựa trên bốn bức ảnh này, một video đã được tạo ra với lời nhắc "Một chú chó con chạy vào mùa xuân".

Như bạn có thể thấy, video này vẫn ở trạng thái "hình ảnh động", không phải là video.

Ngoài ra, các vectơ Boolean không được đưa vào so sánh này.

Bởi vì xét về trải nghiệm sản phẩm, Boolv.video của Boolean Vector giống với khái niệm về trình chỉnh sửa AI hơn. Khi chúng ta nhập một từ gợi ý, hệ thống sẽ tự động chia từ gợi ý đó thành nhiều kịch bản và bảng phân cảnh, sau đó viết bản sao và xuất ra nhiều video riêng biệt. Sau khi tạo video, người dùng có thể chỉnh sửa từng phân cảnh, thay thế video, thay đổi lời tường thuật và âm thanh, v.v.

▲Hình ảnh: Ảnh chụp màn hình từ boolv.video

Tuy nhiên, khả năng tạo video của boolv.video thực sự rất hạn chế. Nó không thể hiểu được ngữ nghĩa sâu xa cũng như không thể tạo ra nội dung video tương ứng chính xác với các từ gợi ý.

Trong số các sản phẩm chúng tôi đã thử nghiệm ở trên, xét một cách nghiêm ngặt thì chỉ có PixVerse và Morph Studio là những mẫu lớn tập trung vào việc tạo video. Các sản phẩm khác được phát triển từ các ứng dụng AIGC ban đầu về chuyển văn bản thành hình ảnh và chuyển hình ảnh thành hình ảnh.

▲Hình ảnh: Kiểm tra xem sản phẩm có tập trung vào việc tạo video hay không

Nhìn lại, chúng tôi đã biên soạn các sản phẩm được đề cập ở trên dựa trên nhiều thử nghiệm.

Từ khả năng hiểu các từ gợi ý, khả năng diễn đạt logic của hình ảnh, khả năng diễn đạt chi tiết hình ảnh, đến chất lượng tạo video, tính nhất quán, ổn định và trôi chảy của hình ảnh, v.v.

Sau khi thử nghiệm 8 sản phẩm, sau khi so sánh toàn diện, PixVerse và Morph Studio của AiShi Technology có khả năng tổng thể tương đối tốt, VegaAI của Right Brain Technology đứng thứ hai, YiYing AI đứng thứ ba và Pixeling đứng thứ tư.

Cuối cùng, xét trên toàn bộ đánh giá, từ ngưỡng sử dụng đến chức năng sản phẩm và khả năng tạo nội dung, các sản phẩm khác nhau của các công ty khởi nghiệp Trung Quốc đều có những ưu điểm riêng. Nhưng nhìn chung, trong số các công ty khởi nghiệp của Trung Quốc, PixVerse của AiShi Technology có khả năng tổng thể cao hơn một chút và là sản phẩm giống Sora nhất của Trung Quốc. Tiếp theo là Morph Studio. Hai mô hình này tạo thành bậc đầu tiên trong các mô hình tạo video của Trung Quốc.

Tiếp theo là VegaAI, Yiying AI và Pixeling, nằm ở bậc thứ hai (Shengshu Technology không được đưa vào đánh giá vì sản phẩm của công ty đã bị đình chỉ) và cuối cùng là Promeai, 6PenArt và boolv.video nằm ở bậc thứ ba.

Sau đây là tóm tắt về Đánh giá bản thân theo góc phần tư:

3. Sử dụng các công cụ năng suất để tạo ra một bánh đà dữ liệu

Trên thực tế, khi so sánh tốc độ ra mắt sản phẩm của các công ty công nghệ lớn trong nước và các công ty khởi nghiệp cho đến nay, chúng ta sẽ thấy rằng các công ty lớn chậm hơn, trong khi sản phẩm và quy mô người dùng của các công ty khởi nghiệp đang tăng trưởng nhanh hơn.

Robin Li đã từng nói: Các công ty lớn tạo ra những đổi mới nhỏ, và các công ty nhỏ có thể tạo ra những thay đổi lớn.

Nếu muốn thực sự đột phá trong cuộc cạnh tranh khốc liệt, hiện nay, ngoài việc lựa chọn lộ trình kỹ thuật và khả năng của bản thân sản phẩm, các khía cạnh toàn diện như kịch bản sử dụng sản phẩm, trải nghiệm của người dùng, ứng dụng trong ngành, v.v. vẫn là chìa khóa để cạnh tranh giữa các mô hình tạo video.

Về mặt kịch bản sử dụng sản phẩm, như đã đề cập trước đó, một loại công ty tập trung vào việc phát triển các công cụ mới trong khi loại công ty khác đang nhúng công nghệ vào một số sản phẩm đã hoàn thiện. Đây là hai tuyến đường hoàn toàn khác nhau.

Đối với các sản phẩm dạng công cụ, biểu hiện cốt lõi của sức mạnh sản phẩm nằm ở việc liệu nó có thể trở thành một công cụ năng suất hay không.

Hãy cùng nhìn lại lịch sử phát triển của Midjourney và chúng ta sẽ thấy rằng Midjourney V5 chính là bước ngoặt quan trọng trong lịch sử của Wenshengtu. Xét về hiệu quả, độ chính xác, tốc độ và các yếu tố khác, V5 đã chính thức chuyển mình từ một "đồ chơi" thành một công cụ năng suất. Bước đột phá về khả năng sản phẩm này đã mang lại lượng người dùng lớn, bánh đà dữ liệu đã bắt đầu quay và hiệu ứng thay đổi theo từng ngày.

▲Hình: So sánh hiệu ứng thế hệ V1-V6 do cư dân mạng thực hiện, nguồn: X

So sánh với "khoảnh khắc V5", chúng ta thấy rằng mô hình tạo video cũng sắp đạt đến điểm kỳ dị.

Thông qua các đánh giá thực tế, chúng tôi thấy rằng các video do PixVerse tạo ra có giá trị hơn về tính nhất quán của chủ thể, độ mượt của chuyển động, biên độ chuyển động và độ rõ nét.

Dựa trên tiền đề của các công cụ năng suất, cũng có hai tuyến sản phẩm. Một là lộ trình công cụ chuyên nghiệp như Adobe áp dụng, giúp những người chuyên nghiệp trở nên chuyên nghiệp hơn. Phần mềm còn lại giống như Word, cho phép những người bình thường có thể làm việc hiệu quả.

Về vấn đề này, người sáng lập Pika là Guo Wenjing đã trả lời phỏng vấn rằng Pika không phải là một công cụ làm phim mà là một sản phẩm được thiết kế để tiêu dùng hàng ngày. Ý tưởng của PixVerse rõ ràng hơn. So với mô hình kinh doanh đăng ký theo từng tầng của Pika, PixVerse vẫn tiếp tục mở cửa miễn phí cho toàn thế giới trong khi lượng người dùng và hiệu ứng video của nó vẫn ở mức hàng đầu thế giới. Đây là điều mà các sản phẩm tạo video khác hiện nay không thể đạt được.

Chính vì thái độ thân thiện với người dùng và hiệu ứng tạo video hàng đầu mà bánh đà của PixVerse bắt đầu quay. Theo nền tảng giám sát dữ liệu của bên thứ ba, quy mô người dùng của PixVerse hiện đang ở cùng mức với Pika và lưu lượng truy cập của nó vượt xa các sản phẩm tạo video phổ biến khác tại Trung Quốc. (Nguồn dữ liệu: similarweb.com)

▲So sánh các trang sản phẩm PixVerse, Pika và Runway vào tháng 2 năm 2024

▲So sánh số liệu các sản phẩm văn hóa và video trong nước lớn trong tháng 2

▲Xu hướng dữ liệu của các sản phẩm văn hóa và video trong nước lớn

Qua nghiên cứu, chúng tôi thấy rằng Aishi Technology cũng tích cực tài trợ/tổ chức nhiều cuộc thi AI trong và ngoài nước, không chỉ thúc đẩy việc triển khai công nghệ nhanh chóng mà còn đẩy nhanh việc hiện thực hóa khả năng tiếp cận công nghệ. Trong quá trình này, ngày càng nhiều người dùng cảm nhận được những ưu điểm của sản phẩm PixVerse.

Ngoài ra, AiShi Technology còn có hệ sinh thái người dùng vượt trội. Một lượng lớn nội dung video được tạo bằng PixVerse xuất hiện trên X mỗi ngày, bao gồm nhiều ngôn ngữ như tiếng Anh, tiếng Trung, tiếng Nhật và tiếng Tây Ban Nha. Đây là một lợi thế mà các thương hiệu trong nước khác không có, đồng thời cũng phản ánh phần nào sự lựa chọn của thị trường.

"Ưu điểm đầu tiên của PixVerse là miễn phí, miễn phí và miễn phí; ưu điểm thứ hai là dễ vận hành và hiệu quả. Tôi chỉ cần đưa hình ảnh vào, không cần viết bất kỳ lời nhắc nào, và để PixVerse tự quyết định chuyển động của hình ảnh, và tôi thường có thể có được kết quả như ý. Tôi hy vọng PixVerse có thể đạt được chuyển động lớn hơn và video dài hơn và ổn định hơn." Phản hồi từ người chiến thắng Giải thưởng Phim hay nhất của cuộc thi Hackathon MIT AI Film năm 2024.

Zi Quadrant tin rằng miễn phí không có nghĩa là từ bỏ thương mại hóa, nhưng trong giai đoạn đầu hoàn thiện sản phẩm, chính thông qua phương pháp này, trải nghiệm người dùng thực tế và dữ liệu video chất lượng cao do người dùng tạo ra sẽ được thu thập, sau đó được đưa trở lại mô hình tạo video, giúp tăng tốc độ lặp lại và hình thành bánh đà đào tạo dữ liệu.

IV. Phần kết luận

Nhìn chung, công nghệ của toàn bộ mô hình tạo video tại Trung Quốc vẫn đang bắt chước nước ngoài, nhưng các công ty khởi nghiệp do Aishi Technology dẫn đầu đã tìm ra nhịp độ phát triển và mô hình riêng của mình và đang bắt kịp thông qua các năng lực toàn diện như thiết kế sản phẩm, quy mô người dùng và chiến lược vận hành.

Ngược lại, Sora vẫn chưa mở và không biết liệu nó có thể chịu được lượng người dùng trực tuyến lớn cùng lúc hay không. Liệu việc tạo ra video 1 phút có chính xác và nhất quán mọi lúc hay không vẫn cần phải được kiểm chứng.

Do đó, không cần thiết phải tìm phiên bản tiếng Trung của Sora. Các công ty sản xuất mô hình video quy mô lớn của Trung Quốc, đại diện là Ai Shi Technology, đã bắt đầu một quá trình phát triển mới và độc lập.

Tác giả: La Cơ, Tô Nghi

Nguồn: Tài khoản công khai WeChat: Zixiangxian (ID: zixiangxian)

<<:  Đằng sau bảng xếp hạng ứng dụng phim ngắn Trung Quốc ở nước ngoài: Các "ông trùm" có kiếm được tiền không?

>>:  Tin đồn lan truyền khắp nơi, liệu người sáng tạo ra món tráng miệng của người nổi tiếng trên internet có thực sự sắp lỗi thời không?

Gợi ý

Thực trạng và giải pháp nghiên cứu người dùng tại các nhà máy vừa và nhỏ

Hầu hết các công ty đều thành lập nhóm nghiên cứu...

Cách khắc phục thói quen xấu mất tập trung của trẻ em (bồi dưỡng sự chú ý)

Điều này khiến sự mất tập trung trở thành trở ngại...

Với cuộc sống thường ngày keo kiệt, cặp đôi ngựa ô kiếm tiền trên Internet

Tại sao các cặp đôi ngựa ô có thể kiếm tiền trên ...

Cập nhật quan trọng! Nước máy cũng có thể được đun nóng!

Truyền miệng là gì? Nó có thể áp dụng trong những...