Sora là cơ hội hay thách thức cho các nhà sản xuất trong nước?

Sora là cơ hội hay thách thức cho các nhà sản xuất trong nước?

Đầu năm nay, OpenAI đã tạo ra công nghệ AI mới - Sora trong lĩnh vực video văn hóa. Đây có phải là cơ hội hay thách thức cho các doanh nghiệp lớn trong nước? Chúng ta hãy cùng xem xét phân tích của tác giả.

Bỏ qua con đường kỹ thuật, chỉ xét riêng về hiệu quả triển khai, liệu các công ty mô hình lớn trong nước có "cơ hội cất cánh" tương tự về mặt sản xuất video hay không?

Vào tháng đầu tiên của năm Rồng, giống như ChatGPT năm ngoái, OpenAI đã tung ra một bom tấn khác vào đầu năm - Sora trong lĩnh vực video văn học.

Trước khả năng tạo ra AI như vậy, hầu như mọi loại học viên đều cảm thấy khá sốc. Một nhà sản xuất phim có nền tảng về CNTT chia sẻ với Lujiu Business Review rằng màn trình diễn tuyệt vời của Sora khiến những người thực hành xung quanh anh cảm thấy vô cùng khủng hoảng. Với sự sụt giảm mạnh mẽ của chi phí sản xuất phim, các nhà làm phim mới sẽ dễ dàng nổi lên hơn bao giờ hết.

Tuy nhiên, khi đối mặt với những câu hỏi mà Lujiu Business Review đặt ra, chẳng hạn như "Sora có đủ điều kiện để thương mại hóa không?" và "Vincent Video có yêu cầu cao hơn về sức mạnh tính toán không và giải quyết thế nào?", nhà sản xuất trả lời là "vấn đề phát triển, giải pháp phát triển".

Rõ ràng là điều này quá lạc quan. Rốt cuộc, nhiều học viên tin rằng ngay cả Sora cũng có nhiều khía cạnh chưa hoàn thiện từ khái niệm cho đến giai đoạn thương mại công nghiệp trưởng thành.

Vậy, bỏ qua lộ trình kỹ thuật, xét riêng về hiệu quả triển khai, liệu các hãng xe lớn trong nước có bố cục liên quan ở các mẫu xe nói chung như Vincent, Gree có "cơ hội cất cánh" như vậy không? Các video của Vincent đã có những bước tiến đáng kể nào so với các văn bản Vincent trước đây? Đây là một chủ đề rất thú vị.

1. Sora, một cuộc cách mạng hay một bong bóng?

Phải thừa nhận rằng sự xuất hiện của Sora đã đưa hiện thực hóa trí tuệ nhân tạo tổng quát (AGI) tiến gần hơn một bước. Lý do là nó mô phỏng chuyển động của thế giới vật lý thực tế, chẳng hạn như chuyển động và tương tác của các vật thể. Tuy nhiên, mức độ cải thiện này không thể được coi là "tuyệt vời". Theo báo cáo chính thức của OpenAI, bản chất "mang tính cách mạng" của Sora chủ yếu được phản ánh ở những điểm sau.

Trước hết là thời lượng. Là một mô hình video dựa trên văn bản chung, nó có thể tạo ra video dài 60 giây dựa trên mô tả văn bản do người dùng cung cấp. Nó không chỉ có chất lượng cao mà còn có thể khôi phục lại lời nhắc do người dùng nhập một cách hoàn chỉnh và chính xác hơn.

Thứ hai, có sự đột phá về độ phức tạp của bối cảnh và mức độ xây dựng nhân vật. Cho đến nay, Sora đã có thể tạo ra các cảnh với nhiều nhân vật, các loại chuyển động cụ thể, chủ đề chính xác và các chi tiết nền phức tạp. Ngôn ngữ của máy quay cũng trở nên phức tạp hơn, khiến cho bản thân video bắt đầu có chức năng tường thuật nhất định, đây chính xác là điều cần thiết trong lĩnh vực video ngắn hiện nay.

Ngoài việc tạo video từ văn bản, Sora còn có thể tạo hoạt ảnh cho hình ảnh từ hình ảnh tĩnh hoặc tạo video mới từ video hiện có để điền vào các khung hình bị thiếu hoặc mở rộng nội dung video.

Một chuyên gia truyền thông công nghệ cao cấp chia sẻ với Lujiu Business Review rằng sự xuất hiện của các sản phẩm AI như Sora là cơ hội để "suy nghĩ bình đẳng" vì một số nhà báo công nghệ đã theo dõi ngành này trong một thời gian dài thường có một số ý tưởng "mở mang trí tuệ" nhưng lại thiếu các công cụ phù hợp để thực hiện chúng. Nhưng với các công cụ AI như GPT và Sora, một khi các nhà báo nhìn thấy cơ hội và ý tưởng, AI có thể giúp họ hiện thực hóa sản phẩm và việc còn lại là xác minh tính khả thi của sản phẩm.

Tuy nhiên, sau khi trao đổi với nhiều người trong ngành, Lujiu Business Review nhận thấy rằng ngay cả Sora, hiện đang trong thời kỳ hoàng kim, cũng có khả năng bị định giá quá cao.

Ông Lý Minh Thuận, chủ tịch của Xingxing AI, có lý trí hơn về vấn đề này. Theo ông, sự xuất hiện của Sora phần lớn là mô hình phổ quát về tạo văn bản, được mở rộng thành công nghệ lặp lại theo từng giai đoạn trong lĩnh vực video. Sự thay đổi về chất lượng hiện tại của Sora phần lớn là nhờ vào khoản đầu tư không giới hạn vào sức mạnh tính toán và nguồn vốn, cùng với việc đào tạo liên tục và lặp đi lặp lại các bộ đào tạo khổng lồ. Đây là kết quả của “sức mạnh to lớn mang lại phép màu”.

So với sự vượt trội về mặt triển khai công nghệ, sự vượt trội của Sora về "nguồn lực sẵn có" rõ ràng đã giúp nó vượt xa một số nhà sản xuất trong nước "thiếu năng lực tính toán". Đây là khoảng cách mà các nhà sản xuất mô hình quy mô lớn trong nước khó có thể vượt qua trong một thời gian khá dài.

Theo quan điểm đầu tư, "các mô hình phổ quát" trong các lĩnh vực dọc như Sora không phải là mục tiêu phổ biến.

Một chuyên gia thị trường sơ cấp chia sẻ với Lujiu Business Review rằng đầu tư thuần túy vào thị trường sơ cấp thường chỉ đầu tư vào các khái niệm lớn và mục tiêu có giá trị cao. Lý do chính là vòng đời của quỹ trên thị trường sơ cấp là 7 năm, thời gian đầu tư là 2 năm và việc thoái vốn trong vòng 5 năm là sự kiện có xác suất xảy ra cao. Tuy nhiên, không ai có thể chắc chắn liệu mô hình dọc của Vincent Video có thể được công nghiệp hóa và thương mại hóa trong vòng năm năm hay không.

Ngoài ra, đối với Sora hiện tại, tất cả thông tin được biết đến là báo cáo kỹ thuật được công bố vào ngày 15 tháng 2, nhưng tin tức về tài chính chỉ được công bố 3 ngày sau đó. Không công khai với công chúng và mức định giá thực tế không được thế giới bên ngoài biết đến, định giá của OpenAI đã lên tới gần 80 tỷ đô la trong vòng gọi vốn do công ty đầu tư mạo hiểm Thrive Capital dẫn đầu. Người thực hành thị trường chính này thừa nhận với Lujiu Business Review rằng việc phát hành công nghệ này có thể là một phần trong "quản lý định giá" của OpenAI.

Zhou Yahui, chủ tịch của Kunlun Wanwei, đã nói trong WeChat Moments của mình rằng, “Các nhà khoa học và kỹ sư ở đây (Thung lũng Silicon) không nhận ra giá trị của các cổ phiếu khởi nghiệp khác ngoài OpenAI và nghĩ rằng tất cả chúng đều là tài sản trên giấy. Họ thà nhận lời đề nghị mua 1 triệu gói (một nửa cổ phiếu) từ OpenAI, Google, FB hoặc Microsoft còn hơn là lời đề nghị mua 3 triệu (80% cổ phiếu) từ một công ty khởi nghiệp.”

Có thể thấy rằng sau Sora, OpenAI đã ngày càng nới rộng khoảng cách với các công ty AI lớn khác.

2. Các mẫu xe lớn trong nước, nguy cơ và cơ hội cho các nhà sản xuất

Mặc dù Meta, Google và Microsoft đều đã sẵn sàng hành động, nhưng so với sự phát cuồng của thị trường vốn dành cho Sora, các nhà sản xuất mô hình quy mô lớn trong nước có vẻ bình tĩnh hơn nhiều. Hầu hết các công ty lớn trong nước vẫn chọn phát triển các mô hình lớn dựa trên ứng dụng của riêng họ, thay vì theo đuổi cái gọi là nâng cấp mô hình lớn AI gốc. ByteDance là một trong số đó. Thái độ bảo thủ của họ đối với AI tạo ra đã được phản ánh ngay từ giai đoạn Wenshengwen. Xét về thời điểm tham gia thì ByteDance không hề chậm trễ. Theo LatePost, sau khi OpenAI phát hành GPT-3 vào tháng 6 năm 2020, ByteDance đã đào tạo một mô hình ngôn ngữ tạo sinh lớn với hàng tỷ tham số.

Nếu quá trình phát triển diễn ra từng bước một, đến năm 2023, ByteDance sẽ không còn kém xa GPT của OpenAI. Tuy nhiên, trong một hệ thống kinh doanh mà ROI là ưu tiên hàng đầu, ByteDance rõ ràng đã không tính toán cẩn thận cho khoản đầu tư này. Do đó, việc khám phá AI tạo ra sản phẩm này luôn chậm hơn so với các đối thủ cạnh tranh.

Về thời gian phát hành, Baidu Wenxin Yiyan được phát hành vào tháng 3 năm 2023 và được nâng cấp lên phiên bản 4.0 vào tháng 10 cùng năm. Theo sát phía sau là Tongyi Qianwen của Alibaba và Tencent Hunyuan Assistant, và ByteDance đã phát hành mô hình Yunlark vào tháng 8 năm 2023.

Một trong những hậu quả của việc là người đến sau là số lượng người dùng không đủ - số lượng người dùng hoạt động hàng tháng của Wenxin Yiyan đã vượt quá 100 triệu vào năm ngoái, trong khi Doubao của ByteDance vẫn chỉ có chưa đến 10 triệu. Tuy nhiên, sau khi ByteDance bổ nhiệm Zhang Nan phụ trách Jianying, công ty này được kỳ vọng sẽ đạt được tiến triển nhanh hơn trong lĩnh vực AI tạo sinh.

Nếu ByteDance vẫn chưa thấy được bất kỳ sản phẩm nào có thể sử dụng ngay trong lĩnh vực video trực tiếp thì Baidu và Alibaba cũng không như vậy. Ngay từ Hội nghị thế giới Baidu năm ngoái, Baidu đã trình diễn khả năng video của Wenxin Yiyan, chủ yếu được tích hợp vào plug-in "Yijing Liuying".

Tất nhiên, đoạn video được tạo ra xuất hiện tại Hội nghị Thế giới chỉ là một ví dụ thành công về vô số lần rút bài của Yijingliuying. Sau khi thử nghiệm, Lujiu Business Review nhận thấy Yijing Liuying vẫn còn một số hạn chế.

Một là thư viện tài liệu. Hiện tại, Yijingliuying sử dụng thư viện tài liệu không có bản quyền, khiến việc sử dụng trong giai đoạn thương mại công nghiệp của một số thương hiệu cụ thể trở nên bất khả thi.

Thứ hai, do những lo ngại có thể xảy ra về quyền chân dung, hiện tại không thể tạo video có chân dung, nhưng có thể sử dụng để tạo video sản phẩm mà không cần nhãn hiệu.

Thứ ba là các video hiện nay đều có độ dài khoảng 30 giây. Nếu bạn muốn đạt được hiệu ứng tương tự như Sora, bạn cần phải ghép hai đoạn video clip. Rõ ràng là rất khó để giữ cho nội dung và phong cách được nhất quán.

Công nghệ liên quan phổ biến và được sử dụng phổ biến nhất hiện nay mà Tongyi Qianwen đang sử dụng là công nghệ video dựa trên hình ảnh do King of Dance đại diện. Chỉ cần một bức ảnh toàn thân, bạn có thể khiến nó thực hiện nhiều động tác nhảy phổ biến. Trên Bilibili, tổng số lượt xem video sáng tạo phụ có sự góp mặt của các nhân vật lịch sử như Từ Hi Thái hậu bỏ qua lớp ba đạt khoảng hàng chục triệu.

Mặc dù chưa đạt đến trình độ công nghiệp hóa và chưa thu hẹp được khoảng cách với Sora nước ngoài, nhưng Sora nước ngoài cũng chưa đạt được trình độ công nghiệp hóa. Điều này có nghĩa là, ít nhất là trong quá trình thương mại hóa, vẫn không có nhiều khoảng cách giữa hai bên. Việc còn lại là phải tiếp tục theo kịp.

Li Mingshun, chủ tịch của Xingxing AI, cũng có quan điểm tương tự. Ông nói với Lujiu Business Review rằng OpenAI vẫn chiếm vị trí dẫn đầu trong ngành, nhưng điều này chủ yếu dựa trên dự trữ sức mạnh tính toán trước đó và tích lũy công nghệ. Các nhà sản xuất mô hình quy mô lớn trong nước như BAT và ByteDance cũng sẽ tiếp tục bắt kịp. Lý do rất đơn giản. Ở một mức độ nào đó, mô hình lớn nói chung đã trở thành biểu tượng cho năng lực cơ bản của các công ty Internet.

Cuộc thi dường như chỉ mới bắt đầu.

3. Video của Vincent, yếu tố chiến thắng thực sự nằm ở đâu?

Tất nhiên, dù là Sora của OpenAI hay một số nhà sản xuất mô hình lớn trong nước, mục tiêu cuối cùng của họ vẫn là công nghiệp hóa và sản xuất theo dây chuyền nội dung video chất lượng cao. Nhưng cho đến nay, ngay cả một chương trình mạnh mẽ như Sora cũng có nhiều yếu tố chưa hoàn thiện khiến nó không thể được áp dụng trong lĩnh vực công nghiệp. Kiến trúc sư sản phẩm của Zhixingyuan (www.creatlyai.cn), một sản phẩm giải pháp video động AI, chia sẻ với Lujiu Business Review rằng mặc dù Sora có vẻ rất tiện lợi ở thời điểm hiện tại, nhưng nó có thể trực tiếp tạo video chất lượng cao thông qua văn bản và chỉ cần một vài lời nhắc để điều khiển, và dường như nó ít gây gánh nặng về mặt tinh thần và vận hành cho người dùng.

Tuy nhiên, vì hiểu biết hiện tại của Sora về thế giới vật chất thực tế vẫn còn hạn chế nên vẫn có thể xảy ra vấn đề trong một số tình huống. Những chi tiết như hướng hỗn loạn của ánh nến, sự hỗn loạn về số lượng chính xác và sự biến dạng của các vật thể đi vào và ra khỏi không gian rất khó thay đổi trong quá trình biên tập hậu kỳ.

Không phải là không có giải pháp. Vì Sora hiện có chức năng mở rộng video và ghép video nên người dùng có thể tạo ra nhiều giây video để chỉnh sửa sau. Đối với những người không có đủ kiến ​​thức về kỹ thuật tạo từ gợi ý, việc tạo nhiều bản sao + hậu kỳ thủ công là điều không thể tránh khỏi.

Ngoài ra, trong các video quảng cáo sản phẩm công nghiệp, khách hàng thường tung ra một số sản phẩm mới, chẳng hạn như áo khoác mới, ô tô mới, điện thoại di động mới, v.v. Tuy nhiên, tài liệu của người dùng không tồn tại trong bộ dữ liệu đào tạo của mô hình video, dẫn đến cách duy nhất để tạo ra các sản phẩm tương tự rồi thực hiện xử lý thứ cấp, đó là hậu kỳ phim và truyền hình.

Một lần nữa, có sự khác biệt về nhu cầu giữa người dùng chuyên nghiệp và không chuyên nghiệp. Ví dụ, đối với người dùng thông thường, nếu không có nhu cầu thương mại thì mô hình này chỉ là sản phẩm dùng thử và bất kỳ tác phẩm mới nào được tạo ra đều là điều bất ngờ đối với họ. Nhưng đối với người dùng chuyên nghiệp (như đạo diễn), nếu kết quả tạo ra một lần không đạt yêu cầu, sẽ cần nhiều thế hệ và nhiều công đoạn hậu kỳ, tạo gánh nặng đáng kể cho sức mạnh tính toán và nhân lực.

Nhà sản xuất phim nói trên chia sẻ với Lujiu Business Review rằng trong quá trình sản xuất phim điện ảnh và truyền hình, chi phí lớn nhất ở giai đoạn sau là chi phí nhân công cho khâu biên tập và hiệu ứng đặc biệt, tức là khâu xử lý thứ cấp. Nếu quy trình làm việc không đủ tiên tiến, chi phí trong giai đoạn hậu kỳ có thể tăng lên, do đó ảnh hưởng đến ROI của dự án.

Nếu các video Wensheng hiện tại vẫn cần nhiều điều chỉnh thủ công, ống kính và việc phục hồi thế giới vật lý không thể đạt được mức 1:1 thì hiệu quả về mặt chi phí khi sử dụng AI để tạo ra tư liệu video thực tế không cao.

Dựa trên điều này, một chuyên gia hậu kỳ phim và truyền hình đã chia sẻ với Lujiu Business Review rằng theo ông, những gì AI có thể thay thế trực tiếp thực chất là công việc trung hạn như xây dựng và quay phim. Bởi vì khả năng mô phỏng thế giới vật lý của AI có thể gần với thực tế hơn thông qua quá trình đào tạo liên tục.

Trên đây chỉ là một số thay đổi mà Sora đã mang lại cho ngành công nghiệp phim ảnh và truyền hình. Đối với các phân ngành như trò chơi, quảng cáo và sáng tạo video ngắn, những thay đổi chắc chắn lớn hơn nhiều so với các vấn đề. Việc ứng dụng AI chắc chắn sẽ mang lại những thay đổi mang tính cách mạng. Các công ty lớn trong nước rõ ràng sẵn sàng nỗ lực và thử nghiệm những điều mới mẻ trong việc khám phá thương mại các ứng dụng AI.

Tương tự như vậy, theo nhóm bạn của Zhou Yahui, “Open AI sẽ sớm phát hành GPT4.5 và người ta ước tính rằng họ sẽ cố tình chọn phát hành nó khi Anthropic phát hành Claude 3.” Ngoài video tạo hình của Sora, phiên bản mới nhất của Open AI còn có những cải tiến tuyệt vời nào khác? Đây hẳn là vấn đề đáng quan tâm nhất đối với các doanh nghiệp lớn trong nước tham gia vào bộ phận chiến lược và kinh doanh theo mô hình lớn.

Cuối cùng, đối với Wensheng Video, lựa chọn là dựa vào +AI để áp dụng các mô hình lớn hay dựa vào AI+ để đào tạo và nâng cấp các mô hình lớn ban đầu của riêng mình. Rõ ràng, các công ty lớn của Mỹ và Trung Quốc đã đưa ra lựa chọn của riêng mình.

Tác giả: Hu Jiaming Tài khoản công khai WeChat: Lujiu Business Review

<<:  Những cầu thủ mới, những thay đổi mới, cuộc sống địa phương sẽ thế nào vào năm 2024?

>>:  Sự phân nhánh của thương mại điện tử: Taobao, Jingdong và Douyin cạnh tranh về giá, trong khi các tài khoản video cạnh tranh về thương hiệu

Gợi ý

Cách kết nối máy in mạng (các bước đơn giản để dễ dàng in không dây)

Với sự phát triển của công nghệ, máy in mạng đã tr...

Phải làm gì nếu bạn quên mật khẩu Apple (Cách mở khóa nếu bạn quên mật khẩu Apple)

Làm thế nào để mở khóa điện thoại nếu bạn quên mật...

Các chủ sở hữu thương hiệu vừa và nhỏ bị mắc kẹt trong trò chơi

Trong môi trường kinh doanh ngày nay, các thương ...

Điện thoại OPPO nào tốt hơn trong khoảng 1500 (điện thoại đáng mua nhất)

Bạn khuyên dùng điện thoại di động OPPO nào có giá...

Phòng phát sóng trực tiếp không thể giữ lại tài sản thương hiệu

01. Vụ việc chấn động liên quan đến người dẫn chư...

Quản lý vòng đời người dùng sản phẩm Internet

Vòng đời của người dùng một sản phẩm Internet là ...

Hoàng Nguyên Sâm (Viết cuộc đời bằng nốt nhạc)

Với tài năng âm nhạc nổi bật và khả năng trình diễ...

18 ngày sau cú hit của Wonderful Duck

Bài viết này trước tiên sẽ giới thiệu sơ lược về ...

Làm thế nào để trò chuyện với người dùng?

Mối quan hệ giữa con người và thương hiệu là mối ...