Đồng Nghĩa Thiên Văn: Bỏ qua chủ đề thứ ba, nó liên quan gì đến thương mại điện tử AI?

Đồng Nghĩa Thiên Văn: Bỏ qua chủ đề thứ ba, nó liên quan gì đến thương mại điện tử AI?

Vào năm 2023, các mô hình AI lớn gần như đã đảo lộn cuộc sống của chúng ta. Chúng ta có thể vượt qua bài kiểm tra lái xe thứ ba mà không cần di chuyển và tạo video từ ảnh. Nó kết hợp với thương mại điện tử như thế nào? Chúng ta hãy cùng xem nhé!

Mấy anh chàng ở Haidilao bị bong gân mắt cá chân nhiều lần vì chủ đề thứ ba.

Nhưng dù có chuẩn bị kỹ đến đâu, anh cũng không ngờ rằng, dưới sự giúp đỡ của "Vua vũ đạo quốc gia" do Đồng Nghi Thiên Văn lặng lẽ đưa ra, mọi người đều có thể vượt qua môn thi thứ ba chỉ bằng một bức ảnh.

Với "mức độ tư thế" hiện tại của các mô hình lớn, việc tạo văn bản từ văn bản và tạo hình ảnh từ văn bản đã trở thành "trò chơi trẻ con" đối với nó. Bất kể mọi người cạnh tranh khốc liệt như thế nào trên bảng xếp hạng, cuộc cạnh tranh thực sự đã thực sự đạt đến lĩnh vực tạo ra nhiều phương thức - đây là trường hợp của video tạo hình ảnh của "King of Dance" và điều tương tự cũng đúng với việc tạo ra những người nước ngoài nổi tiếng như Musk và Zuckerberg nói tiếng Trung Quốc trong video.

Hơn nữa, mô hình Animate Anyone mà "King of Dance" dựa vào không còn chỉ là một "món đồ chơi" nữa. Kết hợp với mô hình "one-click fitting" mới nhất của Outfit Anyone của Alibaba Cloud, tương lai sẽ không còn xa khi chúng ta có thể mua quần áo trên Taobao và tải ảnh lên để xem video động về việc chúng sẽ trông như thế nào khi mặc vào người.

Giấc mơ về “thương mại điện tử AI” của Alibaba hiện đã có thêm một mảnh ghép nữa.

1. Nó đã được ưa chuộng ở nước ngoài trong ba tháng

Lý do khiến Môn Ba trở thành điệu nhảy "phi thường" không phải vì nó quá phổ biến trên các nền tảng video ngắn trong nước, vì điệu nhảy giao lưu cách đây năm hoặc sáu năm đã đạt được điều này - mà là liệu nó có thể trở thành biểu tượng của sản phẩm văn hóa và do đó giành được vé vào dòng chính hay không.

Chỉ xét riêng về kết quả, Subject 3 đã vượt ra khỏi nền tảng video ngắn, được tích hợp vào trò chơi và bước vào đấu trường quốc tế.

Ví dụ, tại Cuộc thi khiêu vũ thể thao thế giới vào ngày 9 tháng 12 năm ngoái, nhà vô địch thế giới Christina cùng một số vũ công đã trình diễn phiên bản chuẩn quốc gia của "Điệu nhảy ba"; Trong "trò chơi tiệc tùng gia đình đích thực" "Mean Dream Star" của Tencent vừa ra mắt cách đây một tháng, Lão Hồ cũng đã khám phá ra biểu cảm khuôn mặt và chuyển động độc quyền của nhân vật "Chủ nhân Ba".

Để trở thành "vua khiêu vũ toàn diện" hiện nay, bạn chỉ cần tải ảnh toàn thân lên ứng dụng Tongyi Qianwen và đợi khoảng 10 phút để tạo video khiêu vũ ngắn 10 giây.

Vào khu vực mẫu của "Vua khiêu vũ dân tộc", có 12 module khiêu vũ phổ biến để lựa chọn, bao gồm DJ slow rock, Just Want To Say "I Love You", Ghost Step Dance, Mongolian Dance, Subject Three, Paddling Step, v.v. Mặc dù có nhiều tùy chọn để lựa chọn, nhưng xét về lưu lượng truy cập và sự chú ý, Subject 3 chắc chắn là vị trí C.

Nếu chúng ta lần theo dòng thời gian, chúng ta có thể thấy rằng thời điểm các chuyên gia video ngắn nước ngoài bắt đầu "lan truyền" về Chủ đề 3 là vào khoảng tháng 10 đến tháng 11 năm ngoái. Vào cùng thời điểm đó, nhóm Alibaba Cloud đã phát hành một tài liệu kỹ thuật mô hình lớn liên quan đến "Almighty Dancer".

Bạn nên biết rằng loại hình khiêu vũ ở Môn 3 khác với khiêu vũ cử chỉ nói chung. Đòi hỏi nền tảng khiêu vũ nhất định và sự phối hợp của các chi. Nói cách khác, không phải ai cũng có thể xử lý dễ dàng ở nước ngoài.

Tuy nhiên, bài báo do Alibaba Cloud phát hành sử dụng mô hình "Animate Anyone" để chuyển đổi hình ảnh nhân vật cố định thành video hoạt hình được điều khiển bằng chuỗi tư thế cụ thể. Nói cách khác, những người trước đây không có kỹ năng nhảy thì giờ đây có thể sử dụng mô hình này để bắt đầu chỉ với một bức ảnh, mang đến cho tất cả những người mới học nhảy khả năng "lên sân khấu" trong lĩnh vực video ngắn.

Do đó, không có gì ngạc nhiên khi dòng tweet giới thiệu "Animate Anyone" đã nhận được hơn 50 triệu lượt truy cập trong vòng chưa đầy một tháng.

2. Để hình ảnh chuyển đến "Chủ đề 3"

Trước khi "Animate Anyone" ra đời, vẫn còn rất nhiều "rào cản" cần vượt qua trong việc tổng hợp hình ảnh tĩnh thành video động.

Đầu tiên là sự nhất quán trong chi tiết. Ví dụ, trong các video tạo hình ảnh AI hoặc văn bản trên thị trường, các hình ảnh không phải là chủ thể chính thường gặp các vấn đề như biến dạng cục bộ, chi tiết bị mờ, tốc độ khung hình không kiểm soát được, điều này sẽ ảnh hưởng đến chất lượng tạo video.

Một ví dụ khác là điều khiển chuyển động và tính liên tục. Nếu video được sử dụng cho mục đích thương mại, chuyển động của các nhân vật trong video cần phải có thể kiểm soát được. Nếu được tạo ra bởi AI, hành động của nhân vật chủ yếu được điều khiển bởi các chuỗi hành động được nhập trước. Tuy nhiên, chuyển động của nhân vật trong các video AI hiện tại không thể được kiểm soát chính xác bằng lời nhắc.

Trong quá trình tạo văn bản từ hình ảnh, chúng ta cũng cần xử lý quá trình chuyển đổi từ hình ảnh sang video và cần đảm bảo tính nhất quán về mặt không gian và thời gian của hình ảnh trong quá trình này.

Trước đó, mặc dù các sản phẩm AIGC như Stable Diffusion và Midjourney ban đầu sở hữu khả năng tạo đa phương thức như hình ảnh tạo bằng văn bản, hình ảnh tạo bằng hình ảnh và video tạo bằng hình ảnh, nhưng các vấn đề nêu trên vẫn chưa được giải quyết trong lĩnh vực video do AI tạo ra.

"Animate Anyone" đã cải thiện đáng kể những vấn đề đã đề cập ở trên. Đầu tiên, nhóm nghiên cứu đã sử dụng một mô hình phụ trợ mang tên "ReferenceNet" để nắm bắt các chi tiết không gian của hình ảnh tham chiếu, đảm bảo tính nhất quán về chi tiết ngoại hình của nhân vật trong mỗi khung hình;

Thứ hai, nhóm đã sử dụng Pose Guider hiệu quả, giúp kiểm soát tư thế di chuyển của nhân vật một cách hiệu quả. Trong video, nhân vật di chuyển theo tư thế cố định với sự chuyển tiếp ổn định để đảm bảo tính liên tục và mượt mà.

Lý do tại sao trước đây các chi tiết trong video do AI tạo ra không thể kiểm soát được phần lớn là do mối quan hệ thời gian giữa mỗi khung hình không đủ chặt chẽ và nhiều chi tiết không thể được giữ lại cho khung hình tiếp theo. Trong mô hình "Animate Anyone", mô-đun tạo thời gian được sử dụng để đảm bảo mối quan hệ giữa nhiều khung hình video và nhiều chi tiết có độ phân giải cao được giữ lại trong suốt quá trình.

Mặc dù đã giải quyết được rất nhiều vấn đề kỹ thuật, nhưng hiệu ứng thế hệ hiện tại của "Vua khiêu vũ toàn năng" vẫn có phần khác biệt so với người thật trên máy quay. Ví dụ, nhịp điệu nhảy được tạo ra đều đặn, nhưng hầu hết âm nhạc thực tế lại được phân bổ giữa nhanh và chậm. Điều này chắc chắn làm giảm hiệu quả của bài kiểm tra "Môn thứ ba".

Nhưng so với những phiên bản trước, "Animate Anyone" đã giải quyết được những vấn đề then chốt nhất như tính nhất quán của hình ảnh, độ ổn định của tư thế và khả năng kiểm soát mối quan hệ giữa nhiều khung hình, đồng thời đạt được bước đột phá từ 10-60+ điểm trong đường dẫn video được tạo bằng hình ảnh.

3. Một mảnh ghép khác của thương mại điện tử AI?

Điều gì xảy ra khi một video hình ảnh tăng từ 10 điểm lên 60 điểm?

Điều này có nghĩa là nó không chỉ có thể bảo toàn hoàn toàn khuôn mặt, tỷ lệ cơ thể, chi tiết quần áo và thông tin nền mà còn kiểm soát chính xác các chuyển động được tạo ra và về mặt kỹ thuật, độ dài của video được tạo ra là không giới hạn. So với các sản phẩm video tạo bằng văn bản như Gen2 và Pika, AnimateAnyone tập trung nhiều hơn vào chính con người.

Nói cách khác, ít nhất là trong lĩnh vực video tạo bằng hình ảnh, "Animate Anyone" đã biến video AI từ "đồ chơi" thành "mục đích sử dụng thương mại ban đầu". Kết hợp với “Outfit Anyone” mới ra mắt của Alibaba, người dùng có thể thử đồ trên và dưới chỉ bằng cách nhìn vào hình ảnh phẳng của trang phục.

Nếu kết hợp cả hai. Người dùng không chỉ có thể thử hầu hết các bộ quần áo yêu thích của mình bằng cách tải ảnh lên mà còn có thể trực tiếp xem trước chúng trông như thế nào khi mặc vào người thông qua hình ảnh động. Thay vì nói rằng người mẫu Taobao mất việc vì AI, thì nên nói rằng AI cho phép mọi người tự trở thành người mẫu của chính mình.

Tất nhiên, "Animate Anyone" có thể được áp dụng ở nhiều nơi hơn thế nữa. Nhiều nhà phát triển trò chơi có thể sử dụng thuật toán này để chuyển đổi hình ảnh nhân vật trò chơi tĩnh thành nhân vật hoạt hình với nhiều chuyển động và tư thế khác nhau, để có thể tái sử dụng nhiều lần cùng một chất liệu và tăng tính nhập vai cũng như độ tin cậy của các nhân vật tương ứng.

Mọi người sợ nhất điều gì khi mua hàng trên Taobao? Đó là độ tin cậy thấp do sự khác biệt giữa "chứng minh của người bán" và "chứng minh của người mua". Nhưng sau khi avatar AI của bạn trở thành người mẫu Taobao, mối lo ngại này sẽ phần lớn biến mất và chi phí tin cậy quan trọng nhất trong giao dịch cũng sẽ biến mất.

Tôi vẫn nhớ khi giá trị thị trường của Pinduoduo vừa vượt qua Alibaba, ông Mã Vân không chỉ chúc mừng Pinduoduo mà còn đặc biệt nhắc đến khái niệm "thương mại điện tử AI": "Thời đại thương mại điện tử AI vừa mới bắt đầu, là cơ hội và thách thức cho tất cả mọi người".

Về mặt giá cả và giao dịch, có thể sử dụng công nghệ so sánh giá theo thời gian thực do AI điều khiển để giúp người tiêu dùng mua được sản phẩm yêu thích của họ; Về mặt dịch vụ và trải nghiệm, có thể sẽ có dịch vụ hậu mãi kỹ thuật số tốt hơn và trải nghiệm mua sắm hấp dẫn hơn.

"Mô hình AI" có thể thử quần áo cho người dùng chỉ là một bước nhỏ trong trải nghiệm danh mục quần áo, nhưng xét về toàn bộ chiến lược thương mại điện tử AI của Alibaba, nó có thể chỉ là một trong vô số mảnh ghép cơ bản, nhưng cũng là một mảnh ghép cực kỳ quan trọng.

Tác giả: Lao Hu, Giám sát: Daman, Bố cục: Yuqi

Nguồn tài khoản công khai: IQ Tax Research Center (ID: gh_c55b3561ece1), thế giới này đầy rẫy những mánh khóe, tôi sẽ bước vào bẫy thay bạn!

<<:  Cáp Nhĩ Tân hiện là thành phố của sự giàu có

>>:  Phiên bản cá nhân của DingTalk đã được ra mắt đầy đủ và các mẫu ảnh AI được ra mắt kết hợp với "Truyền thuyết về Chân Hoàn"

Gợi ý

Honor 20xse như thế nào (đánh giá Honor 20S)

Gần đây nhất là Honor 20S, giá khởi điểm của sản p...

Tỷ lệ chuyển đổi của phiếu bán hàng thấp. Làm thế nào để phá vỡ bế tắc?

Đối với các thương hiệu vừa và nhỏ, tỷ lệ chuyển ...

Năm cạm bẫy của các dự án phân tích dữ liệu, đừng mắc phải!

Phân tích dữ liệu hiện là kỹ năng mà hầu hết các ...

Nền kinh tế đằng sau Black Myth: Wukong

Là một kiệt tác game 3A trong nước được mong đợi,...

Máy in lỗ kim (máy in lỗ kim nhỏ và mạnh mẽ sẽ dẫn đầu ngành in)

Công nghệ in ấn cũng đang phát triển khi công nghệ...

Cách hầm thịt bò ngon và mềm (cách hầm thịt bò đúng cách)

Đây là phần dễ bị thối nhất, và củ cải khô cần đượ...