Liệu việc trở thành “bảo mẫu” cho AI có phải là lối thoát cho những người như Tianya không?

Liệu việc trở thành “bảo mẫu” cho AI có phải là lối thoát cho những người như Tianya không?

Tianya, một cộng đồng người Hoa lâu đời, đã ở trong "ICU" suốt một năm và việc phá sản dường như là điều không thể tránh khỏi. Tuy nhiên, tin tức gần đây về việc một đối tác người Mỹ đã lên tàu AI đã mang lại một tia hy vọng cho Tianya.

Vào tháng 4 năm ngoái, Cộng đồng Tianya đã bị “ngắt kết nối” khỏi Internet do chậm thanh toán phí trung tâm dữ liệu.

Vấn đề là thiếu tiền. Cộng đồng Tianya cho biết cuộc khủng hoảng xuất phát từ những khó khăn về thanh khoản gia tăng trong những năm gần đây và tình trạng nợ phí viễn thông IDC, dẫn đến việc đình chỉ quyền truy cập vào Cộng đồng Tianya.

Lần tiếp theo tôi nghe tin tức về Tianya là vào cuối tháng 2 năm nay, khi Mạng lưới thông tin về phá sản và tái tổ chức doanh nghiệp quốc gia công bố thông tin rằng "Công ty TNHH công nghệ mạng cộng đồng Tianya đã phải chịu sự xem xét phá sản".

Mặc dù Tianya đã phủ nhận tin đồn sắp phá sản, khả năng Tianya phục hồi trở lại thậm chí còn mong manh hơn.

Tại Hoa Kỳ, một nền tảng nội dung cũ đang suy thoái đã tìm thấy một hoạt động kinh doanh phụ bằng cách dựa vào làn sóng AI và đã kiếm được rất nhiều tiền - nền tảng lưu trữ hình ảnh của bên thứ ba Photobucket từng có 70 triệu người dùng và chiếm gần một nửa thị trường ảnh trực tuyến của Hoa Kỳ. Ngày nay, Photobucket không còn phổ biến như trước nữa, chỉ còn khoảng 2 triệu người sử dụng.

Như câu nói, "Một con lạc đà gầy lớn hơn một con ngựa." Photobucket, vốn đã bị hầu hết mọi người lãng quên, vẫn lưu trữ hàng chục tỷ bức ảnh và video sau nhiều năm tích lũy. Và đây chính xác là điều mà các công ty AI đang "khát dữ liệu" cần nhất.

Giữa cơn sốt AI, ngày càng nhiều công ty tìm đến chúng tôi. Dựa trên ước tính sơ bộ từ các cuộc đàm phán đang diễn ra, lượng nội dung mà Photobucket nắm giữ có thể có giá trị lên tới hàng tỷ đô la.

Sẽ rất kỳ lạ nếu một công ty AI có tiền nhưng thiếu dữ liệu lại không ký hợp đồng với một cộng đồng lâu đời không có tiền nhưng lại tích lũy được lượng nội dung khổng lồ.

Reuters tiết lộ tin tức Photobucket đang đàm phán thỏa thuận với một công ty AI.

Điều thú vị là có một câu trong báo cáo đã bị xóa trong quá trình chỉnh sửa sau đó: "Công ty dự kiến ​​thu nhập hoạt động trong quý đầu tiên sẽ tăng gấp 10 lần lên gần 4,9 tỷ đô la".

4,9 tỷ đô la Mỹ có nghĩa là gì?

Photobucket, một trang web lưu trữ hình ảnh, ban đầu là miễn phí. Vào khoảng thiên niên kỷ này, số lượng người dùng Internet tăng đột biến và mọi người rất vui khi tải ảnh lên một trang web chuyên dụng để ghi lại cuộc sống của họ hoặc để chia sẻ chúng. Hơn nữa, sau khi tải ảnh lên Photobucket, mọi người có thể nhúng ảnh trực tiếp vào các trang web khác như MySpace, giúp tiết kiệm công sức tải ảnh nhiều lần. Một số người bán cũng sử dụng hình ảnh được lưu trữ trên eBay hoặc Amazon bằng Photobucket.

Theo cách này, vào thời kỳ đỉnh cao, Photobucket chiếm tới 2% lưu lượng truy cập Internet ở Hoa Kỳ.

Việc chuyển từ miễn phí sang trả phí có vẻ là con đường tất yếu đối với Photobucket. Tuy nhiên, Photobucket có vẻ hơi thiếu kiên nhẫn. Vào năm 2017, Photobucket bất ngờ chuyển dịch vụ hiển thị của bên thứ ba thành dịch vụ đăng ký trả phí với mức phí 399 đô la một năm. Động thái này không được cảnh báo trước đầy đủ và nhiều người dùng thấy rằng hình ảnh Photobucket họ nhúng trên các trang web khác không thể hiển thị và thay vào đó được nhắc "trả tiền để mở khóa".

Bạn nên biết rằng Photobucket đã có 100 triệu người dùng đã đăng ký tại thời điểm đó và khoảng 60 triệu bức ảnh từ các trang web của bên thứ ba không thể hiển thị bình thường theo "bản nâng cấp" này. Giữa lúc gây tranh cãi, Photobucket đã thay đổi mô hình đăng ký hằng năm thành mô hình thanh toán hằng tháng vào năm sau và mô hình này vẫn được sử dụng cho đến ngày nay.

Sau đó Photobucket đi xuống. Trong những năm tiếp theo, Photpbucket đã gặp phải những "tai nạn" như mất điện tại trung tâm dịch vụ dẫn đến gián đoạn dịch vụ và rò rỉ quyền riêng tư, và dần dần chuyển từ một trang web ảnh phổ biến thành một sản phẩm tầm thường trên Internet. Quy mô công ty cũng đã giảm từ 120 nhân viên vào thời kỳ đỉnh cao xuống còn 40 người.

Hiện tại, gói trả phí đắt nhất do Photobucket cung cấp có giá 8 đô la một tháng. Dựa trên báo cáo mới nhất cho biết có 2 triệu người dùng đang sử dụng Photobucket, ngay cả khi tất cả họ đều trả 8 đô la mỗi tháng, họ cũng chỉ có thể đóng góp 190 triệu đô la mỗi năm. Và đây chỉ là thu nhập của Photobucket, chưa trừ chi phí lưu trữ, bảo trì, vận hành, v.v.

Mặc dù Photobucket đã mất đi rất nhiều người dùng trong hai thập kỷ qua, nhưng nó vẫn luôn lưu giữ ảnh của người dùng trừ khi họ đăng xuất. Ngay cả khi không còn hỗ trợ tài khoản miễn phí, Photobucket vẫn thông báo rõ ràng với người dùng: Ảnh của bạn vẫn ở đó, bạn chỉ cần trả tiền ngay để xem lại chúng.

Những người dùng đã ngừng sử dụng Photobucket đã phàn nàn trên mạng xã hội rằng họ thường xuyên nhận được email từ Photobucket yêu cầu đối chiếu và không thể chịu đựng được nữa.

Vì có hình ảnh ở đó và một lượng lớn nội dung được lưu trữ trên máy chủ, tại sao không kiếm tiền từ chúng? Việc cấp phép nội dung nền tảng cho một công ty AI và kiếm được 4,9 tỷ đô la là một khoản tiền khổng lồ đối với Photobucket.

Tại sao một công ty AI lại chọn Photobucket, một “sản phẩm đã cũ”?

Câu trả lời rất đơn giản: có quá ít dữ liệu. Lấy mô hình chuỗi GPT của OpenAI làm ví dụ, GPT-3 sử dụng 300 tỷ token và GPT-4 sử dụng 12 nghìn tỷ token. Số lượng token cần thiết cho GPT-5, hiện đang được triển khai, là từ 60 nghìn tỷ đến 100 nghìn tỷ.

“Quy mô là tất cả” đã trở thành khẩu hiệu đấu tranh cho AI. Năm 2020, nhà vật lý Jared Kaplan của Đại học Johns Hopkins đã công bố một bài báo mang tính đột phá về AI cho thấy các mô hình ngôn ngữ lớn hoạt động tốt hơn với nhiều dữ liệu đào tạo hơn, cũng giống như học sinh học được nhiều hơn khi đọc nhiều sách hơn.

Dữ liệu có sẵn công khai trên Internet không phải là vô tận trước những mô hình lớn. Theo Epoch, một tổ chức nghiên cứu trí tuệ nhân tạo, toàn bộ dữ liệu chất lượng cao có thể sẽ cạn kiệt vào năm 2026 và tốc độ Internet tạo ra dữ liệu có thể không theo kịp tốc độ các mô hình lớn đang không ngừng mở rộng sử dụng dữ liệu.

Các con đường mà các công ty AI “khát dữ liệu” thực hiện để có được dữ liệu có thể được tóm tắt như sau: nếu dữ liệu miễn phí, hãy sử dụng trực tiếp; nếu là của mình thì sử dụng trực tiếp, không cho người khác sử dụng; nếu có thể trả được thì hãy trả; nếu không thể mua được ngay cả khi trả tiền, hãy nghĩ cách để có được nó nếu cần thiết.

Gần đây, tờ New York Times đưa tin rằng OpenAI đã sử dụng nội dung từ YouTube của Google khi đào tạo GPT-4. Bạn chắc chắn không thể sử dụng trực tiếp vì Google không cho phép. Vì vậy, OpenAI đã nảy ra ý tưởng và tạo ra một công cụ nhận dạng giọng nói có tên là Whisper, công cụ này có thể phiên âm hơn 1 triệu giờ video trên YouTube rồi đưa vào mô hình.

Trước đó, Sora, một công cụ chuyển văn bản thành video chưa được công bố rộng rãi cũng đã gây ra sự nghi ngờ từ thế giới bên ngoài. Trong một cuộc phỏng vấn, Giám đốc Công nghệ của OpenAI là Mira Murati đã không trả lời trực tiếp câu hỏi "liệu nội dung từ các nền tảng như YouTube, Instagram và Facebook có được sử dụng để đào tạo Sora hay không". Biểu cảm phức tạp của cô khi nghe câu hỏi thậm chí còn trở thành một meme trên Internet.

CEO của YouTube, Neal Mohan, trả lời vào ngày 5 tháng 4 rằng không có bằng chứng nào cho thấy OpenAI sử dụng video YouTube để đào tạo Sora, nhưng nếu OpenAI làm vậy, thì đó sẽ là "vi phạm rõ ràng" các điều khoản sử dụng của YouTube.

Sẽ thật ngây thơ khi nghĩ rằng YouTube đang cố gắng bảo vệ người dùng (hoặc người sáng tạo) của mình. Mohan cũng đề cập trong cuộc phỏng vấn rằng Google đã sử dụng một số nội dung từ YouTube để đào tạo mô hình lớn Gemini của mình.

Mặt khác, Mark Zuckerberg của Meta cũng coi dữ liệu nền tảng là lợi thế cạnh tranh của mình. Zuckerberg đã từng nói: "Phần quan trọng tiếp theo trong chiến lược của chúng tôi là học hỏi từ dữ liệu độc đáo". "Trên Facebook và Instagram, có hàng trăm tỷ hình ảnh được chia sẻ công khai và hàng chục tỷ video công khai."

Elon Musk, người đã chỉ trích Microsoft một cách giận dữ vào năm ngoái và đe dọa sẽ kiện công ty này vì sử dụng dữ liệu của X để đào tạo AI, cũng đã âm thầm cập nhật chính sách bảo mật của X, tuyên bố rằng công ty sẽ sử dụng dữ liệu mạng xã hội để đào tạo máy học và các mô hình AI. Trước sự chất vấn của cư dân mạng, Musk chỉ thừa nhận: "Chỉ có thông tin công khai mới được sử dụng (cho mục đích đào tạo), không phải tin nhắn riêng tư hay bất kỳ dữ liệu riêng tư nào".

Các công ty có lượng lớn nội dung do người dùng tạo ra (UGC) và cũng có AI riêng sẽ không bán dữ liệu và chỉ sử dụng cho riêng mình. Các công ty AI khác hoặc phải chấp nhận rủi ro và sử dụng bí mật, hoặc tìm kiếm các công ty có nội dung nhưng sẵn sàng bán.

ShutterStock và Reddit đều là những "người bán lớn" hoạt động trên thị trường giao dịch dữ liệu.

Trang web ảnh ShutterStock đã hợp tác với hầu hết các công ty AI lớn có thể kể đến, bao gồm nhưng không giới hạn ở OpenAI, Meta, Google và Amazon, đạt được thỏa thuận sử dụng hình ảnh của họ để đào tạo AI. Giá ban đầu của mỗi thỏa thuận dao động từ 20 triệu đô la đến 50 triệu đô la, và sau đó quy mô của thỏa thuận được tăng lên.

Khi làn sóng AI bùng nổ, Reddit, diễn đàn của Mỹ, nhận ra rằng dữ liệu của mình rất quan trọng và có giá trị đối với các công ty AI. Năm ngoái, Reddit đã bắt đầu đàm phán với một loạt các nhà lãnh đạo AIGC để thảo luận về vấn đề sử dụng dữ liệu có trả phí. Nói một cách thẳng thắn, nếu bạn không trả tiền và không được cấp phép, bạn có thể quên việc cung cấp nội dung cho AI từ diễn đàn hàng đầu của Mỹ này đi. Các cuộc đàm phán đã có những tiến triển dần dần. Vào tháng 2 năm nay, Reddit đã đạt được thỏa thuận với Google để cấp phép dữ liệu cho mục đích đào tạo AI. Giá trị hợp đồng khoảng 60 triệu đô la Mỹ mỗi năm.

Trong những trường hợp như vậy, chỉ còn là vấn đề thời gian trước khi những cộng đồng lâu đời như Photobucket trở thành mục tiêu.

Tổng giám đốc điều hành Photobucket Ted Leonard cho biết ông đang đàm phán với một số công ty công nghệ để cấp phép cho 13 tỷ nội dung (ảnh và video). Giá cấp phép cho mỗi bức ảnh dao động từ 5 xu đến 1 đô la, trong khi giá cấp phép cho video là hơn 1 đô la.

Một người mua nói với Leonard rằng họ muốn có hơn một tỷ video, nhiều hơn số lượng video mà Photobucket có. Dựa trên các cuộc đàm phán hiện tại, Photobucket đang nắm giữ khối lượng nội dung trị giá hàng tỷ đô la.

Về phần mình, Photoshop đã cập nhật các điều khoản người dùng vào tháng 10 năm ngoái để cấp cho nền tảng này "quyền không hạn chế" trong việc bán bất kỳ nội dung nào được tải lên để sử dụng trong việc đào tạo các hệ thống AI.

Leonard thậm chí còn nói rằng việc cấp phép dữ liệu có thể thay thế hoạt động kinh doanh bán quảng cáo của công ty.

Thị trường giao dịch dữ liệu bận rộn có thể cung cấp "công việc phụ" cho các nền tảng UGC đang suy yếu hoặc thậm chí đã chết.

Người ta không biết Tianya đã tích lũy được bao nhiêu nội dung, nhưng một vài dữ liệu có thể cho chúng ta thấy phần nào quy mô của nó. Vào thời kỳ đỉnh cao, lượng khách truy cập Tianya mỗi ngày lên tới 20 triệu người.

Trong thời kỳ hoàng kim của cộng đồng người Hoa, có một câu nói phổ biến rằng "chủ đề của mọi người đều do Thiên Nhai tạo ra". Nhiều người nổi tiếng thế hệ đầu tiên trên Internet đã sinh ra ở đây, chẳng hạn như Chị Phù Dung, Tiểu Nguyệt Nguyệt và Anh Sắc. Nhiều tác phẩm bán chạy nhất đã được sáng tác tại đây, chẳng hạn như "Ma thổi tắt ánh sáng", "Chuyện về triều đại nhà Minh", "Truyện Đông Bắc: Hai mươi năm địa ngục", "Pháp y Tần Minh", v.v.

Tính hữu ích của các diễn đàn Trung Quốc trong đào tạo AI cũng đang nhận được sự chú ý.

Một nghiên cứu cho thấy "thanh chậm phát triển" trong Baidu Tieba cho thấy hiệu quả đào tạo dữ liệu tuyệt vời.

Nghiên cứu này được thực hiện chung bởi nhiều trường đại học và viện nghiên cứu, bao gồm Viện Công nghệ Tiên tiến Thâm Quyến thuộc Viện Hàn lâm Khoa học Trung Quốc, Viện Tự động hóa thuộc Viện Hàn lâm Khoa học Trung Quốc và Đại học Waterloo, đồng thời đề xuất một tập dữ liệu tối ưu hóa có hướng dẫn bằng tiếng Trung chất lượng cao. Trong nghiên cứu này, các mô hình có nhiều loại và quy mô khác nhau đã được đào tạo bằng cách sử dụng các tập dữ liệu được tối ưu hóa theo hướng dẫn của Trung Quốc và tác động của nhiều nguồn dữ liệu khác nhau đến hiệu suất của mô hình đã được khám phá. Trong bài kiểm tra, "Retarded Bar" của Baidu Tieba đạt điểm khá cao.

"Retarded Bar" đã tập hợp được 300 thành viên, những người không thực sự liên quan đến khuyết tật trí tuệ, nhưng lại "giả vờ bị thiểu năng trí tuệ" và đưa ra một số phát biểu gây tổn thương não. Ví dụ, “Nếu các trường trung học không có tỷ lệ tuyển sinh cao, tại sao họ không tuyển sinh viên đại học?” hoặc “Tại sao bố mẹ tôi không mời tôi đến dự đám cưới của họ?” Các nhà nghiên cứu suy đoán rằng những câu hỏi "điều này thật ngu ngốc" có thể đã nâng cao khả năng suy luận logic của AI.

Đây chính là tia lửa được tạo ra bởi sự va chạm giữa sáng tạo quốc gia và AI. Nội dung cộng đồng đôi khi có thể mang lại những điều bất ngờ.

Tuy nhiên, đứng giữa nội dung cộng đồng và AI chính là người dùng.

Cũng giống như Photobucket đang bận rộn cập nhật các điều khoản người dùng, "xác nhận quyền nội dung" trên Internet Trung Quốc luôn là một vấn đề.

Một mặt, các nền tảng Internet của Trung Quốc từ lâu đã hình thành thói quen nhúng các điều khoản ủy quyền vào các điều khoản của người dùng. Thỏa thuận "Quyền riêng tư và Bản quyền" của Tianya năm 2017 có thể tìm thấy cho đến nay nêu rõ: "Đối với bất kỳ nội dung nào do người dùng đăng tải lên trang web này, cộng đồng này được hưởng các quyền sử dụng và cấp phép vĩnh viễn, không thể hủy ngang, miễn phí, không độc quyền dưới mọi hình thức và phương tiện truyền tải trên toàn thế giới, bao gồm nhưng không giới hạn ở việc sửa đổi, sao chép, phân phối, triển lãm, chuyển thể, biên soạn, xuất bản, dịch thuật, phổ biến mạng thông tin, phát sóng, biểu diễn và các quyền khác được xác định theo luật pháp và quy định như luật sáng tạo và luật bản quyền."

Sau khi Tianya bị "tắt nguồn", hoạt động kinh doanh bán "Bộ sưu tập bài viết tuyệt vời của Tianya" trên Internet trở nên phổ biến. Tianya từng nói trong thông báo khởi động lại rằng họ nhận thấy sự phổ biến của Tianya Shentie trên các nền tảng lớn và "có kế hoạch phát triển một nhóm thành viên cao cấp từ bây giờ và mở một khu vực trả phí cho Tianya Shentie trên nền tảng cộng đồng Tianya sau khi phản hồi lượt truy cập".

Vào cuối thông báo khởi động lại, Tianya cho biết, "Cho dù là đặt hàng trước 'dịch vụ bưu chính kỳ diệu Tianya giá 99 nhân dân tệ' hay đặt hàng trước 'dịch vụ tải dữ liệu một đổi một giá 299 nhân dân tệ', thì đây cũng là động lực rất quan trọng cho sự khởi động lại của Tianya." Cuối bài viết, Tianya đã đính kèm mã QR để mua hàng.

Mặt khác, liệu nền tảng này có quyền cấp phép nội dung người dùng cho các công ty khác để đào tạo AI hay không vẫn đang được thảo luận.

Người dùng khá cảnh giác với điều này.

Năm ngoái, Xiaohongshu đã cập nhật các điều khoản và điều kiện dành cho người dùng, nêu trong "Ủy quyền về thông tin và nội dung của người dùng" rằng "bạn cấp cho công ty xxx giấy phép miễn phí, không thể hủy ngang, không độc quyền để sử dụng nội dung mà không có giới hạn địa lý" và rằng "giấy phép trên bao gồm quyền và sự cho phép sử dụng, sao chép và hiển thị hình ảnh cá nhân được bảo vệ, chân dung, tên, nhãn hiệu, thương hiệu, logo và các tài liệu tiếp thị và quảng cáo khác cũng như các tài liệu trong nội dung của người dùng". Ngoài ra, vào thời điểm đó, một số họa sĩ minh họa đã đặt câu hỏi về nghi ngờ đạo văn của các công cụ AI, điều này làm dấy lên mối lo ngại của các họa sĩ minh họa rằng nền tảng này sẽ sử dụng các tác phẩm họ tải lên để đào tạo AI. Nhiều họa sĩ minh họa đã công khai tẩy chay và tuyên bố sẽ ngừng cập nhật trên nền tảng này.

Hôm nay, CEO của PhotoBucket đã được phỏng vấn và thừa nhận rằng nền tảng này có thỏa thuận cấp phép với các công ty AI, nhưng không phải công ty AI nào cũng tự tin vào nội dung của mình.

Daniela Braga, CEO của Defened.ai, cho biết bà tránh mua nội dung từ các nền tảng như Photobucket, thay vào đó là cấp phép từ những người sáng tạo ra những bức ảnh gốc: "Tôi nghĩ điều đó rất nguy hiểm", bà nói. “Nếu có thứ gì đó do AI tạo ra trông giống ảnh của một người chưa bao giờ cho phép thì đó là vấn đề.”

Tài liệu tham khảo:

1. Quantum位: "Làm thế nào mà thanh ngốc nghếch lại trở thành dữ liệu đào tạo AI tốt nhất của Trung Quốc?" Viện Hàn lâm Khoa học Trung Quốc, v.v.: Xếp hạng nhất trong 8 bài kiểm tra, vượt xa Zhihu, Douban và Xiaohongshu.

2. Tin tức kinh tế hàng ngày: "Công bố lịch trình khởi động lại cộng đồng Tianya. Ai sẽ chi 99 nhân dân tệ để mua "Dịch vụ bưu chính ma thuật Tianya"? 》

3. TechFox: "Sau 23 năm thành lập, cộng đồng lưu giữ ký ức của vô số người đã đóng cửa..."

4. Titanium Media: "Titanium Media Exclusive | Ứng dụng cộng đồng Tianya "Hồi sinh", Cửa hàng ứng dụng trực tuyến nhưng không thể sử dụng bình thường, Công ty đang huy động 10 triệu nhân dân tệ"

Blue Whale Finance: "Tình cảm vô giá trị? "Tianya Restart" bị hoãn lại sau "bí ẩn phá sản"

<<:  Ai là người sáng tác tiểu phẩm có ảnh hưởng nhất? Xinbang chính thức công bố "Danh sách những người sáng tạo Short Play có sức ảnh hưởng"

>>:  Ngành công nghiệp phim ảnh và truyền hình đang mắc kẹt trong "nỗi lo về phim truyền hình ngắn tập"

Gợi ý

Ba câu hỏi dành cho các nhà hoạch định tiếp thị thương hiệu

Bài viết này mở đầu bằng một câu hỏi: Khi mọi ngư...

Phím tắt cho lệnh nổ khối CAD là gì? (Về danh sách lệnh phím tắt CAD)

Có rất nhiều phím tắt, và chúng ta thường nhấn Ctr...

HTCM10 (Phá vỡ kỳ vọng của bạn về trải nghiệm điện thoại di động)

Trong những năm gần đây, với sự phát triển nhanh c...

Máy tính xách tay 14 inch lớn cỡ nào (bảng so sánh kích thước máy tính xách tay)

Ngoại hình của máy tính xách tay có vẻ là duy nhất...

Làm thế nào để kết nối điện thoại OPPO với máy tính? (sử dụng)

Chúng ta thường cần kết nối điện thoại OPPO với má...

Cách đặt lịch sửa máy in (thủ tục đơn giản)

Đôi khi sẽ không tránh khỏi phát sinh nhiều vấn đề...