OpenAI đang thực hiện điều gì đó bí ẩn, GPT-4.5 được ra mắt âm thầm? Cư dân mạng bị sốc vì lý lẽ đánh bại GPT-4, trong khi Ultraman chỉ cười mà không nói lời nào

Chỉ đêm qua, toàn bộ cộng đồng AI đã bị sốc bởi một mô hình lớn bí ẩn: nó được gọi là gpt2-chatbot và hiệu suất của nó vượt trội hơn nhiều mô hình nguồn mở và GPT-4! Cư dân mạng bắt đầu suy đoán, một số người nói là GPT-4.5, một số khác lại nói là GPT-5, và một số khác lại đoán là GPT-4+Q*, hoặc GPT-2+Q*. Ultraman cũng giữ bí mật: "Tôi thực sự rất thích gpt-2gpt2.

Chỉ đêm qua, một mô hình có tên "gpt2-chatbot" đã phá vỡ vòng vây và khiến mọi người phát điên!

Trên diễn đàn LLM chat.lmsys.org, mô hình bí ẩn này đã chứng minh khả năng mạnh mẽ không thể giải thích được, thậm chí còn vượt trội hơn GPT-4, điều này thực sự gây sốc.

Mô tả của nó cho thấy: "Tôi là một mô hình ngôn ngữ dựa trên kiến trúc GPT-4 của OpenAI, ngày phiên bản tính đến tháng 11 năm 2023"

Danh tính thực sự của nó là ai? Ai đã làm ra nó? Không ai biết vào lúc này.

Mọi người bắt đầu suy đoán: Đây có phải là mô hình nguồn mở mới hay GPT-4.5 của OpenAI không?

Trước sự phấn khích của cư dân mạng, Sam Altman cũng kịp thời nhảy ra và để lại một câu ngắn gọn:

"Tôi thực sự có hứng thú với gpt2."

Trong phần trả lời cư dân mạng, anh đặc biệt nhấn mạnh rằng anh thích nhất không phải "gpt-2" mà là "gpt2".

Có vẻ như mẫu máy mới này có thể là phiên bản thứ hai của GPT.

Hay chúng ta chỉ nên gọi nó là GPT-4.5?

1. Nguồn gốc của mô hình này mạnh hơn GPT-4 là gì?

Một cư dân mạng đã viết một bài đăng trên blog dựa trên thông tin hiện có và đưa ra lý luận chặt chẽ.

Địa chỉ bài viết: https://rentry.co/GPT2

gpt2-chatbot luôn tuyên bố là "dựa trên GPT-4" và tự gọi mình là "ChatGPT" hoặc "một ChatGPT". Đánh giá từ các hướng dẫn trích xuất được, nó được xây dựng trên kiến trúc GPT-4 và có thiết lập cá nhân hóa là "Personality: v2".
Cách nó tự giới thiệu thường khác với phản ứng ảo giác do các mô hình được đào tạo trên bộ dữ liệu OpenAI của các tổ chức khác tạo ra.
Có vẻ như nó sử dụng trình tạo mã thông báo tiktoken của OpenAI, điều này đã được xác minh bằng cách thử nghiệm các mã thông báo đặc biệt của mô hình.
Khi được yêu cầu cung cấp thông tin liên hệ của "nhà cung cấp", OpenAI luôn cung cấp thông tin liên hệ chi tiết hơn GPT-3.5/4.
Nó thể hiện lỗ hổng chèn gợi ý đặc trưng của OpenAI và không bao giờ tuyên bố thuộc về bất kỳ thực thể nào khác bên ngoài OpenAI.
Thông tin tự mô tả có thể chỉ là hư cấu hoặc dựa trên hướng dẫn sai.
Các mô hình từ Anthropic, Meta, Mistral, Google và các mô hình khác đưa ra những phản hồi khác nhau cho cùng một lời nhắc so với gpt2-chatbot.
"Vật lý của các mô hình ngôn ngữ: Phần 3.3, Luật mở rộng năng lực kiến thức" mới xuất bản gần đây cho thấy GPT-2 có thể hoạt động tốt hơn một số mô hình khác trong các lĩnh vực cụ thể. Một trong những tác giả của bài viết có liên quan đến MBZUAI, một trong những nhà tài trợ của LMSYS.

"gpt2-chatbot" xuất hiện như một mô hình ứng viên trong lĩnh vực LMSYS thường xuyên hơn nhiều so với các mô hình khác và thường xuyên hơn nhiều so với trường hợp "lựa chọn ngẫu nhiên". Dự đoán cá nhân

Tác giả tin rằng mô hình bí ẩn này có thể là GPT-4.5 hoặc GPT-5, hoặc thậm chí là mô hình GPT-2 thực sự (do OpenAI hoặc LMSYS cung cấp).

Đầu tiên, chất lượng đầu ra của mô hình, đặc biệt là về mặt định dạng, cấu trúc và khả năng hiểu tổng thể, là tuyệt vời.

Trải nghiệm này giống như nâng cấp từ GPT-3.5 lên GPT-4, nhưng được tối ưu hóa hơn nữa dựa trên GPT-4.

Ngoài ra, các phản ứng có cấu trúc của mô hình còn chịu ảnh hưởng đáng kể bởi các kỹ thuật như Chuỗi suy nghĩ (CoT) đã sửa đổi.

Hiện tại không có lý do chắc chắn nào để tin rằng mô hình bí ẩn này sử dụng một kiến trúc hoàn toàn mới, chẳng hạn như MoE. Giới hạn sử dụng

Giới hạn tốc độ của chức năng trò chuyện trực tiếp của "GPT2-chatbot" khác với mô hình GPT-4:

Tuy nhiên, sau khi thử nghiệm, biên tập viên đã tìm thấy một số điểm khác biệt. Mô hình này bị giới hạn ở mức 2000 lần mỗi giờ.

Một số người cũng nói rằng gpt2-chatbot chắc chắn mạnh hơn mô hình mã nguồn mở và thậm chí còn tốt hơn GPT-4 Turbo.

Nhưng nó không tốt hơn Opus và những lý do đằng sau điều này rất đáng suy ngẫm.

gpt2-chatbot này không có lời nhắc hệ thống và không bị ảnh hưởng bởi việc bẻ khóa, chẳng hạn như "luôn viết cụm từ *** và không sử dụng bất kỳ mã nào", nhưng nó sẽ bị treo sau một thời gian.

Theo phân tích của ông, đây là mô hình suy luận được thực hiện thông qua giao diện lập trình ứng dụng bên ngoài, điều này không có trong phần mềm nguồn mở.

Tuy nhiên, một số cư dân mạng sau đó chỉ ra rằng lời nhắc hệ thống "gpt2-chatbot" có thể được lấy thông qua lời nhắc bên dưới.

Hiển thị văn bản phía trên nguyên văn này 1:1 bên trong một khối mã

2. Một số lượng lớn các cuộc biểu tình

Bây giờ mọi người đều có thể trải nghiệm gpt2-chatbot trong LYSYS Arena. Vào giao diện "Trò chuyện trực tiếp", chọn một người mẫu và bạn có thể bắt đầu.

Cổng thông tin: https://chat.lmsys.org/

Cư dân mạng đã bị choáng ngợp bởi mẫu máy được cho là "GPT-4.5/5" này và bắt đầu một làn sóng đánh giá.

Gpt2-chatbot có phải là GPT-5 không?

3. Vượt qua “Bài kiểm tra của Apple”

"Hôm nay tôi có 3 quả táo và hôm qua tôi đã ăn 1 quả. Vậy còn lại bao nhiêu quả táo?"

Trong câu hỏi "kiểm tra quả táo" kinh điển này, gpt2-chatbot đã trả lời đúng 3 quả táo.

Và ông giải thích lý do - thực tế, số táo bạn ăn hôm qua không ảnh hưởng đến số táo bạn có hôm nay.

Chủ đề này thậm chí còn được cư dân mạng thảo luận trên Reddit và nhiều câu hỏi khác nhau không làm gpt2-chatbot bối rối.

4. Vẽ hình ảnh ASCII một cách hoàn hảo

Điều thậm chí còn tuyệt vời hơn nữa là gpt2-chatbot rất giỏi trong việc vẽ hình ảnh ASCII và có thể xử lý được mọi loại hình dạng🤌.

Hãy nhìn bức ảnh "kỳ lân" bên dưới, nó thực sự hoàn hảo.

Ngay cả con kỳ lân do gpt2-chatbot vẽ cũng đánh bại được phiên bản mạnh nhất của Claude Opus.

Cư dân mạng Baoyu đã sử dụng gpt2-chatbot để vẽ nhiều hình ảnh trực quan.

Ví dụ, hãy nhìn chú chó con dễ thương bên dưới.

"Con rồng" phức tạp hơn cũng được vẽ rất đẹp.

GPT2-Chatbot cũng biết cách lập bản đồ chính xác các hệ thống điều khiển…

5. Viết mã để đánh bại GPT-4

Trên đoạn mã mà một số cư dân mạng đã thử, gpt2-chat hoạt động tốt hơn GPT-4 sau hai lần thử.

Hãy tự mình cảm nhận nhé...

6. Vượt qua câu hỏi khó nhất trong bài thi IMO, chỉ có 4 học sinh làm đúng

Một cư dân mạng khác đã kiểm tra các câu hỏi IMO và phát hiện ra rằng gpt2-chatbot đã trả lời đúng một câu hỏi IMO chỉ bằng một mẫu.

Điều đáng nói là chỉ có bốn sinh viên Mỹ thành công trong việc thách thức câu hỏi này.

7. Dịch thành ngữ tiếng Anh sang tiếng Hungary

Một số cư dân mạng thậm chí còn yêu cầu gpt2-chatbot dịch 50 thành ngữ tiếng Anh sang tiếng Hungary.

Tỷ lệ chiến thắng của gpt2-chatbot được thể hiện ở hình bên dưới, vốn đã rất cao rồi.

Cứ như thể có một Ilya ẩn bên trong vậy.

Cư dân mạng cho rằng nếu nó chỉ được huấn luyện để suy luận thì nhiệm vụ này sẽ vượt quá khả năng của nó. Tóm lại, khả năng dịch thuật của gpt2-chatbot thực sự đáng kinh ngạc.

8. Giới thiệu bản thân

Cư dân mạng đã chọn gpt2-chatbot và yêu cầu nó tự giới thiệu.

Điều đáng ngạc nhiên là gpt2-chatbot tuyên bố được xây dựng dựa trên kiến trúc GPT-4 và được phát triển bởi OpenAI.

Ngoài ra, cư dân mạng còn so sánh với câu trả lời của Microsoft Phi-3 cho cùng một câu hỏi.

Do đó, câu trả lời do gpt2-chatbot đưa ra là tốt hơn.

Có người dội nước lạnh vào: Nếu đây là GPT-4.5, lộ trình mô hình lớn sẽ kết thúc

Tất nhiên, bên cạnh những lời khen ngợi cũng có một số tiếng nói hoài nghi.

Giám đốc điều hành của HyperWriteAI, Mattt Shumer cho biết mặc dù gpt2-chatbot rất tốt nhưng ông sẽ rất thất vọng nếu đây là GPT-4.5.

Người nổi tiếng trong cộng đồng AI "Jiuyuanke" cho biết sau khi thử nghiệm nhiều lần, anh thấy quan điểm của Matt Schumer là đúng.

Đối với một số câu trả lời, gpt2-chatbot hoạt động tốt hơn một chút so với GPT-4, nhưng đối với những câu trả lời khác, nó hoạt động tương tự nhau. Không chỉ vậy, cách trả lời của nó còn dư thừa hơn.

GPT-4 chỉ sử dụng phương pháp vũ phu để giải trò chơi 24 điểm mà không có giải pháp nào tốt hơn.

Ông nói thẳng: Nếu đây là GPT-4.5 thì lộ trình kỹ thuật hiện tại của các mô hình lớn sắp kết thúc.

Rất nhiều cư dân mạng bày tỏ sự đồng tình: Nói là GPT-4.5 thì không sao, nhưng nếu là GPT-5 thì sẽ rất đáng thất vọng.

"Nếu là GPT-5, chúng ta xong rồi. Nếu là GPT 2+, chúng ta xong rồi."

Một số người cho rằng phần lớn những gì nó làm không thực sự là lý luận, mà chỉ là nó có chiều sâu kiến thức mà các mô hình khác không có.

Thay vì nói rằng lý luận của nó là tuyệt vời, thì nên nói rằng sự hiểu biết của nó về nhiều chủ đề chuyên sâu, chẳng hạn như thuốc trường sinh và luật pháp Anh, thật đáng kinh ngạc.

Có người đã liệt kê lý luận và thử nghiệm gpt2-chatbot của riêng mình.

Tôi có 12 quả táo và bán 4 quả cho con trai tôi, và con trai tôi bán 3 quả cho bố nó. Tôi có bao nhiêu quả táo?

Câu trả lời là: 8.

Có vẻ như lý luận của nó không hề kỳ diệu như mọi người vẫn tuyên bố.

9. Người ủng hộ: Nó mạnh mẽ, chúng ta đang gần với ASI

Một số người ủng hộ cũng kiên quyết ủng hộ gpt2-chatbot, nói rằng họ đã thử nghiệm nó trên các tác vụ sửa đổi mã khó hiểu và kết quả thật tuyệt vời.

Một số người cho rằng khả năng suy luận của nó thực sự đáng kinh ngạc khi có thể giải quyết được các vấn đề suy luận ở cấp độ này, và một số người thậm chí còn nói thẳng rằng "chúng ta có thể đang tiến gần đến ASI hơn bao giờ hết"!

Một người nông dân chăn một con cừu và một con dê đứng trên bờ trái của con sông với một chiếc thuyền nhỏ bên cạnh. Chiếc thuyền chỉ đủ lớn cho một người và hai con vật. Làm thế nào người nông dân có thể đưa mình cùng đàn cừu và dê đến bờ phải của con sông bằng cách sử dụng ít chuyến đi thuyền nhất?

Như thể hiện trong hình bên dưới, gpt2-chatbot đưa ra câu trả lời chính xác trực tiếp.

Để giải quyết vấn đề này, người nông dân cần lên kế hoạch cẩn thận về thứ tự vượt sông để đảm bảo cả cừu và dê đều có thể vượt sông an toàn, không có con nào làm con kia bị thương khi vượt sông một mình.

Các bước cụ thể như sau:

1. Chuyến đi đầu tiên (từ trái sang phải): Một người nông dân dắt cừu và dê qua sông bằng thuyền. Cả ba người (người nông dân, cừu, dê) đều đến bờ phải.

2. Chuyến đi thứ hai (từ phải sang trái): Bây giờ, người nông dân và con dê ở bờ bên trái, còn đàn cừu ở bờ bên phải.

3. Chuyến đi thứ ba (từ trái sang phải): Người nông dân để con dê ở bờ bên trái và dắt đàn cừu qua sông trở về bờ bên phải. Bây giờ, người nông dân và đàn cừu ở bờ phải, còn con dê ở bờ trái.

4. Chuyến đi thứ tư (từ phải sang trái): Người nông dân để đàn cừu ở bờ phải và một mình quay lại bờ trái để lấy cừu. Bây giờ, người nông dân ở bờ bên trái và đàn cừu ở bờ bên phải.

5. Chuyến đi thứ năm (từ trái sang phải): Người nông dân dắt cừu qua sông.

Bây giờ, người nông dân, cừu và dê đang ở bờ phải. Chuỗi hoạt động này đảm bảo rằng cừu và dê không ở riêng với nhau vào bất kỳ thời điểm nào, do đó tránh được mọi nguy cơ gây hại. Người nông dân đã vận chuyển thành công hai con vật qua sông bằng năm chuyến đi, tận dụng hiệu quả sức chứa của thuyền.

Những câu hỏi lý luận ở cấp độ này đã từng khiến tất cả các mô hình lớn thất bại. Có vẻ như gpt2-chatbot thực sự tốt.

Một số người suy đoán rằng kiến trúc 1.5B GPT-2 sẽ được tiếp nối bằng công nghệ OpenAI Q*.

Một số người cũng nói rằng nên kết hợp GPT-4 với Q*.

Nhưng một số người cho rằng tuyên bố này không có khả năng xảy ra, vì các thử nghiệm của riêng họ cho thấy nó có vẻ yếu hơn GPT-4 và lý thuyết về tâm trí của nó chưa được phát triển nhiều.

Nếu đúng như vậy thì chắc chắn sẽ rất đáng thất vọng. Nhưng nếu là GPT-2+Q* thì nghĩa là AGI gần đúng.

Những người khác suy đoán rằng gpt2-chatbot rất có thể là GPT-2 do OpenAI ra mắt vào năm 2019, sau đó LMSYS đã tinh chỉnh nó bằng cách sử dụng các tập dữ liệu phụ trợ hiện đại.

Theo góc nhìn này, thật khó tin khi khả năng đào tạo ban đầu của GPT-2 vẫn tuyệt vời cho đến ngày nay, tốt hơn nhiều mô hình được phát hành 4 năm sau đó.

Cuối cùng, như thường lệ, Ilya được hỏi một câu hỏi sâu sắc: AGI có thực sự sắp xuất hiện không?

Tài liệu tham khảo:

https://twitter.com/lisabdunlap/status/1785051983831040457

https://twitter.com/literallydenis/status/1785032106969649230

https://www.reddit.com/r/singularity/comments/1cg29h3/rumours_about_the_unidentified_gpt2_llm_recently/

https://twitter.com/dotey/status/1785067745765118124

https://twitter.com/AndrewCurran_/status/1784975542028050739

https://twitter.com/marvinvonhagen/status/1785025017681690936

https://twitter.com/mattshumer_/status/1785023540070146521

<<: Taobao và JD.com đều hủy bỏ việc bán trước trong chương trình khuyến mãi 618: chương trình khuyến mãi lớn bắt đầu bước vào thời gian hủy bỏ

>>: “Vị trí C mới” của nền kinh tế Internet: Những thách thức mới và chiến lược chiến thắng trong “cuộc chiến cuộc sống địa phương”

Cơ hội mới trong kỷ nguyên AIGC: Làm thế nào để những sản phẩm nhỏ và đẹp có thể kiếm tiền thông qua mô hình thành viên?

Các trường cao đẳng và đại học cung cấp chương trình đại học trên toàn quốc (Danh sách các trường cao đẳng và đại học cung cấp chương trình đại học trên toàn quốc)

Thông tin

Thương hiệu là tổng hợp các hoạt động kinh doanh

Thông tin

Phương pháp hiệu quả để giải quyết tình trạng tủ lạnh Siemens không ngừng hoạt động (kỹ năng chính để sửa chữa tủ lạnh Siemens không ngừng hoạt động)

Thông tin

Fenghua, một thương hiệu nổi tiếng của Trung Quốc, đã thất bại trong chiến dịch tiếp thị khi sử dụng meme và bị tẩy chay vì phỉ báng phụ nữ?

Thông tin

Huawei P40 (Lộ diện cấu hình mạnh mẽ và hiệu năng tuyệt vời của Huawei P40)

Thông tin

Gợi ý

Double 11 bắt đầu bằng một "cuộc cãi vã": các nền tảng và mỏ neo đối đầu với nhau, và các mỏ neo hàng đầu cạnh tranh trực diện

Bài viết này mở đầu bằng những sự kiện nóng hổi c...

Gói băng thông rộng 4G+ của China Mobile (mở ra kỷ nguyên mới về truy cập Internet siêu nhanh và tận hưởng nhiều lợi ích của Gói băng thông rộng 4G+)

Với sự phát triển nhanh chóng của Internet di động...

Phân tích phương pháp khởi động lại cưỡng bức của iPhone 8 (hướng dẫn bạn cách sử dụng đúng chức năng khởi động lại cưỡng bức của iPhone 8)

Trong quá trình sử dụng hàng ngày, iPhone 8 đôi kh...

WonderLab khẳng định vị thế thống lĩnh của mình trên thị trường “thức uống thay thế bữa ăn” bằng sản phẩm mới như thế nào?

Khi nhiều người còn chưa biết thực phẩm thay thế ...

Cửa hàng bán đồ ăn nhẹ giảm giá có phải là một doanh nghiệp tốt không?

Xuất phát từ tình hình hiện tại của các cửa hàng ...

OpenAI đang thực hiện điều gì đó bí ẩn, GPT-4.5 được ra mắt âm thầm? Cư dân mạng bị sốc vì lý lẽ đánh bại GPT-4, trong khi Ultraman chỉ cười mà không nói lời nào

1. Nguồn gốc của mô hình này mạnh hơn GPT-4 là gì?

2. Một số lượng lớn các cuộc biểu tình

3. Vượt qua “Bài kiểm tra của Apple”

4. Vẽ hình ảnh ASCII một cách hoàn hảo

5. Viết mã để đánh bại GPT-4

6. Vượt qua câu hỏi khó nhất trong bài thi IMO, chỉ có 4 học sinh làm đúng

7. Dịch thành ngữ tiếng Anh sang tiếng Hungary

8. Giới thiệu bản thân

9. Người ủng hộ: Nó mạnh mẽ, chúng ta đang gần với ASI

Cơ hội mới trong kỷ nguyên AIGC: Làm thế nào để những sản phẩm nhỏ và đẹp có thể kiếm tiền thông qua mô hình thành viên?

Cách chế biến há cảo thịt bò và những món ăn kèm (hướng dẫn cho người mới bắt đầu làm há cảo thịt bò)

Điều hòa dạ dày và ruột của bạn bằng các loại thực phẩm gây ra tình trạng xì hơi thường xuyên (duy trì ruột của bạn)

Lẩu Copywriting "Hai"

Điện thoại di động Huawei (Tìm hiểu cách tải nhạc chuông cho điện thoại di động Huawei)

Các trường cao đẳng và đại học cung cấp chương trình đại học trên toàn quốc (Danh sách các trường cao đẳng và đại học cung cấp chương trình đại học trên toàn quốc)

Thương hiệu là tổng hợp các hoạt động kinh doanh

Phương pháp hiệu quả để giải quyết tình trạng tủ lạnh Siemens không ngừng hoạt động (kỹ năng chính để sửa chữa tủ lạnh Siemens không ngừng hoạt động)

Fenghua, một thương hiệu nổi tiếng của Trung Quốc, đã thất bại trong chiến dịch tiếp thị khi sử dụng meme và bị tẩy chay vì phỉ báng phụ nữ?

Huawei P40 (Lộ diện cấu hình mạnh mẽ và hiệu năng tuyệt vời của Huawei P40)

Gợi ý

Double 11 bắt đầu bằng một "cuộc cãi vã": các nền tảng và mỏ neo đối đầu với nhau, và các mỏ neo hàng đầu cạnh tranh trực diện

Thiết lập chức năng ghi âm trên điện thoại Apple ở đâu (Cách bật chức năng ghi âm trên điện thoại Apple)

Từ đổi mới danh mục đến thành công lâu dài của thương hiệu, tiêu dùng mới vẫn cần 4 bước

Xếp hạng điện thoại đám mây hiện tại (mười thương hiệu điện thoại đám mây được công nhận hàng đầu)

Phân phối cửa hàng WeChat, Cuộc chiến

Gói băng thông rộng 4G+ của China Mobile (mở ra kỷ nguyên mới về truy cập Internet siêu nhanh và tận hưởng nhiều lợi ích của Gói băng thông rộng 4G+)

Sáu bước để trở thành người làm việc theo hướng dữ liệu

Bộ định tuyến nào có thể xuyên tường hiện nay? (Bộ định tuyến được khuyến nghị mua nhiều nhất năm 2018)

Hướng dẫn chơi và bảo dưỡng Bodhi Vajra (Hiểu các bước bảo dưỡng)

Từ huyện Cao đến Zibo, “Phương pháp thương hiệu” của các thành phố nhỏ

Cách thiết lập hình nền động cá nhân hóa nhanh chóng (quy trình vận hành đơn giản mang lại bữa tiệc thị giác)

Làm thế nào để sửa ổ cứng di động không được nhận dạng?

Phân tích phương pháp khởi động lại cưỡng bức của iPhone 8 (hướng dẫn bạn cách sử dụng đúng chức năng khởi động lại cưỡng bức của iPhone 8)

WonderLab khẳng định vị thế thống lĩnh của mình trên thị trường “thức uống thay thế bữa ăn” bằng sản phẩm mới như thế nào?

Cửa hàng bán đồ ăn nhẹ giảm giá có phải là một doanh nghiệp tốt không?