GPT-5 sắp ra mắt? Mô hình lớn mới nhất của OpenAI đã được công bố!

Trong thời gian gần đây, sự tiến bộ của Google trong các mô hình AI lớn đã thu hút rất nhiều sự chú ý.

Nhưng khi mọi người đang xoa tay, cố gắng chờ xem Google sẽ xoay chuyển tình thế như thế nào, OpenAI, ông trùm trong lĩnh vực mô hình AI lớn, một lần nữa công bố tin tức quan trọng.

Theo truyền thông nước ngoài The Information, OpenAI sắp ra mắt mô hình đa phương thức GPT-Vision . Tiêu đề của bài viết nêu rõ rằng điều này được dùng để đáp trả Google.

Mặc dù phiên bản mới chưa thực sự ra mắt nhưng cũng đủ để chúng ta có cái nhìn thoáng qua về giai đoạn tiếp theo của trọng tâm cạnh tranh trong đường đua này - đa phương thức.

01# “GPT-5” đã tiến triển đến đâu?

Theo The Information, OpenAI đang chuẩn bị ra mắt chức năng hiểu hình ảnh GPT-Vision dựa trên GPT-4. Điều này tương đương với việc tăng sức mạnh cho GPT-4 và cải thiện nó từng bước một. Trong mọi trường hợp, GPT-4 vẫn được công nhận là người dẫn đầu trong lĩnh vực AI.

Ngoài ra, báo cáo cũng đề cập rằng OpenAI có thể ra mắt một mô hình lớn có tên mã là "Gobi" theo tên GPT-Vision. Không giống như GPT-4, cái gọi là Gobi "mạnh hơn" được xây dựng theo mô hình đa phương thức ngay từ đầu.

Thế giới bên ngoài đã coi mô hình lớn mới này là ứng cử viên mạnh cho GPT-5, vì hầu hết mọi người không tin vào những tin đồn trước đó đã bị Sam Altman, CEO kiêm đồng sáng lập của OpenAI, bác bỏ tại một sự kiện của MIT:

Chúng tôi hiện không đào tạo GPT-5 và sẽ không đào tạo nó trong thời gian ngắn.

Sam Altman trả lời tin đồn về GPT-5 tại MIT

Suy cho cùng, tuyên bố này chủ yếu được dùng để phản hồi bức thư ngỏ "Tạm dừng các thí nghiệm AI khổng lồ". Vào ngày 29 tháng 3, hàng nghìn người trong ngành công nghệ, bao gồm cả CEO Tesla Elon Musk, đồng sáng lập Apple Steve Wozniak và người đoạt giải Turing Yoshua Bengio, đã cùng nhau kêu gọi đình chỉ sáu tháng việc phát triển các hệ thống AI mạnh hơn GPT-4 để có thời gian giải quyết các vấn đề về an toàn và đạo đức của AI.

Vào đầu tháng này, Mustafa Suleyman, đồng sáng lập DeepMind và hiện là CEO của Inflection AI, đã phát biểu trong một cuộc phỏng vấn rằng ông tin rằng OpenAI đang bí mật đào tạo GPT-5. Suleyman bác bỏ suy đoán của hầu hết mọi người và gây áp lực lên OpenAI.

Ảnh chụp màn hình từ chương trình phỏng vấn "Giám đốc điều hành của Inflection AI Mustafa Suleyman nói về rủi ro của trí tuệ nhân tạo"

Tuy nhiên, có lẽ còn quá sớm để nói về GPT-5 lúc này, vì OpenAI vẫn chưa phản hồi những tin tức liên quan. Ngoài thông tin rằng mẫu máy bay lớn mới có tên mã là Gobi có thể chính là GPT-5 được đồn đoán, chúng ta không biết thêm thông tin nào khác. Ngay cả theo các báo cáo của phương tiện truyền thông nước ngoài, OpenAI dường như vẫn chưa bắt đầu đào tạo Gobi.

Nói một cách tương đối thì tình hình của GPT-Vision dễ theo dõi hơn.

Nhiều người hiện đang suy đoán rằng GPT-Vision có thể là chức năng đa phương thức đã được trình diễn trước đó tại hội nghị ra mắt GPT-4 vào tháng 3. Vào thời điểm đó, GPT-4 đã tạo ra mã trang web dựa trên một bản phác thảo viết tay đơn giản, gây chấn động thế giới.

Quá trình trình diễn tại hội nghị ra mắt GPT-4 vào tháng 3

Nhưng sau khoảnh khắc bất ngờ này, ngoài việc cung cấp cho Be My Eyes, một công ty sáng tạo công nghệ cho người khiếm thị, không có thêm thông tin nào về các bản cập nhật tính năng hoặc việc sử dụng thực tế, bao gồm các tính năng như hình ảnh Vincent.

Có lẽ lý do có thể được suy ra từ một báo cáo vào tháng 7 trên tờ The New York Times rằng OpenAI lo ngại tính năng này có thể bị lạm dụng để nhận dạng khuôn mặt và các mục đích khác. Kết hợp với những gì Sam Altman đã đề cập khi ông bác bỏ tin đồn trước đó, "OpenAI đang giải quyết nhiều vấn đề bảo mật khác nhau dựa trên GPT-4 đã bị bỏ qua trong bức thư ngỏ". Những lo ngại liên quan đến an ninh có thể đã được giải quyết.

Điều này cũng có nghĩa là loại rào cản này có khả năng sẽ được dỡ bỏ.

Theo The Information, OpenAI hy vọng có thể cung cấp khả năng hiểu hình ảnh rộng hơn dưới tên gọi "GPT-Vision", mở ra nhiều ứng dụng mới dựa trên hình ảnh cho GPT-4, chẳng hạn như tạo văn bản khớp với hình ảnh.

Trong khi đó, có tin đồn rằng DALL-E 3 cũng đang được phát triển và có thể được tích hợp vào ChatGPT hoặc GPT-4. Cả nó và GPT-Vision đều có thể được công bố tại Hội nghị các nhà phát triển OpenAI vào ngày 6 tháng 11, như CEO của OpenAI Sam Altman đã từng nói:

Sẽ có “những thứ tuyệt vời”, mặc dù không có gì lớn như GPT-4.5 hay GPT-5.

Nhìn chung, mặc dù GPT-5 vẫn chưa ra mắt, nhưng GPT-4 sẽ tập trung vào đa phương thức và một làn sóng AI mới để làm mới góc nhìn về khoa học và công nghệ có thể sẽ không còn xa nữa.

02#OpenAI và Google đang cạnh tranh

Khi đưa tin về động thái mới của OpenAI, truyền thông Trung Quốc và nước ngoài có quan điểm khá nhất quán và về cơ bản tin rằng động thái này nhắm vào Gemini của Google.

Theo các báo cáo phương tiện truyền thông vào ngày 14 tháng 9, trích dẫn ba người trực tiếp hiểu rõ vấn đề, Google đã cung cấp phiên bản đầu tiên của Gemini cho một số ít công ty và bán cho các doanh nghiệp thông qua dịch vụ điện toán đám mây của công ty, điều đó có nghĩa là Google đang cân nhắc việc kết hợp nó vào các dịch vụ tiêu dùng và việc phát hành Gemini có thể sẽ sớm diễn ra.

Gemini được biết đến là đỉnh cao công việc của Google. Từ tháng 4 năm nay, đã có nhiều bản tin đưa tin rằng những người tham gia dự án bao gồm những cái tên lớn như cựu nhà sáng lập DeepMind Demis Hassabis và nhà sáng lập Google Segey Brin cũng đã đích thân tham gia đào tạo Gemini.

Vào cuối tháng trước, các nhà phân tích Dylan Patel và Daniel Nishball của SemiAnalysis đã tiết lộ thêm thông tin có liên quan.

Dựa trên những thông tin hiện có, chúng ta có thể hiểu về Song Tử như sau:

1. Thế hệ Gemini đầu tiên phải được đào tạo trên TPUv4 và phải sử dụng số lượng chip ít hơn để đảm bảo độ tin cậy của chip và khả năng hoán đổi nóng. Hiện tại, nó đã bắt đầu được đào tạo trên TPUv5 Pod, có sức mạnh tính toán mạnh hơn gấp 5 lần so với GPT-4.

2. Cơ sở dữ liệu đào tạo của Gemini là 9,36 tỷ phút phụ đề video trên Youtube và tổng kích thước bộ dữ liệu gấp khoảng hai lần GPT-4.

3. Gemini bao gồm một nhóm các mô hình ngôn ngữ lớn , có thể sử dụng kiến trúc MOE và công nghệ lấy mẫu suy đoán để tạo ra các mã thông báo trước thông qua các mô hình nhỏ và truyền chúng đến các mô hình lớn để đánh giá, do đó cải thiện tốc độ suy luận tổng thể.

4. Gemini hỗ trợ chatbot, tóm tắt văn bản hoặc tạo văn bản gốc (như bản nháp email, lời bài hát hoặc bài báo) , tạo hình ảnh gốc, v.v.

5. Gemini hỗ trợ việc giúp đỡ các kỹ sư viết mã. Google hy vọng có thể cải thiện khả năng tạo mã của nhà phát triển để bắt kịp trợ lý mã GitHub Copilot của Microsoft, dựa trên OpenAI.

6. Các nhân viên của Google cũng đã thảo luận về việc sử dụng Gemini để triển khai các chức năng như phân tích biểu đồ, chẳng hạn như yêu cầu các mô hình giải thích ý nghĩa của biểu đồ và sử dụng lệnh văn bản hoặc giọng nói để duyệt các trang web hoặc phần mềm khác.

7. Gemini có nhiều phiên bản với nhiều kích cỡ khác nhau và các nhà phát triển có thể mua các phiên bản đơn giản hơn để xử lý các tác vụ đơn giản. Phiên bản này đủ nhỏ để chạy trên thiết bị đầu cuối cá nhân.

Điều đáng chú ý là Gemini có lợi thế hơn GPT-4 — ngoài thông tin công khai trên web, nó còn có thể khai thác kho dữ liệu độc quyền khổng lồ của Google từ các sản phẩm tiêu dùng của mình. Vì vậy, một số người tin rằng:

Mô hình này phải đặc biệt chính xác trong việc hiểu ý định của người dùng đối với một truy vấn cụ thể và dường như đưa ra ít câu trả lời sai hơn (tức là ảo giác).

Mặc dù Gemini vẫn chưa thực sự ra mắt nhưng nhiều người đã bày tỏ sự lạc quan về nó. Trong bài viết được đề cập ở trên, Dylan Patel và Daniel Nishball cũng bày tỏ quan điểm tương tự:

Tuyên bố có thể không rõ ràng là gã khổng lồ đang ngủ, Google đã thức dậy và họ đang lặp lại với tốc độ sẽ phá vỡ tổng số FLOPS trước khi đào tạo của GPT-4 lên gấp 5 lần trước khi kết thúc năm.

Chúng ta có thể thấy rằng mọi mục của Gemini đều được so sánh với GPT-4, điều này tất nhiên là không thể tránh khỏi. Suy cho cùng, trước khi ChatGPT ra đời, Google chính là người nắm giữ thanh kiếm AI.

Vì vậy, sự đồng thuận của công chúng là...

Vấn đề ở đây là Google nắm giữ tất cả chìa khóa của vương quốc này, nhưng họ lại làm rơi mất chiếc túi.

Dựa trên điều này, Google phải nỗ lực hơn nữa và đẩy nhanh quá trình chứng minh rằng họ vẫn có thể ghi điểm trong lĩnh vực AI. Google đã chọn cách trực tiếp chiếm lĩnh thị trường, cố gắng khẳng định vị thế trước khi OpenAI đưa ra được mô hình đa phương thức thực sự. Tất nhiên, OpenAI không có ý định để Google theo đuổi, đó là lý do tại sao GPT-Vision và Gobi ra đời.

Điều này cũng chỉ ra rằng trọng tâm của giai đoạn tiếp theo trong cuộc cạnh tranh AI sẽ là tính đa phương thức mà mỗi công ty đang phát triển. Xét cho cùng, AI tạo ra dưới dạng văn bản không còn là điều mới mẻ nữa, và dù thông minh đến đâu thì nó cũng chỉ có thể kém hơn so với ChatGPT mà thôi.

Tuy nhiên, ngày nay, chiến trường AI không còn là nơi hai đội quân giao chiến với nhau nữa. Google và OpenAI chỉ là những gã khổng lồ nổi bật hơn trong cuộc chiến này.

Cả hai công ty này, vốn cũng cần có lợi nhuận, đã bổ sung các yếu tố thương mại vào các dự án mô hình quy mô lớn của mình, chẳng hạn như các chính sách dành cho doanh nghiệp. Nhưng Meta, một công ty đến sau với cách tiếp cận khác, đã áp dụng lộ trình mã nguồn mở và liên tục phát hành các tính năng mới, tập trung chính vào số lượng lớn và miễn phí.

Thật khó để đánh giá liệu mọi người có chọn Meta vì chi phí hay không.

Có thể nói rằng cuộc chiến cận chiến AI hiện tại đã đạt đến giai đoạn bế tắc và căng thẳng tột độ. Ai sẽ là người lao ra tiếp theo? Để đạn bay một lúc.

<<: AI là một tính năng tiêu chuẩn của SaaS trong tương lai, nhưng nó không phải là thuốc chữa bách bệnh

>>: Nửa sau của ngành tiêu dùng mới đang “lăn lộn” về điều gì?

Khi nền kinh tế đi xuống, liệu hoạt động tiếp thị chỉ nên tập trung vào nỗ lực mà không phải là kết quả?

Thông tin

Những cơ hội tiềm năng cho thị trường tiêu dùng năm 2023 là gì?

Thông tin

Khám phá thị trường máy tính xách tay (Hiểu rõ các công ty dẫn đầu thị trường máy tính xách tay toàn cầu và các đối thủ cạnh tranh của họ)

Thông tin

6 chủ đề nóng nhất trong mục sức khỏe của Xiaohongshu

Thông tin

Tầm quan trọng của việc phân biệt tai nghe Bluetooth trái và phải (chìa khóa để cải thiện chất lượng âm nhạc và trải nghiệm người dùng)

Thông tin

Bất cứ ai chơi trò này đều sẽ trở nên nổi tiếng! Meme có trở thành một loại tiền tệ mạnh trong tiếp thị thương hiệu không?

Thông tin

Làm thế nào để thiết lập và hủy chức năng tắt máy tự động? (Thao tác đơn giản hướng dẫn bạn cách quản lý tắt máy tính tự động dễ dàng)

Thông tin

Khám phá các bước cài đặt chia đôi màn hình của OPPO Find X5 Pro (Cùng tìm hiểu cách sử dụng chức năng chia đôi màn hình để nâng cao hiệu quả làm việc và giải trí)

Thông tin

Nơi tìm kiếm quản lý quyền (Nơi tìm kiếm quản lý quyền)

Thông tin

Cách cắm và rút dây nguồn bo mạch chủ đúng cách (hướng dẫn chi tiết cách cắm và rút dây nguồn bo mạch chủ đúng cách)

Thông tin

Gợi ý

Tôi đã chi 5.000 nhân dân tệ để mua 20 khóa học về cách bán sản phẩm tốt trên Douyin, nhưng không có khóa học nào hữu ích!

Tác giả đã chi 5.000 nhân dân tệ để mua hơn 20 kh...

Điện thoại di động có thể sạc được bao nhiêu watt? (Khám phá giới hạn trên của công suất sạc điện thoại di động và tác động của nó đến người dùng)

Với sự phát triển nhanh chóng của công nghệ, điện ...

Thương hiệu số 1: 5 quy tắc chiến tranh kinh doanh giữa người thứ hai và người thứ nhất

Trong nhịp sống hối hả, các thương hiệu mới liên ...

Việc lập nhóm WeChat có hữu ích với các nhà hàng không?

Ngày nay, bất kỳ nhà hàng nào cũng sẽ thêm bạn và...

Tôi đã hoạt động được 14 năm! Chỉ đến lúc đó tôi mới hiểu được các kỹ thuật và phương pháp phân tích để tìm “tài khoản chuẩn” trên mọi nền tảng! Lần đầu tiên tiết lộ đầy đủ mà không có sự e ngại!

Là người làm việc trong ngành Internet, tôi tin r...

Luckin Coffee: “Tìm kiếm nóng trở lại”

Cách đây một thời gian, sự hợp tác giữa Luckin Co...

Sự khác biệt giữa hệ thống AP không dây và bộ định tuyến (làm sâu sắc thêm sự khác biệt giữa hệ thống AP không dây và bộ định tuyến để giúp bạn lựa chọn thiết bị tốt hơn)

Các thiết bị mạng không dây đã trở thành một phần ...

38 khuyến mãi lớn, dòng chảy ngầm

Sau Ngày Quốc tế Phụ nữ, chương trình khuyến mãi ...

Cách thiết lập phương thức nhập liệu cho iPhone (bốn bước đơn giản hướng dẫn bạn cách thiết lập phương thức nhập liệu cho iPhone)

Khi sử dụng điện thoại Apple, phương thức nhập liệ...

Sửa bàn phím không gõ được (Cách xử lý lỗi bàn phím và khắc phục sự cố bàn phím)

Tuy nhiên, khi bàn phím bị hỏng, chúng ta sẽ gặp r...

Cách giải quyết lỗi màn hình đen bản quyền Windows 7 (giải quyết lỗi màn hình đen bản quyền Windows 7 bằng cách kích hoạt)

Điều này gây ra màn hình đen và một số người dùng ...

GPT-5 sắp ra mắt? Mô hình lớn mới nhất của OpenAI đã được công bố!

01# “GPT-5” đã tiến triển đến đâu?

02#OpenAI và Google đang cạnh tranh

Khi nền kinh tế đi xuống, liệu hoạt động tiếp thị chỉ nên tập trung vào nỗ lực mà không phải là kết quả?

Những cơ hội tiềm năng cho thị trường tiêu dùng năm 2023 là gì?

Khám phá thị trường máy tính xách tay (Hiểu rõ các công ty dẫn đầu thị trường máy tính xách tay toàn cầu và các đối thủ cạnh tranh của họ)

6 chủ đề nóng nhất trong mục sức khỏe của Xiaohongshu

Tầm quan trọng của việc phân biệt tai nghe Bluetooth trái và phải (chìa khóa để cải thiện chất lượng âm nhạc và trải nghiệm người dùng)

Bất cứ ai chơi trò này đều sẽ trở nên nổi tiếng! Meme có trở thành một loại tiền tệ mạnh trong tiếp thị thương hiệu không?

Làm thế nào để thiết lập và hủy chức năng tắt máy tự động? (Thao tác đơn giản hướng dẫn bạn cách quản lý tắt máy tính tự động dễ dàng)

Khám phá các bước cài đặt chia đôi màn hình của OPPO Find X5 Pro (Cùng tìm hiểu cách sử dụng chức năng chia đôi màn hình để nâng cao hiệu quả làm việc và giải trí)

Nơi tìm kiếm quản lý quyền (Nơi tìm kiếm quản lý quyền)

Cách cắm và rút dây nguồn bo mạch chủ đúng cách (hướng dẫn chi tiết cách cắm và rút dây nguồn bo mạch chủ đúng cách)

Gợi ý

Tôi đã chi 5.000 nhân dân tệ để mua 20 khóa học về cách bán sản phẩm tốt trên Douyin, nhưng không có khóa học nào hữu ích!

Cách điều chỉnh mực nước của máy rửa chén đúng cách (Thành thạo các kỹ thuật điều chỉnh mực nước)

Ngôn ngữ và ý nghĩa của hoa hồng (khám phá ý nghĩa sâu sắc của hoa hồng)

Thông tin chính xác! Những cạm bẫy nào cần tránh trong tiếp thị vào năm 2023?

Hướng dẫn khôi phục hệ thống máy tính chỉ bằng một cú nhấp chuột (giải quyết dễ dàng các sự cố hệ thống máy tính)

Điện thoại di động có thể sạc được bao nhiêu watt? (Khám phá giới hạn trên của công suất sạc điện thoại di động và tác động của nó đến người dùng)

Thương hiệu số 1: 5 quy tắc chiến tranh kinh doanh giữa người thứ hai và người thứ nhất

Việc lập nhóm WeChat có hữu ích với các nhà hàng không?

Tôi đã hoạt động được 14 năm! Chỉ đến lúc đó tôi mới hiểu được các kỹ thuật và phương pháp phân tích để tìm “tài khoản chuẩn” trên mọi nền tảng! Lần đầu tiên tiết lộ đầy đủ mà không có sự e ngại!

Luckin Coffee: “Tìm kiếm nóng trở lại”

Sự khác biệt giữa hệ thống AP không dây và bộ định tuyến (làm sâu sắc thêm sự khác biệt giữa hệ thống AP không dây và bộ định tuyến để giúp bạn lựa chọn thiết bị tốt hơn)

38 khuyến mãi lớn, dòng chảy ngầm

Cách thiết lập phương thức nhập liệu cho iPhone (bốn bước đơn giản hướng dẫn bạn cách thiết lập phương thức nhập liệu cho iPhone)

Sửa bàn phím không gõ được (Cách xử lý lỗi bàn phím và khắc phục sự cố bàn phím)

Cách giải quyết lỗi màn hình đen bản quyền Windows 7 (giải quyết lỗi màn hình đen bản quyền Windows 7 bằng cách kích hoạt)