GPT-5 sắp ra mắt? Mô hình lớn mới nhất của OpenAI đã được công bố!

GPT-5 sắp ra mắt? Mô hình lớn mới nhất của OpenAI đã được công bố!

Trong thời gian gần đây, sự tiến bộ của Google trong các mô hình AI lớn đã thu hút rất nhiều sự chú ý.

Nhưng khi mọi người đang xoa tay, cố gắng chờ xem Google sẽ xoay chuyển tình thế như thế nào, OpenAI, ông trùm trong lĩnh vực mô hình AI lớn, một lần nữa công bố tin tức quan trọng.

Theo truyền thông nước ngoài The Information, OpenAI sắp ra mắt mô hình đa phương thức GPT-Vision . Tiêu đề của bài viết nêu rõ rằng điều này được dùng để đáp trả Google.

Mặc dù phiên bản mới chưa thực sự ra mắt nhưng cũng đủ để chúng ta có cái nhìn thoáng qua về giai đoạn tiếp theo của trọng tâm cạnh tranh trong đường đua này - đa phương thức.

01# “GPT-5” đã tiến triển đến đâu?

Theo The Information, OpenAI đang chuẩn bị ra mắt chức năng hiểu hình ảnh GPT-Vision dựa trên GPT-4. Điều này tương đương với việc tăng sức mạnh cho GPT-4 và cải thiện nó từng bước một. Trong mọi trường hợp, GPT-4 vẫn được công nhận là người dẫn đầu trong lĩnh vực AI.

Ngoài ra, báo cáo cũng đề cập rằng OpenAI có thể ra mắt một mô hình lớn có tên mã là "Gobi" theo tên GPT-Vision. Không giống như GPT-4, cái gọi là Gobi "mạnh hơn" được xây dựng theo mô hình đa phương thức ngay từ đầu.

Thế giới bên ngoài đã coi mô hình lớn mới này là ứng cử viên mạnh cho GPT-5, vì hầu hết mọi người không tin vào những tin đồn trước đó đã bị Sam Altman, CEO kiêm đồng sáng lập của OpenAI, bác bỏ tại một sự kiện của MIT:

Chúng tôi hiện không đào tạo GPT-5 và sẽ không đào tạo nó trong thời gian ngắn.
Sam Altman trả lời tin đồn về GPT-5 tại MIT

Suy cho cùng, tuyên bố này chủ yếu được dùng để phản hồi bức thư ngỏ "Tạm dừng các thí nghiệm AI khổng lồ". Vào ngày 29 tháng 3, hàng nghìn người trong ngành công nghệ, bao gồm cả CEO Tesla Elon Musk, đồng sáng lập Apple Steve Wozniak và người đoạt giải Turing Yoshua Bengio, đã cùng nhau kêu gọi đình chỉ sáu tháng việc phát triển các hệ thống AI mạnh hơn GPT-4 để có thời gian giải quyết các vấn đề về an toàn và đạo đức của AI.

Vào đầu tháng này, Mustafa Suleyman, đồng sáng lập DeepMind và hiện là CEO của Inflection AI, đã phát biểu trong một cuộc phỏng vấn rằng ông tin rằng OpenAI đang bí mật đào tạo GPT-5. Suleyman bác bỏ suy đoán của hầu hết mọi người và gây áp lực lên OpenAI.

Ảnh chụp màn hình từ chương trình phỏng vấn "Giám đốc điều hành của Inflection AI Mustafa Suleyman nói về rủi ro của trí tuệ nhân tạo"

Tuy nhiên, có lẽ còn quá sớm để nói về GPT-5 lúc này, vì OpenAI vẫn chưa phản hồi những tin tức liên quan. Ngoài thông tin rằng mẫu máy bay lớn mới có tên mã là Gobi có thể chính là GPT-5 được đồn đoán, chúng ta không biết thêm thông tin nào khác. Ngay cả theo các báo cáo của phương tiện truyền thông nước ngoài, OpenAI dường như vẫn chưa bắt đầu đào tạo Gobi.

Nói một cách tương đối thì tình hình của GPT-Vision dễ theo dõi hơn.

Nhiều người hiện đang suy đoán rằng GPT-Vision có thể là chức năng đa phương thức đã được trình diễn trước đó tại hội nghị ra mắt GPT-4 vào tháng 3. Vào thời điểm đó, GPT-4 đã tạo ra mã trang web dựa trên một bản phác thảo viết tay đơn giản, gây chấn động thế giới.

Quá trình trình diễn tại hội nghị ra mắt GPT-4 vào tháng 3

Nhưng sau khoảnh khắc bất ngờ này, ngoài việc cung cấp cho Be My Eyes, một công ty sáng tạo công nghệ cho người khiếm thị, không có thêm thông tin nào về các bản cập nhật tính năng hoặc việc sử dụng thực tế, bao gồm các tính năng như hình ảnh Vincent.

Có lẽ lý do có thể được suy ra từ một báo cáo vào tháng 7 trên tờ The New York Times rằng OpenAI lo ngại tính năng này có thể bị lạm dụng để nhận dạng khuôn mặt và các mục đích khác. Kết hợp với những gì Sam Altman đã đề cập khi ông bác bỏ tin đồn trước đó, "OpenAI đang giải quyết nhiều vấn đề bảo mật khác nhau dựa trên GPT-4 đã bị bỏ qua trong bức thư ngỏ". Những lo ngại liên quan đến an ninh có thể đã được giải quyết.

Điều này cũng có nghĩa là loại rào cản này có khả năng sẽ được dỡ bỏ.

Theo The Information, OpenAI hy vọng có thể cung cấp khả năng hiểu hình ảnh rộng hơn dưới tên gọi "GPT-Vision", mở ra nhiều ứng dụng mới dựa trên hình ảnh cho GPT-4, chẳng hạn như tạo văn bản khớp với hình ảnh.

Trong khi đó, có tin đồn rằng DALL-E 3 cũng đang được phát triển và có thể được tích hợp vào ChatGPT hoặc GPT-4. Cả nó và GPT-Vision đều có thể được công bố tại Hội nghị các nhà phát triển OpenAI vào ngày 6 tháng 11, như CEO của OpenAI Sam Altman đã từng nói:

Sẽ có “những thứ tuyệt vời”, mặc dù không có gì lớn như GPT-4.5 hay GPT-5.

Nhìn chung, mặc dù GPT-5 vẫn chưa ra mắt, nhưng GPT-4 sẽ tập trung vào đa phương thức và một làn sóng AI mới để làm mới góc nhìn về khoa học và công nghệ có thể sẽ không còn xa nữa.

02#OpenAI và Google đang cạnh tranh

Khi đưa tin về động thái mới của OpenAI, truyền thông Trung Quốc và nước ngoài có quan điểm khá nhất quán và về cơ bản tin rằng động thái này nhắm vào Gemini của Google.

Theo các báo cáo phương tiện truyền thông vào ngày 14 tháng 9, trích dẫn ba người trực tiếp hiểu rõ vấn đề, Google đã cung cấp phiên bản đầu tiên của Gemini cho một số ít công ty và bán cho các doanh nghiệp thông qua dịch vụ điện toán đám mây của công ty, điều đó có nghĩa là Google đang cân nhắc việc kết hợp nó vào các dịch vụ tiêu dùng và việc phát hành Gemini có thể sẽ sớm diễn ra.

Gemini được biết đến là đỉnh cao công việc của Google. Từ tháng 4 năm nay, đã có nhiều bản tin đưa tin rằng những người tham gia dự án bao gồm những cái tên lớn như cựu nhà sáng lập DeepMind Demis Hassabis và nhà sáng lập Google Segey Brin cũng đã đích thân tham gia đào tạo Gemini.

Vào cuối tháng trước, các nhà phân tích Dylan Patel và Daniel Nishball của SemiAnalysis đã tiết lộ thêm thông tin có liên quan.

Dựa trên những thông tin hiện có, chúng ta có thể hiểu về Song Tử như sau:

1. Thế hệ Gemini đầu tiên phải được đào tạo trên TPUv4 và phải sử dụng số lượng chip ít hơn để đảm bảo độ tin cậy của chip và khả năng hoán đổi nóng. Hiện tại, nó đã bắt đầu được đào tạo trên TPUv5 Pod, có sức mạnh tính toán mạnh hơn gấp 5 lần so với GPT-4.

2. Cơ sở dữ liệu đào tạo của Gemini là 9,36 tỷ phút phụ đề video trên Youtube và tổng kích thước bộ dữ liệu gấp khoảng hai lần GPT-4.

3. Gemini bao gồm một nhóm các mô hình ngôn ngữ lớn , có thể sử dụng kiến ​​trúc MOE và công nghệ lấy mẫu suy đoán để tạo ra các mã thông báo trước thông qua các mô hình nhỏ và truyền chúng đến các mô hình lớn để đánh giá, do đó cải thiện tốc độ suy luận tổng thể.

4. Gemini hỗ trợ chatbot, tóm tắt văn bản hoặc tạo văn bản gốc (như bản nháp email, lời bài hát hoặc bài báo) , tạo hình ảnh gốc, v.v.

5. Gemini hỗ trợ việc giúp đỡ các kỹ sư viết mã. Google hy vọng có thể cải thiện khả năng tạo mã của nhà phát triển để bắt kịp trợ lý mã GitHub Copilot của Microsoft, dựa trên OpenAI.

6. Các nhân viên của Google cũng đã thảo luận về việc sử dụng Gemini để triển khai các chức năng như phân tích biểu đồ, chẳng hạn như yêu cầu các mô hình giải thích ý nghĩa của biểu đồ và sử dụng lệnh văn bản hoặc giọng nói để duyệt các trang web hoặc phần mềm khác.

7. Gemini có nhiều phiên bản với nhiều kích cỡ khác nhau và các nhà phát triển có thể mua các phiên bản đơn giản hơn để xử lý các tác vụ đơn giản. Phiên bản này đủ nhỏ để chạy trên thiết bị đầu cuối cá nhân.

Điều đáng chú ý là Gemini có lợi thế hơn GPT-4 — ngoài thông tin công khai trên web, nó còn có thể khai thác kho dữ liệu độc quyền khổng lồ của Google từ các sản phẩm tiêu dùng của mình. Vì vậy, một số người tin rằng:

Mô hình này phải đặc biệt chính xác trong việc hiểu ý định của người dùng đối với một truy vấn cụ thể và dường như đưa ra ít câu trả lời sai hơn (tức là ảo giác).

Mặc dù Gemini vẫn chưa thực sự ra mắt nhưng nhiều người đã bày tỏ sự lạc quan về nó. Trong bài viết được đề cập ở trên, Dylan Patel và Daniel Nishball cũng bày tỏ quan điểm tương tự:

Tuyên bố có thể không rõ ràng là gã khổng lồ đang ngủ, Google đã thức dậy và họ đang lặp lại với tốc độ sẽ phá vỡ tổng số FLOPS trước khi đào tạo của GPT-4 lên gấp 5 lần trước khi kết thúc năm.

Chúng ta có thể thấy rằng mọi mục của Gemini đều được so sánh với GPT-4, điều này tất nhiên là không thể tránh khỏi. Suy cho cùng, trước khi ChatGPT ra đời, Google chính là người nắm giữ thanh kiếm AI.

Vì vậy, sự đồng thuận của công chúng là...

Vấn đề ở đây là Google nắm giữ tất cả chìa khóa của vương quốc này, nhưng họ lại làm rơi mất chiếc túi.

Dựa trên điều này, Google phải nỗ lực hơn nữa và đẩy nhanh quá trình chứng minh rằng họ vẫn có thể ghi điểm trong lĩnh vực AI. Google đã chọn cách trực tiếp chiếm lĩnh thị trường, cố gắng khẳng định vị thế trước khi OpenAI đưa ra được mô hình đa phương thức thực sự. Tất nhiên, OpenAI không có ý định để Google theo đuổi, đó là lý do tại sao GPT-Vision và Gobi ra đời.

Điều này cũng chỉ ra rằng trọng tâm của giai đoạn tiếp theo trong cuộc cạnh tranh AI sẽ là tính đa phương thức mà mỗi công ty đang phát triển. Xét cho cùng, AI tạo ra dưới dạng văn bản không còn là điều mới mẻ nữa, và dù thông minh đến đâu thì nó cũng chỉ có thể kém hơn so với ChatGPT mà thôi.

Tuy nhiên, ngày nay, chiến trường AI không còn là nơi hai đội quân giao chiến với nhau nữa. Google và OpenAI chỉ là những gã khổng lồ nổi bật hơn trong cuộc chiến này.

Cả hai công ty này, vốn cũng cần có lợi nhuận, đã bổ sung các yếu tố thương mại vào các dự án mô hình quy mô lớn của mình, chẳng hạn như các chính sách dành cho doanh nghiệp. Nhưng Meta, một công ty đến sau với cách tiếp cận khác, đã áp dụng lộ trình mã nguồn mở và liên tục phát hành các tính năng mới, tập trung chính vào số lượng lớn và miễn phí.

Thật khó để đánh giá liệu mọi người có chọn Meta vì chi phí hay không.

Có thể nói rằng cuộc chiến cận chiến AI hiện tại đã đạt đến giai đoạn bế tắc và căng thẳng tột độ. Ai sẽ là người lao ra tiếp theo? Để đạn bay một lúc.

<<:  AI là một tính năng tiêu chuẩn của SaaS trong tương lai, nhưng nó không phải là thuốc chữa bách bệnh

>>:  Nửa sau của ngành tiêu dùng mới đang “lăn lộn” về điều gì?

Gợi ý

Làm thế nào để bố trí và tối ưu hóa từ khóa cho Xiaohongshu vào năm 2025?

Trong hệ sinh thái nội dung của Xiaohongshu, bố c...

iPhone 6s có bao nhiêu bộ nhớ? (Dung lượng bộ nhớ mới nhất của điện thoại)

Điện thoại di động có thể bị đơ trong quá trình sử...

Dịch vụ trọn gói giá vệ sinh máy hút mùi toàn diện Jinhua (hiểu giá dịch vụ vệ sinh)

Cùng với việc mức sống được cải thiện, máy hút mùi...

Tại sao tôi ngừng học toán? Chia sẻ kinh nghiệm khởi nghiệp của tôi trong năm nay

Tác giả nhận thấy rằng hoạt động không phải là yế...

Bốn mô hình suy luận nhân quả thực sự hiệu quả!

Trong số nhiều thách thức trong phân tích dữ liệu...

chi tiết! 7 Loại Hướng Dẫn Viết Báo Cáo Phân Tích Dữ Liệu

Bài viết này chủ yếu chia sẻ bảy loại phương pháp...