Công cụ có thể diễn giải hình ảnh bằng từ được chờ đợi lâu này không chỉ là một bước tiến vượt bậc về sức mạnh của trí tuệ nhân tạo (AI) mà còn một bước chuyển lớn đối với các chuẩn mực đạo đức.
GPT-4 làm được gì?
Ngày 14 Tháng Ba, Phòng thí nghiệm nghiên cứu trí tuệ nhân tạo OpenAI ở San Francisco đã chính thức ra mắt phiên bản mới nhất của phần mềm ngôn ngữ, GPT-4, một công cụ tiên tiến có thể phân tích hình ảnh và bắt chước lời nói của con người, làm lu mờ thêm ranh giới của công nghệ và đạo đức trong cơn sốt AI đang phát triển vũ bão. Phần mềm ChatGPT trước đó của OpenAI đã làm công chúng ngạc nhiên khi nó có khả năng tạo ra những bài luận, kịch bản tuyệt vời, những màn hỏi đáp khá chuẩn và trở nên nhanh chóng phổ biến từ trường học đến gia đình, dù ChatGPT dựa trên một thế hệ công nghệ cũ có trước một năm chứ không phải tiên tiến nhất.
Ngược lại, GPT-4 là một hệ thống tiên tiến mới có khả năng tạo ra không chỉ văn bản trả lời mà còn giải thích được hình ảnh đưa lên theo lệnh viết đơn giản của người sử dụng. Ví dụ: Khi upload ảnh chụp một chiếc găng tay đấm bốc treo trên một chiếc bập bênh bằng gỗ với một quả bóng ở một bên, bạn có thể hỏi GPT-4 điều gì sẽ xảy ra nếu chiếc găng tay này rơi xuống, và nó sẽ trả lời bằng giọng nói: “Găng tay sẽ đập vào chiếc bập bênh và làm cho quả bóng bay lên”!
GPT-4 ra mắt ồn ào sau nhiều tháng quảng cáo mà OpenAI tuyên bố “là bước tiến ấn tượng về khả năng suy luận và học hỏi những điều mới của AI”. Thật ra chatbot Bing AI được phát hành vào tháng trước đã sử dụng GPT-4 trong một số người giới hạn. Các nhà phát triển của OpenAI rất tự tin khi viết trong một bài đăng trên blog rằng “GPT-4 có thể cách mạng hóa hơn nữa công việc và cuộc sống”.
Nhưng GPT-4 cũng làm dấy lên hai mối lo: Con người mất công ăn việc làm và liệu có nên tin tưởng vào độ chính xác của những gì bạn nhìn thấy trên mạng? OpenAI trấn an: “Quá trình đào tạo đa phương thức (multimodal) của GPT-4 trên văn bản và hình ảnh sẽ cho phép nó thoát khỏi hộp trò chuyện gò bó và biết giải thích đầy đủ hơn về thế giới màu sắc, hình ảnh; đồng thời vượt qua ChatGPT về khả năng suy luận nâng cao (advanced reasoning capability). Bạn có thể tải lên một hình ảnh và GPT-4 có thể giải thích hình ảnh đó, từ các vật thể trong ảnh và cảnh quan chung quanh, giống như một chú thích ảnh”.
Nhưng OpenAI hoãn lại việc phát hành tính năng giải thích hình ảnh do lo ngại bị lạm dụng xâm phạm đời tư cá nhân. Phiên bản GPT-4 dành cho các thành viên thử nghiệm dịch vụ ChatGPT Plus có đăng ký của OpenAI cũng chỉ có khả năng giải thích văn bản (text) chứ chưa có khả năng giải thích hình ảnh. Sandhini Agarwal, Chuyên viên nghiên cứu chính sách của OpenAI, giải thích với giới báo chí trong cuộc họp báo ngày 14 Tháng Ba là “công ty đã giữ lại tính năng này để tìm hiểu thêm về những rủi ro tiềm ẩn”.
Trong bài đăng trên blog công ty, OpenAI cho biết GPT-4 vẫn mắc nhiều lỗi của các phiên bản trước, gồm cả những từ vô lý, mang thành kiến xã hội và những lời khuyên tồi. Nó cũng thiếu kiến thức về các sự kiện xảy ra sau Tháng Chín 2021 vì dữ liệu nó học được trong thời gian này chưa hoàn tất và bị hạn chế khi tiếp thu một số thông tin mới.
Microsoft đã đầu tư hàng tỷ đôla vào OpenAI với hy vọng AI sẽ trang bị “vũ khí bí mật” cho phần mềm làm việc của hãng, công cụ tìm kiếm và các tham vọng trực tuyến khác. OpenAI đã tiếp thị công nghệ AI như “Một người bạn đồng hành siêu hiệu quả có thể giải quyết nhiều công việc mà không cần động não để cho phép chúng ta tập trung vào hoạt động sáng tạo, phát minh. AI cũng giúp một nhà phát triển phần mềm làm thay công việc của cả nhóm hoặc cho phép một cửa hàng nhỏ lẻ thiết kế một chiến dịch quảng cáo chuyên nghiệp mà không cần sự giúp đỡ từ tư vấn bên ngoài tốn kém”.
Tuy nhiên, những gì AI có thể làm sẽ dẫn đến các mô hình kinh doanh và dự án sáng tạo không ai có thể đoán được là có lợi hay có hại. Những tiến bộ nhanh chóng của AI, cùng với sự phổ biến rộng rãi của ChatGPT, đã thúc đẩy một cuộc chạy đua tiêu tốn hàng tỷ đôla với hy vọng trở thành kẻ đi đầu trong cuộc đua với các phần mềm AI mới độc đáo nhất.
Cơn sốt AI cũng dẫn đến những lời chỉ trích là các công ty quá vội vã khai thác một công nghệ chưa được kiểm chứng hoàn toàn, chưa được kiểm soát và không thể đoán trước, dẫn đến các tác hại trong thế giới thực. Phần mềm AI cũng thường “tự tin” trả lời… sai vì chúng được thiết kế để đưa ra các cụm từ có sức thuyết phục chứ không phải sự thật thực tế. Vì chúng được nhồi văn bản và hình ảnh trên internet nên chúng cũng học cả những thành kiến về chủng tộc, giới tính, tôn giáo và giai cấp có sẵn trên mạng.
Và các kỳ vọng không bao giờ ngừng
OpenAI cho biết mô hình mới GPT-4 có thể xử lý hơn 25,000 từ văn bản, một bước tiến nhảy vọt tạo điều kiện cho các cuộc hỏi đáp dài hơn và cho phép tìm kiếm, phân tích các tài liệu dài. Tính năng phân tích hình ảnh, chỉ có sẵn ở dạng thử nghiệm dành cho những người được chọn, cũng cho phép GPT-4 xem hình ảnh đồ ăn trong nhà bếp của chủ nhân và đưa ra một số ý tưởng về bữa ăn. Các nhà phát triển cho biết họ sẽ xây dựng các ứng dụng (app) có thể làm việc chung với GPT-4 nhờ giao diện API cho phép kết nối các phần mềm khác nhau.
Duolingo, ứng dụng học ngôn ngữ, đã sử dụng GPT-4 để giới thiệu các tính năng mới, chẳng hạn như cho người dùng biết lý do tại sao câu trả lời của họ không chính xác. GPT-4 cũng sẽ cạnh tranh trong lĩnh vực AI đa giác quan (multisensory AI) đang phát triển. Năm ngoái, DeepMind (một công ty AI do công ty mẹ Alphabet của Google làm chủ) đã phát hành mô hình “tổng quát” Gato có thể giải thích được hình ảnh và chơi trò chơi điện tử – The Washington Post cho biết.
Trong tháng này, Google cũng phát hành một hệ thống đa phương thức PaLM-E kết hợp chuyên môn về ngôn ngữ và quan sát của AI thành một robot đi trên bánh xe mà nếu ai đó bảo nó đi lấy một số con chip, nó sẽ tiến đến ngăn kéo chứa chip và chọn số chip phù hợp. Những thành tựu như vậy đã truyền cảm hứng cho sự lạc quan về tiềm năng của AI và một số người tin rằng sự thông minh của nó sẽ sớm ngang bằng với con người.
Các hệ thống AI như GPT-4 được học trước bằng cách phân tích hàng nghìn tỷ từ và hình ảnh được lấy từ khắp nơi trên internet như các bài báo, đánh giá về nhà hàng, các bảng tin; meme, ảnh gia đình, tác phẩm nghệ thuật… Các cụm siêu máy tính khổng lồ gồm các chip xử lý đồ họa sẽ giúp AI bắt chước các mẫu, tự động tạo các văn bản dài hoặc hình ảnh chi tiết (một từ hoặc pixel ảnh) tại một thời điểm. “Tuy nhiên, các hệ thống AI chỉ đơn thuần lặp lại các mẫu và liên kết được tìm thấy trong kho dữ liệu khổng lồ chúng học được mà không hiểu rõ dữ liệu nói gì hoặc khi nào nói sai!” – những người thận trọng nêu ý kiến.