ChatGPT giờ đã biết nhìn, biết nghe và biết nói

(KTSG) – Nhân vật chính trong phim khoa học viễn tưởng Her có thể trò chuyện với chiếc máy tính y như đang nói với người bạn thân thiết nhất. Câu chuyện giả tưởng này nay đã biến thành sự thật, sau khi ChatGPT nâng cấp phiên bản mới nhất cài trên điện thoại giúp người dùng trò chuyện bình thường với con chatbot thông minh này chứ không cần phải gõ bàn phím như trước nữa.
Những người trải nghiệm phiên bản mới này cho biết ChatGPT không chỉ giống Siri trên iPhone hay Alexa trên loa thông minh của Amazon, nó trò chuyện tự nhiên hơn nhiều, trả lời hầu như các câu hỏi và nghe qua khó lòng phân biệt đâu là người, đâu là máy. Ngoài ra ChatGPT còn được nâng cấp để hiểu nội dung các tấm ảnh tải lên cho nó xem, như đưa cho nó tấm hình chụp trang nhất một tờ báo, nó sẽ miêu tả cặn kẽ những gì tin gì đăng trên trang đó. Nói cách khác, ChatGPT giờ đã biết nhìn, biết nghe và biết nói.
ChatGPT giờ đã biết nhìn, biết nghe và biết nói
Không giống Siri hay Alexa, để gọi ChatGPT không cần dùng một từ đánh thức nào như kiểu “Hey, Siri” hay “OK, Google”. Trên menu cài đặt của ứng dụng, chỉ cần kích hoạt “Voice conversions” và nhấn vào biểu tượng tai nghe ở góc trên bên phải là máy bắt đầu nghe rồi trò chuyện với bạn. Có một nút để ngưng các câu trả lời dài dòng. Nên nhớ ChatGPT biết nói chỉ có trên phiên bản ChatGPT Plus, tức phiên bản phải trả 20 đô la mỗi tháng.

Phóng viên tờ Wall Street Journal thử yêu cầu nó giải thích trò chơi Pokémon là gì như thể đang trò chuyện với đứa bé 6 tuổi, nó kiên nhẫn giải thích bằng các từ dễ hiểu, câu ngắn gọn như thể một người lớn đang bày vẽ cho một em bé. Phóng viên sau đó yêu cầu nó giả vờ làm người bạn thân để trò chuyện trong vòng 5 phút, thế là hai người nói về đủ thứ chuyện, như vui buồn ở chỗ làm, các món ăn dự tính sẽ nấu tối nay…

Hiện nay ứng dụng vẫn còn nhiều vấn đề như thời gian hồi đáp còn rất chậm, đôi lúc kết nối bị ngắt nửa chừng, có lúc cuộc trò chuyện đột ngột kết thúc. OpenAI cho biết sẽ cải thiện dần ứng dụng trong thời gian tới để khắc phục các nhược điểm này. Phóng viên tờ New York Times yêu cầu nó đánh vần chữ “gym” (phòng tập thể hình) thì nó nhầm sang tên người “Jim”. Tuy nhiên khi nhắc nó, “Không phải. Chữ “gym” kia kìa” thì nó đánh vần đúng. Hiện nay người dùng có thể chọn 1 trong 5 giọng nói có sẵn, có cả giọng nam và giọng nữ.

Trong khi Siri hay Alexa chỉ có thể thực hiện một số lệnh như “Alexa, bật đèn”, “Hey Siri, chơi bản Hello của Adele” hay trả lời một số câu hỏi đơn giản đã đưa vào cơ sở dữ liệu của chúng, ChatGPT hoạt động như một mô hình ngôn ngữ lớn nên sẵn sàng nói về đủ loại đề tài, trả lời mọi câu hỏi một cách tự tin dù đôi lúc nó đưa ra thông tin sai hay trộn lẫn chuyện sai với chuyện đúng. Rất có thể chỉ một thời gian ngắn nữa chúng ta sẽ có trong tay chiếc điện thoại cài sẵn ứng dụng “biết tuốt”, hỏi gì đáp nấy chứ không cần gõ vào ô tìm kiếm thông tin nữa.

Với chức năng nhìn, ứng dụng có biểu tượng dấu “+” khi nhấp vào có thể tải lên hình ảnh rồi khoanh vùng cần tập trung trò chuyện. Sau đó có thể tiến hành hỏi đáp với ChatGPT về tấm hình đó. Chẳng hạn có người chụp hình ống nước bị hỏng rồi hỏi “Làm sao để sửa cái này?”, ChatGPT sẽ đưa ra lời khuyên cặn kẽ những bước cần làm để sửa chữa ống nước. Có người chụp ảnh các thứ bên trong chiếc tủ lạnh rồi đưa cho ChatGPT, nó sẽ gợi ý các món có thể nấu với các nguyên liệu có sẵn. Theo tờ New York Times, nếu cung cấp cho nó hình chụp một bài toán có cả từ, số và hình vẽ, nó có thể đọc đề toán rồi giải nhanh như chớp.

Không chỉ OpenAI, các hãng công nghệ lớn đang đua nhau tích hợp chức năng nghe nói cho các hệ thống trí tuệ nhân tạo của họ. Amazon đang cố gắng nâng cấp Alexa để huấn luyện cho nó khả năng đối đáp uyển chuyển hơn, về nhiều đề tài hơn. Apple, rất kín tiếng về các nỗ lực xây dựng mô hình để cạnh tranh với ChatGPT cũng vừa thử nghiệm hệ thống AI của riêng mình. Trước đó, Microsoft đã tích hợp chức năng tìm kiếm dựa vào hình cho Bing. Riêng Google đang xây dựng mô hình AI mang tên Gemini xử lý được đầu vào không chỉ là văn bản mà còn cả video, hình ảnh, âm thanh, giọng nói…

Công nghệ chuyển văn bản thành giọng nói của OpenAI cũng mở ra cơ hội cho hãng này hợp tác với nhiều nơi khác. Chẳng hạn, Spotify cho biết họ sẽ sử dụng công nghệ giọng nói của OpenAI để dịch tự động các podcast của mình sang đủ loại ngôn ngữ khác bằng đúng giọng nói trên podcast nguyên thủy. Cũng có những lo ngại OpenAI sẽ thu thập rất nhiều giọng nói của người dùng để đưa vào cơ sở dữ liệu của họ – đây sẽ là nơi tiềm ẩn sản sinh các mẫu giả giọng người khác cho những mục đích xấu nếu không có biện pháp phòng ngừa từ trước.

Nguyễn Vũ
0 Nhận xét