Ngày 17/7, OpenAI công bố ChatGPT Agent – một phần mở rộng của nền tảng ChatGPT, được thiết kế để thực hiện các tác vụ đa bước mà trước đây yêu cầu sự can thiệp trực tiếp của con người.

Công cụ này cho phép người dùng mô tả một mục tiêu bằng ngôn ngữ tự nhiên và để hệ thống xử lý toàn bộ quy trình từ tìm kiếm thông tin đến thao tác dữ liệu và xuất kết quả.

Khác với các phiên bản ChatGPT trước đây vốn chủ yếu phục vụ trao đổi văn bản hoặc tạo nội dung, ChatGPT Agent có khả năng tương tác với các thành phần như trình duyệt web, bảng tính, hệ thống tệp và dòng lệnh.

Ví dụ, người dùng có thể yêu cầu hệ thống tìm kiếm thông tin từ một trang web, tải tệp liên quan, phân tích dữ liệu trong file Excel và tạo một bản trình bày dựa trên kết quả phân tích đó.

j196n90c.png
ChatGPT Agent có thể điều khiển máy tính và làm việc thay cho con người. Ảnh: The Verge

Trong bản demo, OpenAI trình diễn các tiềm năng của ChatGPT Agent, như yêu cầu nó lên kế hoạch hẹn hò buổi tối bằng cách kết nối với Google Calendar để xem khi nào người dùng rảnh rỗi, rồi đối chiếu với ứng dụng OpenTable để tìm kiếm một số nhà hàng.

Người dùng có thể can thiệp vào quá trình này khi yêu cầu tìm kiếm một loại nhà hàng khác. Trong một ví dụ khác, OpenAI Agent được đề nghị viết báo cáo chung về cạnh tranh giữa hai loại búp bê Labubus và Beanie Babies.

Dù vậy, bản demo cũng cho thấy ChatGPT Agent hoạt động khá chậm. Đó là vì OpenAI tập trung vào tối ưu hóa các nhiệm vụ khó, và người dùng không cần phải ngồi xem ChatGPT Agent làm việc.

Theo nhà phát triển, dù thời gian là 15 phút hay nửa tiếng, nó cũng là bước tiến đáng kể về thời gian nếu để con người tự thực hiện.

OpenAI cho biết công cụ được tích hợp các biện pháp kiểm soát nhằm bảo đảm quyền riêng tư và an toàn. ChatGPT Agent sẽ yêu cầu sự cho phép của người dùng trước khi thực hiện các hành động có thể ảnh hưởng đến tài khoản, dữ liệu hoặc hệ thống bên ngoài.

Các biện pháp kỹ thuật như phát hiện hành vi bất thường và ngăn chặn các dạng tấn công qua lời nhắc (prompt injection) cũng được triển khai.

Hiện tại, công cụ chưa thể thực hiện các giao dịch tài chính. OpenAI cũng bổ sung lớp bảo vệ có tên Watch Mode, trong đó, nếu người dùng đang điều hướng đến một danh mục website nào đó, chẳng hạn website tài chính, họ không được rời khỏi tab ChatGPT Agent đang hoạt động, nếu không công cụ sẽ ngừng hoạt động.

Về mặt hiệu suất, OpenAI báo cáo rằng ChatGPT Agent đạt kết quả cao trong các bộ đánh giá kỹ thuật như SpreadsheetBench và FrontierMath – những chuẩn thử nghiệm khả năng giải quyết tác vụ nhiều bước và tính đúng của đầu ra.

Một số bài thử nghiệm cho thấy hệ thống có thể hoàn thành công việc tương đương với nhân sự ở các vị trí nghiệp vụ cơ bản trong lĩnh vực tài chính và hành chính.

ChatGPT Agent hiện được triển khai giới hạn cho người dùng trả phí thuộc các gói Pro, Plus và Team trên nền tảng ChatGPT. Theo OpenAI, tính năng này sẽ được mở rộng trong các tuần tới, đồng thời chưa khả dụng tại một số khu vực như Liên minh châu Âu do yêu cầu tuân thủ quy định dữ liệu địa phương.

Sự xuất hiện của ChatGPT Agent đánh dấu bước tiến tiếp theo trong xu hướng phát triển các hệ thống AI có khả năng hành động độc lập theo chỉ dẫn, nhằm hỗ trợ hoặc thay thế một phần quy trình làm việc của con người trong các môi trường số.

OpenAI cho biết sẽ tiếp tục điều chỉnh và mở rộng tính năng này dựa trên phản hồi của người dùng và các điều kiện kỹ thuật trong quá trình triển khai thực tế.

Thuật ngữ “AI Agent” (tác nhân AI) trở nên phổ biến từ năm 2023 và nhanh chóng tăng tốc, đặc biệt sau khi công ty fintech Klarna thông báo hồi tháng 2/2024 rằng chỉ trong một tháng hoạt động, AI Agent của họ đã xử lý 2/3 các cuộc trò chuyện chăm sóc khách hàng, tương đương 700 nhân sự toàn thời gian.

Amazon, Meta và Google đều có những tham vọng riêng với AI Agent. Tuần trước, Google tuyển dụng CEO Windsurf và một số nhân sự của công ty để giúp thúc đẩy các dự án tác nhân AI.