Các nhà nghiên cứu đã giới thiệu Ragen, một khung AI được thiết kế để chống lại sự bất ổn của tác nhân LLM khi xử lý các tình huống phức tạp.
Đào tạo các đại lý AI này trình bày những rào cản đáng kể, đặc biệt là khi các quyết định trải rộng nhiều bước và liên quan đến phản hồi không thể đoán trước từ môi trường. Mặc dù học tập củng cố (RL) đã cho thấy lời hứa trong các nhiệm vụ tĩnh như giải quyết các vấn đề toán học hoặc tạo mã, nhưng ứng dụng của nó vào đào tạo đại lý đa năng động, đã được khám phá ít hơn.
Giải quyết khoảng cách này, một nhóm hợp tác từ các tổ chức bao gồm Đại học Tây BắcThì Đại học StanfordThì MicrosoftVà Đại học New York đã đề xuất STARPO (tối ưu hóa chính sách về hành động trạng thái-hành động).
Starpo cung cấp một cách tiếp cận tổng quát cho các tác nhân đào tạo ở cấp độ quỹ đạo (tức là nó tối ưu hóa toàn bộ chuỗi tương tác, không chỉ các hành động cá nhân.)
Đi cùng đây là Ragen, một hệ thống mô -đun được xây dựng để triển khai StarPO. Điều này cho phép đào tạo và đánh giá các đại lý LLM, đặc biệt tập trung vào khả năng lý luận của họ theo RL. Ragen cung cấp cơ sở hạ tầng cần thiết cho các triển khai, gán phần thưởng và tối ưu hóa trong môi trường nhiều lượt, ngẫu nhiên (xác định ngẫu nhiên).
Môi trường tối giản, cái nhìn sâu sắc tối đa
Để cô lập các thách thức học tập cốt lõi khỏi các yếu tố gây nhiễu như kiến thức tồn tại từ trước hoặc kỹ thuật dành riêng cho nhiệm vụ, các nhà nghiên cứu đã thử nghiệm LLM sử dụng Ragen trong ba môi trường chơi game tượng trưng tối giản, có thể kiểm soát được: có thể kiểm soát được:
- Bandit: Một lần quay một lần, kiểm tra nhiệm vụ ngẫu nhiên kiểm tra lý luận biểu tượng nhạy cảm với rủi ro. Đại lý chọn giữa các tùy chọn (như ‘Phoenix’ hoặc ‘Dragon’ Arms) với các hồ sơ phần thưởng khác nhau, ban đầu không rõ.
- Sokoban: Một câu đố nhiều lượt, xác định đòi hỏi tầm nhìn xa và lập kế hoạch, vì các hành động (hộp đẩy) là không thể đảo ngược.
- Hồ đông lạnh: Một nhiệm vụ điều hướng lưới nhiều rẽ, ngẫu nhiên trong đó các nỗ lực di chuyển có thể ngẫu nhiên thất bại, yêu cầu lập kế hoạch dưới sự không chắc chắn.
Những môi trường này cho phép phân tích rõ ràng về cách các tác nhân học các chính sách ra quyết định hoàn toàn thông qua tương tác.
Những phát hiện chính: sự ổn định, triển khai và lý luận
Nghiên cứu mang lại ba phát hiện quan trọng liên quan đến việc đào tạo các tác nhân LLM tự phát triển:
‘Bẫy Echo’ và sự cần thiết phải ổn định
Một vấn đề định kỳ được quan sát trong quá trình đào tạo RL nhiều lượt được đặt tên là Bẫy Echo Bẫy. Các đại lý ban đầu sẽ cải thiện nhưng sau đó chịu sự sụp đổ hiệu suất, vượt qua các mô hình lý luận được khen thưởng tại địa phương.
Điều này được đánh dấu bằng cách sụp đổ phương sai phần thưởng, giảm entropy (thước đo tính ngẫu nhiên/thăm dò) và đột ngột tăng đột ngột trong độ dốc (biểu thị sự không ổn định đào tạo). Các dấu hiệu ban đầu bao gồm giảm độ lệch chuẩn và entropy đầu ra.
Để chống lại điều này, nhóm đã phát triển StarPo-S, một phiên bản ổn định của khung. StarPo-S kết hợp:
- Lọc quỹ đạo dựa trên phương sai: Tập trung đào tạo vào các trường hợp nhiệm vụ trong đó hành vi của đại lý cho thấy sự không chắc chắn cao hơn (phương sai phần thưởng cao hơn), loại bỏ các tình trạng không biến đổi thấp, ít thông tin hơn. Điều này cải thiện sự ổn định và hiệu quả.
- Incoric Incorporation: Sử dụng các phương pháp như PPO (tối ưu hóa chính sách gần), sử dụng ‘nhà phê bình’ để ước tính giá trị, thường cho thấy sự ổn định tốt hơn các phương pháp không có phê bình như GRPO (tối ưu hóa chính sách tương đối nhóm) trong hầu hết các thử nghiệm.
- Tách rời và loại bỏ KL: Các kỹ thuật được điều chỉnh từ nghiên cứu khác (DAPO) liên quan đến việc cắt không đối xứng (cho phép học tập tích cực hơn từ phần thưởng tích cực) và loại bỏ các hình phạt phân kỳ KL (khuyến khích thăm dò) tăng thêm sự ổn định và hiệu suất.
Starpo-S liên tục trì hoãn sự sụp đổ và cải thiện hiệu suất nhiệm vụ cuối cùng so với Vanilla Starpo.
Chất lượng giới thiệu là rất quan trọng
Các đặc điểm của ‘giới thiệu’ (quỹ đạo tương tác mô phỏng được sử dụng để đào tạo) ảnh hưởng đáng kể đến việc học tập. Các yếu tố chính được xác định bao gồm:
- Đa dạng nhiệm vụ: Đào tạo với một tập hợp đa dạng các trạng thái ban đầu (lời nhắc), nhưng với nhiều phản hồi được tạo ra mỗi lần nhắc nhở, khái quát hóa AIDS. Điểm ngọt ngào dường như là sự đa dạng vừa phải cho phép tương phản giữa các kết quả khác nhau trong các kịch bản tương tự.
- Tương tác độ chi tiết: Cho phép nhiều hành động mỗi lượt (khoảng 5-6 đã được chứng minh tối ưu) cho phép lập kế hoạch tốt hơn trong giới hạn lượt cố định, mà không giới thiệu nhiễu liên quan đến các chuỗi hành động quá dài.
- Tần số giới thiệu: Sử dụng các triển khai mới, cập nhật phản ánh chính sách hiện tại của đại lý là rất quan trọng. Lấy mẫu thường xuyên hơn (tiếp cận cài đặt ‘trực tuyến’) dẫn đến sự hội tụ nhanh hơn và khái quát hóa tốt hơn bằng cách giảm sự không phù hợp về dữ liệu chính sách.
Duy trì độ tươi, bên cạnh ngân sách hành động thích hợp và đa dạng nhiệm vụ, là chìa khóa để đào tạo ổn định.
Lý do đòi hỏi phải thiết kế phần thưởng cẩn thận
Đơn giản chỉ cần nhắc nhở các mô hình ‘nghĩ rằng’ không đảm bảo lý luận có ý nghĩa xuất hiện, đặc biệt là trong các nhiệm vụ nhiều lượt. Nghiên cứu được tìm thấy:
- Dấu vết lý luận đã giúp khái quát hóa trong nhiệm vụ Bandit đơn giản, đơn hơn, ngay cả khi các tín hiệu tượng trưng mâu thuẫn với phần thưởng.
- Trong các nhiệm vụ nhiều lần như Sokoban, lợi ích lý luận bị hạn chế và thời lượng của các phân đoạn ‘suy nghĩ’ liên tục từ chối trong quá trình đào tạo. Các tác nhân thường được hồi quy để lựa chọn hành động trực tiếp hoặc sản xuất lý luận ảo giác của người Hồi giáo nếu phần thưởng chỉ theo dõi thành công nhiệm vụ, tiết lộ một sự không phù hợp giữa suy nghĩ và trạng thái môi trường.
Điều này cho thấy rằng phần thưởng mức quỹ đạo tiêu chuẩn (thường thưa thớt và dựa trên kết quả) là không đủ.
“Không có tín hiệu phần thưởng chi tiết, nhận thức về lý luận, lý do đại lý hầu như không xuất hiện[s] Thông qua RL nhiều lượt.
Các nhà nghiên cứu đề xuất rằng công việc trong tương lai nên khám phá các phần thưởng đánh giá rõ ràng chất lượng của các bước lý luận trung gian, có thể sử dụng hình phạt dựa trên định dạng hoặc chất lượng giải thích bổ ích, thay vì chỉ là kết quả cuối cùng.
Ragen và Starpo: Một bước hướng tới AI tự phát triển
Hệ thống Ragen và Khung StarPO thể hiện một bước hướng tới đào tạo các tác nhân LLM có thể lý luận và thích nghi thông qua sự tương tác trong các môi trường phức tạp, không thể đoán trước.
Nghiên cứu này nhấn mạnh những thách thức ổn định độc đáo được đặt ra bởi RL nhiều lượt và cung cấp các chiến lược cụ thể-như kỹ thuật lọc và ổn định của StarPo-S-để giảm thiểu chúng. Nó cũng nhấn mạnh vai trò quan trọng của các chiến lược thế hệ triển khai và nhu cầu về các cơ chế khen thưởng tinh vi hơn để nuôi dưỡng lý luận thực sự, thay vì các chiến lược hời hợt hoặc ảo giác.
Mặc dù thừa nhận các hạn chế – bao gồm cả sự cần thiết phải kiểm tra các mô hình lớn hơn và tối ưu hóa các miền mà không dễ dàng nhận ra phần thưởng – công việc mở ra một đường dẫn có thể mở rộng và nguyên tắc để xây dựng các hệ thống AI, trong các khu vực đòi hỏi sự tương tác phức tạp và kết quả có thể kiểm chứng, chẳng hạn như định lý chứng minh, kỹ thuật phần mềm và khám phá khoa học.
(Hình ảnh bởi Gerd Altmann)
Xem thêm: AI đánh giá như thế nào? Nghiên cứu nhân chủng các giá trị của Claude

Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra AI & Big Data Expo Diễn ra tại Amsterdam, California và London. Sự kiện toàn diện được cùng đặt với các sự kiện hàng đầu khác bao gồm cả Hội nghị tự động hóa thông minhThì BlockxThì Tuần Chuyển đổi sốVà An ninh mạng & Triển lãm đám mây.
Khám phá các sự kiện và hội thảo trên web về công nghệ doanh nghiệp sắp tới được cung cấp bởi TechForge đây.