Công Cụ Cho Danh Sách Công Việc Với Spot và Gemini Robotics

Đối với một robot công nghiệp được thiết kế cho môi trường khắc nghiệt tại các nhà máy và nhà máy điện, việc dọn dẹp phòng khách có thể xem như nhiệm vụ nhẹ nhàng với Spot. Tuy nhiên, video gần đây về robot này nhặt giày dép và lon nước ngọt trong một ngôi nhà dân dụng đã hé lộ tiềm năng ứng dụng của các mô hình AI trong lĩnh vực robot. Trong trường hợp này, mô hình ngôn ngữ-hình ảnh (Visual-Language Model – VLM) của Google Gemini Robotics-ER 1.5 đã nâng cao khả năng lập luận thể hiện trí tuệ cho Spot.

Demo này được phát triển từ một hackathon năm 2025 tại Boston Dynamics, dựa trên các dự án trước đó sử dụng Mô hình Ngôn ngữ Lớn (LLMs) và Mô hình Nền tảng Hình ảnh (VFMs) để cho phép Spot nhận biết bối cảnh môi trường và thực hiện các hành động tự chủ phức tạp hơn so với nhiệm vụ Autowalk thông thường. Thay vì viết logic phần mềm cố định hay chương trình “trạng thái” định nghĩa từng bước cho một nhiệm vụ, chúng tôi tương tác với Gemini Robotics thông qua ngôn ngữ giao tiếp tự nhiên. Từ đó, Gemini Robotics đại diện để giao tiếp với Spot.

Bộ SDK Mạnh Mẽ và Hướng Dẫn Ngôn Ngữ Tự Nhiên Tiết Kiệm Thời Gian

Sử dụng SDK của Spot, chúng tôi phát triển một lớp trung gian hỗ trợ tương tác giữa Gemini Robotics và giao diện lập trình ứng dụng (API) của Spot. API này thường cung cấp cho các nhà phát triển quyền truy cập vào các khả năng của robot để xây dựng các ứng dụng hoặc hành vi tùy chỉnh. Ví dụ, các nhà nghiên cứu tại Meta đã sử dụng Spot để thử nghiệm hệ thống AI có khả năng định vị và lấy các vật thể mà nó chưa từng tiếp xúc trước đó.

Khả năng tương tác với Gemini Robotics qua các hướng dẫn ngôn ngữ tự nhiên giúp tiết kiệm đáng kể thời gian so với phương pháp lập trình truyền thống. Chúng tôi thông báo cho Gemini Robotics rằng nó có quyền điều khiển một robot di động được trang bị camera và cánh tay robot, cùng một bộ công cụ giới hạn để thực hiện các lệnh điều khiển robot. Mỗi công cụ là một đoạn mã nhỏ thực hiện các logic nội bộ và chuyển đổi các chỉ định từ Gemini Robotics thành các lệnh API thực tế. Các hành động được giới hạn vào việc di chuyển giữa các vị trí, chụp ảnh, nhận dạng vật thể, cầm nắm và đặt vật thể ở vị trí khác.

Phạm vi rộng của SDK cho phép phát triển một cách dễ dàng các ví dụ mở rộng quyền truy cập API mà yêu cầu rất ít công đoạn phát triển thêm.

A diagram showing the relationship between Gemini Robotics and Boston Dynamics Spot robot

Thiết Lập Cơ Sở Cho Gemini Robotics

Chúng tôi bắt đầu bằng cách giải thích cho Gemini Robotics những nhiệm vụ cần thực hiện. Quá trình này gặp một số thử thách ban đầu khi soạn các lệnh cơ bản. Các chỉ dẫn đơn giản như “đặt vật thể xuống” hay “chụp ảnh” không đủ chi tiết để robot hành xử như mong muốn. Điều này yêu cầu chúng tôi thêm ngữ cảnh chính xác vào mỗi mô tả trong quá trình tối ưu công cụ.

Ví dụ điển hình là đoạn hướng dẫn chi tiết cho công cụ “TakePicture”:

Lệnh này sẽ khiến robot chụp ảnh bằng camera được chỉ định. Việc lựa chọn camera phù hợp có những điểm cần lưu ý. Khi đến một vị trí bằng lệnh GoTo, bạn nên bắt đầu chụp bằng camera ở cánh tay robot vì đây là camera cung cấp nhiều thông tin nhất.
Nếu robot đã đến vị trí và đang cầm vật thể, bạn có thể:
1. Gọi ngay lệnh PutDown
2. Quét khu vực bằng một trong các camera phía trước. Các camera phía trước thấp sát mặt đất, vì vậy nếu bạn muốn đặt vật trên bề mặt cao, chúng sẽ không cung cấp thông tin hữu ích.

Ở ví dụ này, chúng tôi không cần mô tả chi tiết về cấu tạo khung hay cánh tay robot mà chỉ thông báo rằng camera phía trước của Spot sẽ không phù hợp để chụp các vật trên bề mặt cao. Qua đó, chúng tôi có thể nhanh chóng hiệu chỉnh nhờ các thay đổi nhỏ trong cách diễn đạt, mang lại kết quả tốt hơn rõ rệt. Khi đã có bộ công cụ cơ bản qua API, Gemini Robotics có thể sắp xếp các thao tác của Spot theo trình tự và thực hiện theo hướng dẫn được viết trên bảng trắng trong ngày trình diễn.

Cách Gemini Robotics và Spot Hợp Tác

Cho đến khi robot được kích hoạt, Gemini Robotics vẫn chưa có bối cảnh về những nhiệm vụ cụ thể mà robot sẽ thực hiện trong buổi demo. Chỉ với những chỉ dẫn đơn giản như, “Đảm bảo tất cả giày dép ở cửa trước đã được đặt lên kệ,” Gemini Robotics đã phân tích hình ảnh từ camera của Spot và xác định các đối tượng phù hợp với chỉ dẫn, từ đó làm mốc tham chiếu cho hệ thống định vị và thao tác của Spot.

Ở nhiều khía cạnh, Gemini Robotics hoạt động tương tự như một người điều khiển robot thủ công qua máy tính bảng. Ví dụ, để nhặt một vật thể, người vận hành sẽ di chuyển robot gần đến vật đó và dùng hướng dẫn cầm nắm để xác định vật cần lấy. Người điều khiển chỉ việc đưa ra chỉ đạo cấp cao, còn Spot sẽ xử lý các chi tiết thực thi. Trong demo, Gemini Robotics đóng vai trò vừa là người điều khiển vừa là giao diện gửi lệnh, giúp chúng tôi trở thành người lãnh đạo nhóm, chỉ cần cung cấp danh sách công việc và tin tưởng Spot cùng Gemini Robotics sẽ thực hiện phần còn lại.

Mô Hình Gọi và Phản Hồi

Khi Gemini Robotics kích hoạt một công cụ nào đó, công cụ sẽ trả về kết quả và ngữ cảnh, ví dụ như “Tôi đã nhặt được vật thể” hoặc “Tôi không thể cầm thêm vật khi tay đang đầy.” Gemini Robotics dựa trên phản hồi này để điều chỉnh kịp thời các lệnh cho Spot. Chẳng hạn, khi nhặt giày, Gemini Robotics yêu cầu hình ảnh, xác định vị trí giày và gửi lệnh “pickup”. Bằng việc xây dựng tập hợp công cụ cơ bản có khả năng liên kết ngữ nghĩa trong cuộc hội thoại, Gemini Robotics xử lý chuỗi nhiệm vụ để hoàn tất việc dọn phòng. Các phần mềm hiện tại của Spot quản lý bộ phận di chuyển, định vị và thao tác robot.
Điều quan trọng là Gemini Robotics hoạt động trong giới hạn nghiêm ngặt. Nó không thể sáng tạo ra năng lực mới hay điều khiển Spot vượt quá phạm vi API. Điều này đảm bảo hành vi của Spot luôn ổn định, đồng thời cho phép Gemini Robotics linh hoạt ứng phó với các tình huống đa dạng.

Một Công Cụ Tăng Cường Sức Mạnh Cho Nhà Phát Triển

Đối với các nhà phát triển đã làm việc với Spot, nghiên cứu này mở ra tiềm năng lớn. Qua SDK của Spot, họ tiếp cận được bộ công cụ mạnh mẽ của robot. Hiện nay, các doanh nghiệp sử dụng công cụ này để xây dựng ứng dụng trong kiểm tra, nghiên cứu và phân tích dữ liệu công nghiệp, v.v.

Mô hình AI như Gemini Robotics cung cấp phương thức mở rộng ứng dụng nhanh hơn. Thay vì viết hàng loạt logic nhiệm vụ trên API của Spot, nhà phát triển có thể thử nghiệm hệ thống AI hiểu các chỉ dẫn ngôn ngữ tự nhiên và linh hoạt điều khiển robot. Do đó, các mô hình như Gemini Robotics đóng vai trò như công cụ tăng cường sức mạnh, khuếch đại bộ công cụ vững chắc và hiệu suất ổn định vốn đã mang lại giá trị cho khách hàng Boston Dynamics.

Dự Đoán Tokken Tiếp Theo Cho Spot và Gemini Robotics

Mặc dù đây vẫn là bước thí nghiệm và chưa tạo ra ứng dụng hoàn chỉnh, nó minh họa một hướng đi đầy tiềm năng cho robot và AI vật lý. Các robot như Spot đã rất thành thục trong việc di chuyển trong môi trường phức tạp và thay đổi, thu thập dữ liệu và cảm biến cũng như thao tác vật thể. Thay vì phát minh lại từ đầu, các mô hình nền tảng AI mang đến cách tiếp cận mới để mở rộng những khả năng này tới nhiều bối cảnh và ứng dụng hơn.

AI vật lý là lĩnh vực phát triển nhanh, và đội ngũ của chúng tôi đang dẫn đầu cả trong phòng thí nghiệm và ứng dụng thực tiễn các robot được trang bị AI. Mặc dù mới bắt đầu trong quan hệ đối tác chính thức với Google Deepmind, chúng tôi rất lạc quan về tương lai với Atlas và đã triển khai các cải tiến thiết thực cho Spot và Orbit, điển hình là AIVI-Learning được hỗ trợ bởi Google Gemini Robotics ER 1.6. Phiên bản tiếp theo của công cụ kiểm tra hình ảnh AI này mở ra cấp độ thông minh hình ảnh mới, khi người dùng được hưởng lợi từ chuyên môn chia sẻ với trí tuệ ngữ cảnh sâu sắc hơn cho Spot và Orbit. Các cải tiến mô hình được tự động áp dụng phía sau, bổ sung thêm nhiều năng lực cho phần mềm và phần cứng hiện tại.

Demo ngày hôm nay hướng tới tương lai nơi người dùng dựa vào ngôn ngữ tự nhiên để hướng dẫn các hành động của Spot thay vì dựa vào mã phức tạp. Vai trò của kỹ sư sẽ chuyển thành việc thiết lập mục tiêu và nhiệm vụ, trong khi mô hình nền tảng đa phương thức trên robot giải thích hướng dẫn và xây dựng các kế hoạch phức tạp, linh hoạt; Spot sẽ thực thi chính xác các hành động đó.

Bài viết được đóng góp bởi Issac Ross và Nikhil Devraj, kỹ sư trong nhóm phát triển Spot.

Khi robot bắt đầu cảm nhận

Rodriguez mang Đơn vị Chuyển giao Cobot đến AMB

Robot hợp tác Delta giành giải thưởng Thiết kế Sản phẩm Khu vực Đông Nam Á 2026 lớn

Tự động hóa bằng robot tại MachineBuilding.South

Độ chính xác cao và vô cùng nhẹ nhàng

Công Cụ Cho Danh Sách Công Việc Với Spot và Gemini Robotics

Khi robot bắt đầu cảm nhận

Rodriguez mang Đơn vị Chuyển giao Cobot đến AMB

Robot hợp tác Delta giành giải thưởng Thiết kế Sản phẩm Khu vực Đông Nam Á 2026 lớn

Tự động hóa bằng robot tại MachineBuilding.South

Hệ thống thực thi sản xuất (MES) là gì ? Vì sao doanh nghiệp sản xuất cần hệ thống MES ?

SCADA là gì ? Khi nào cần 1 hệ thống SCADA ?

Hệ thống điều độ sản xuất APS là gì ? Ứng dụng của hệ thống APS là gì ?

Số lượng đặt hàng kinh tế (EOQ) và Công thức tính EOQ

20 công cụ sản xuất tinh gọn

Quản lý vòng đời sản phẩm (PLM) là gì ? Vai trò của PLM đối với doanh nghiệp là gì ?

Những vấn đề cơ bản về Quản lý khu vực sản xuất (Shop floor management)

7 ví dụ về trí tuệ nhân tạo trong các ngành công nghiệp khác nhau

Đại học Bách khoa Singapore ra mắt nền tảng chuyển đổi thành hành động

Các mô hình của Quỹ Robotics sẽ kích hoạt thị trường trị giá 150 tỷ USD vào năm 2036

Worldsensing ra mắt tiêu chuẩn mới cho giám sát công nghiệp và địa kỹ thuật

Nguồn cung AC-DC LBA nhỏ gọn mới dành cho các thiết kế công nghiệp hạn chế Lĩnh vực

Thời tiết là thông tin vận hành để khắc phục vấn đề gây gián đoạn lớn nhất trong ngành xây dựng

Nhân viên giảm thiểu các quy tắc chi phí khi khoảng cách về niềm tin ngày càng lớn, các phát hiện đồng thuận từ SAP

Sun Group giới thiệu nền tảng khách hàng thân thiết hợp nhất kết nối toàn bộ hệ sinh thái

Sự thay đổi dẫn dắt bởi AI trong xu hướng công nghệ chuỗi cung ứng năm 2026

Đại học Bách khoa Singapore ra mắt nền tảng chuyển đổi thành hành động

Solex (Trung Quốc) dự kiến rót thêm 97 triệu USD đầu tư vào tỉnh miền Bắc Việt Nam

Khi robot bắt đầu cảm nhận

Các mô hình của Quỹ Robotics sẽ kích hoạt thị trường trị giá 150 tỷ USD vào năm 2036

Sembcorp quan tâm đầu tư vào khu thương mại tự do và hạ tầng số tại Đà Nẵng

Bài Viết Mới

Các mô hình của Quỹ Robotics sẽ kích hoạt thị trường trị giá 150 tỷ USD vào năm 2036

Sự thay đổi dẫn dắt bởi AI trong xu hướng công nghệ chuỗi cung ứng năm 2026

Trung Quốc đứng đầu trong cuộc đua trí tuệ nhân tạo toàn cầu

Công Cụ Cho Danh Sách Công Việc Với Spot và Gemini Robotics

Bộ SDK Mạnh Mẽ và Hướng Dẫn Ngôn Ngữ Tự Nhiên Tiết Kiệm Thời Gian

Thiết Lập Cơ Sở Cho Gemini Robotics

Cách Gemini Robotics và Spot Hợp Tác

Mô Hình Gọi và Phản Hồi

Một Công Cụ Tăng Cường Sức Mạnh Cho Nhà Phát Triển

Dự Đoán Tokken Tiếp Theo Cho Spot và Gemini Robotics

Bài liên quan

Subscribe to Updates