Close Menu
Smart Industry VN
  • Smart Business
  • Digital Supply Chain
  • Smart Factory
  • Automation & Robotics
  • Technology
  • Latest News
  • About us
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
Smart Industry VN
Facebook X (Twitter) Instagram
  • Smart Business
  • Digital Supply Chain
  • Smart Factory

    STEMMER IMAGING khai trương cửa hàng kỹ thuật số mới

    09/06/2026

    Điều khiển tối ưu sử dụng các ô đo lường robot

    07/06/2026

    FANUC ra mắt robot hàn cộng tác trọng lượng 11kg

    03/06/2026

    Mở rộng khả năng của cobot để nâng tải trọng cao hơn

    30/05/2026

    Quấn cuộn bằng kẹp trục rô-bốt

    28/05/2026
  • Automation & Robotics
  • Technology
    • Latest News
    • About us
    Smart Industry VN
    Home»Technology»AI & Machine Learning»AI Agent đa phương tiện Baidu ERNIE vượt trội hơn GPT và Gemini trong các bài đánh giá chuẩn
    AI & Machine Learning

    AI Agent đa phương tiện Baidu ERNIE vượt trội hơn GPT và Gemini trong các bài đánh giá chuẩn

    By Bui Vu09/12/2025 AI & Machine Learning 0 Views
    Facebook Twitter Pinterest LinkedIn Tumblr Email
    Share
    Facebook Twitter LinkedIn Pinterest Email

    Mẫu AI đa phương tiện siêu hiệu quả mới nhất của Baidu, ERNIE, đang vượt mặt GPT và Gemini trên các chuẩn đánh giá quan trọng và tập trung khai thác dữ liệu doanh nghiệp thường bị bỏ qua bởi các mô hình chỉ tập trung vào văn bản.

    Đối với nhiều doanh nghiệp, những thông tin giá trị được cất giữ trong các sơ đồ kỹ thuật, video từ nhà máy, hình ảnh y tế hay bảng điều khiển logistics. Mẫu ERNIE-4.5-VL-28B-A3B-Thinking mới của Baidu được thiết kế để lấp đầy khoảng trống này.

    Điều thú vị với các kiến trúc sư doanh nghiệp không chỉ là khả năng đa phương tiện, mà còn là cấu trúc của mô hình. Được mô tả như một mô hình “nhẹ”, chỉ kích hoạt ba tỷ tham số trong quá trình vận hành. Cách tiếp cận này nhằm hướng tới giảm thiểu chi phí suy luận cao – một trong những rào cản khiến các dự án mở rộng AI bị trì hoãn. Baidu đặt cược vào hiệu quả như con đường để được chấp nhận rộng rãi, đào tạo hệ thống làm nền tảng cho các “AI Agent đa phương tiện” có thể suy luận và hành động, chứ không chỉ đơn thuần nhận biết.

    Khả năng phân tích dữ liệu hình ảnh phức tạp thể hiện qua các chuẩn đánh giá AI

    Mô hình ERNIE đa phương tiện của Baidu nổi bật trong việc xử lý dữ liệu phức tạp không chỉ là văn bản. Ví dụ, nó có thể diễn giải biểu đồ “Nhắc nhở Giờ Cao Điểm” để xác định thời gian tham quan tối ưu – một vấn đề phản ánh thách thức trong quản lý tài nguyên logistics hay bán lẻ.

    ERNIE 4.5 còn cho thấy năng lực trong các lĩnh vực kỹ thuật như giải một sơ đồ mạch cầu áp dụng các định luật Ohm và Kirchhoff. Với các phòng R&D và kỹ thuật, trợ lý tương lai có thể xác nhận thiết kế hoặc giải thích các sơ đồ phức tạp cho nhân viên mới.

    Khả năng này được củng cố qua các benchmark của Baidu, cho thấy ERNIE-4.5-VL-28B-A3B-Thinking vượt trội hơn các đối thủ như GPT-5-High và Gemini 2.5 Pro trong một số bài kiểm tra quan trọng:

    • MathVista: ERNIE (82.5) so với Gemini (82.3) và GPT (81.3)
    • ChartQA: ERNIE (87.1) so với Gemini (76.3) và GPT (78.2)
    • VLMs Are Blind: ERNIE (77.3) so với Gemini (76.5) và GPT (69.6)

    Tuy nhiên, cần lưu ý rằng các chuẩn đánh giá AI chỉ mang tính tham khảo và có thể có sai sót. Do đó, hãy luôn thực hiện kiểm tra nội bộ phù hợp với nhu cầu trước khi triển khai bất kỳ mô hình AI nào cho các ứng dụng quan trọng.

    Baidu chuyển trọng tâm từ nhận biết sang tự động hóa với mẫu AI ERNIE mới nhất

    Rào cản lớn nhất đối với AI doanh nghiệp là chuyển từ nhận biết (“đây là gì?”) sang tự động hóa (“tiếp theo là gì?”). ERNIE 4.5 tuyên bố giải quyết vấn đề này bằng cách tích hợp nhận diện hình ảnh với khả năng sử dụng công cụ.

    Khi yêu cầu AI đa phương tiện tìm tất cả người mặc vest trong một bức ảnh và trả về tọa độ theo định dạng JSON thì nó hoạt động hiệu quả. Mô hình tạo ra dữ liệu có cấu trúc này, một chức năng dễ dàng đưa vào dây chuyền sản xuất để kiểm tra hình ảnh hay trên hệ thống kiểm toán hình ảnh tại hiện trường nhằm đảm bảo tuân thủ an toàn.

    Mô hình còn có khả năng điều phối các công cụ bên ngoài và có thể tự động phóng to vào ảnh để đọc chữ nhỏ. Nếu gặp vật thể chưa biết, nó có thể kích hoạt tìm kiếm hình ảnh để xác định đối tượng. Đây là dạng AI chủ động hơn, có thể không chỉ cảnh báo lỗi tại trung tâm dữ liệu mà còn phóng to đoạn mã, tìm kiếm trong kho tri thức nội bộ và gợi ý cách sửa lỗi.

    Mở khóa trí tuệ doanh nghiệp với AI đa phương tiện

    Mẫu ERNIE AI mới của Baidu còn hướng đến khai thác kho video doanh nghiệp từ các buổi đào tạo, họp hành cho đến hình ảnh giám sát an ninh. Nó có thể trích xuất toàn bộ phụ đề trên màn hình và gắn chúng với dấu thời gian chính xác.

    ERMIE cũng thể hiện khả năng nhận biết thời gian, tìm ra các cảnh cụ thể (chẳng hạn đoạn “quay trên cầu”) qua phân tích các dấu hiệu hình ảnh. Mục tiêu rõ ràng là biến kho video đồ sộ thành dữ liệu có thể tìm kiếm, giúp nhân viên nhanh chóng tìm được khoảnh khắc cụ thể một chủ đề được đề cập trong buổi hội thảo kéo dài hai tiếng mà họ có thể đã chợp mắt vài lần.

    Baidu đưa ra hướng dẫn triển khai với nhiều tùy chọn khác nhau, bao gồm transformers, vLLM và FastDeploy. Tuy nhiên, yêu cầu phần cứng khá cao là rào cản lớn. Triển khai trên một GPU đơn cần bộ nhớ lên đến 80GB. Đây không phải là công cụ dành cho thử nghiệm nhỏ lẻ mà phù hợp với các tổ chức đã có hạ tầng AI hiệu năng cao.

    Với những tổ chức đủ điều kiện phần cứng, bộ công cụ ERNIEKit của Baidu cho phép tinh chỉnh dựa trên dữ liệu riêng; điều này rất cần thiết cho phần lớn các use case mang giá trị cao. Baidu cũng cung cấp mẫu ERNIE AI mới nhất dưới license Apache 2.0 cho phép sử dụng thương mại – yếu tố quan trọng để thúc đẩy sự chấp nhận rộng rãi.

    Thị trường cuối cùng đang tiến tới AI đa phương tiện có khả năng nhìn, đọc và hành động trong bối cảnh cụ thể của doanh nghiệp, và các chuẩn đánh giá cho thấy nó đang làm được điều đó với hiệu quả ấn tượng. Nhiệm vụ trước mắt là xác định những tác vụ suy luận hình ảnh có giá trị cao trong hoạt động của bạn và cân nhắc so với chi phí phần cứng và quản trị đáng kể.

    Bui Vu
    • Website
    • Facebook
    • X (Twitter)
    • Instagram
    • LinkedIn

    Bài liên quan

    Các hội đồng châu Á đang đầu tư vào AI nhưng kiểm toán lợi tức đầu tư (ROI) vẫn còn chậm tiến độ

    10/06/2026

    Garuda Indonesia đẩy mạnh hiện đại hóa lõi kỹ thuật số cùng RISE với SAP

    08/06/2026

    Tại sao thí điểm AI ở Hồng Kông đang tái định hình quy trình triển khai sản xuất (ngân hàng)

    07/06/2026

    PodChats cho FutureCOO: Xây dựng nền tảng cho hoạt động hợp nhất dựa trên dữ liệu

    05/06/2026
    Add A Comment

    Comments are closed.

    Smart Factory

    Hệ thống thực thi sản xuất (MES) là gì ? Vì sao doanh nghiệp sản xuất cần hệ thống MES ?

    27/02/2020

    SCADA là gì ? Khi nào cần 1 hệ thống SCADA ?

    19/01/2019

    Hệ thống điều độ sản xuất APS là gì ? Ứng dụng của hệ thống APS là gì ?

    12/01/2019

    Số lượng đặt hàng kinh tế (EOQ) và Công thức tính EOQ

    22/04/2023

    20 công cụ sản xuất tinh gọn

    17/07/2020

    Quản lý vòng đời sản phẩm (PLM) là gì ? Vai trò của PLM đối với doanh nghiệp là gì ?

    24/10/2020

    Những vấn đề cơ bản về Quản lý khu vực sản xuất (Shop floor management)

    19/04/2019

    7 ví dụ về trí tuệ nhân tạo trong các ngành công nghiệp khác nhau

    26/02/2019
    AI & Automation

    Các hội đồng châu Á đang đầu tư vào AI nhưng kiểm toán lợi tức đầu tư (ROI) vẫn còn chậm tiến độ

    10/06/2026

    Garuda Indonesia đẩy mạnh hiện đại hóa lõi kỹ thuật số cùng RISE với SAP

    08/06/2026

    Tại sao thí điểm AI ở Hồng Kông đang tái định hình quy trình triển khai sản xuất (ngân hàng)

    07/06/2026

    PodChats cho FutureCOO: Xây dựng nền tảng cho hoạt động hợp nhất dựa trên dữ liệu

    05/06/2026

    Vertiv thúc đẩy bộ đôi kỹ thuật số AI sản xuất công nghiệp vào DSX

    04/06/2026

    Sự tiện lợi của AI thu hút lượt nhấp — Quản trị dữ liệu quyết định trải nghiệm khách hàng (CX)

    02/06/2026

    Cân bằng giữa kiểm soát và phát triển AI ở khu vực châu Á – Thái Bình Dương

    01/06/2026

    Nghiên cứu cảnh báo về sự gia tăng suy sụp tài chính và gián đoạn mạng do thời gian ngừng hoạt động của IT

    30/05/2026
    Bài Mới Nhất

    Các hội đồng châu Á đang đầu tư vào AI nhưng kiểm toán lợi tức đầu tư (ROI) vẫn còn chậm tiến độ

    10/06/2026

    STEMMER IMAGING khai trương cửa hàng kỹ thuật số mới

    09/06/2026

    LG Innotek Hàn Quốc mở rộng nhà máy chất nền bán dẫn tại miền Bắc Việt Nam

    09/06/2026

    Garuda Indonesia đẩy mạnh hiện đại hóa lõi kỹ thuật số cùng RISE với SAP

    08/06/2026

    Tập đoàn bán lẻ lớn của UAE khảo sát cơ hội đầu tư tại miền Trung Việt Nam

    07/06/2026
    Thẻ
    AGV AI Automation BIG DATA Blockchain chuyen doi so cong nghiep data data analytics digital supply chain digital transformation digital twin edge computing ERP ESG Gartner iiot Iot kinh tế kinh tế xanh Kết nối Machine learning MES MOM Nghiên cứu ABI paperless factory phan tich du lieu Phát triển bền vững PLM RFID robotics RTLS san xuat scada smart factory smart warehouse so hoa Supplychain Management số hoá chuỗi cung ứng Tri tue nhan tao tu dong hoa warehouse Management WMS xe điện đầu tư vào Việt Nam
    Smart Industry Vietnam

    Smart Industry Vietnam là trang Tin công nghệ chia sẻ thông tin để thúc đẩy quá trình chuyển đổi kỹ thuật số đang diễn ra trong lĩnh vực sản xuất và các ngành liên quan, thể hiện bằng sự hội tụ của thông tin và công nghệ vận hành cũng như các xu hướng công nghệ mới như Internet Công nghiệp (IIoT ), phân tích dữ liệu lớn và AI.

     

    Bài Viết Mới

    Trí tuệ nhân tạo cá nhân và hướng phát triển tương lai của chúng ta

    27/05/2026

    Gammon triển khai nền tảng AI để chuyển đổi an toàn trong xây dựng

    24/05/2026

    Mạng 5G của Malaysia phủ sóng mạnh hơn trong nhà khi DNB tăng cường vùng phủ tại các khu vực có lưu lượng cao

    14/05/2026

    Subscribe to Updates

    Get the latest creative news from Smart Industry Vietnam

    Type above and press Enter to search. Press Esc to cancel.