Các công cụ sao chép lời nói của AI sắp cạnh tranh hơn rất nhiều với Alibaba’s Qwen Team kéo ra công bố mô hình QWEN3-ASR-Flash.
Được xây dựng dựa trên trí thông minh QWEN3-OMNI mạnh mẽ và được đào tạo bằng cách sử dụng một bộ dữ liệu lớn với hàng chục triệu giờ dữ liệu lời nói, đây không chỉ là một mô hình nhận dạng giọng nói AI khác. Nhóm nghiên cứu cho biết nó được thiết kế để cung cấp hiệu suất chính xác cao, ngay cả khi phải đối mặt với môi trường âm thanh khó khăn hoặc các mẫu ngôn ngữ phức tạp.
Vì vậy, làm thế nào để nó xếp chồng lên nhau chống lại cuộc thi? Dữ liệu hiệu suất, từ các thử nghiệm được thực hiện vào tháng 8 năm 2025, cho thấy nó khá ấn tượng.
Trong một bài kiểm tra công khai cho tiếng Trung Quốc tiêu chuẩn, QWEN3-ASR-Flash đã đạt được tỷ lệ lỗi chỉ 3,97%, khiến các đối thủ cạnh tranh như Gemini-2,5-Pro (8,98%) và GPT4O-transcribe (15,72%) theo dõi và cho thấy lời hứa về các công cụ phiên mã AI cạnh tranh hơn.
QWEN3-ASR-Flash cũng tỏ ra lão luyện trong việc xử lý các điểm nhấn của Trung Quốc, với tỷ lệ lỗi là 3,48 %. Trong tiếng Anh, nó đạt 3,81 % cạnh tranh, một lần nữa đánh bại 7,63 % của Gemini và GPT4O 8,45 %.
Nhưng nơi nó thực sự quay đầu ở một khu vực khó khăn nổi tiếng: phiên âm nhạc.
Khi được giao nhiệm vụ nhận ra lời bài hát từ các bài hát, Qwen3-ASR-Flash đã đăng tỷ lệ lỗi chỉ 4,51 %, tốt hơn nhiều so với các đối thủ của nó. Khả năng hiểu âm nhạc này đã được xác nhận trong các bài kiểm tra nội bộ trên các bài hát đầy đủ, trong đó nó đạt tỷ lệ lỗi 9,96 %; Một sự cải thiện lớn so với 32,79 phần trăm từ GEMINI-2,5-Pro và 58,59 phần trăm từ GPT4O-transcribe.

Ngoài độ chính xác ấn tượng của nó, mô hình mang đến một số tính năng sáng tạo cho bảng cho các công cụ phiên mã AI thế hệ tiếp theo. Một trong những người thay đổi trò chơi lớn nhất là sự thiên vị theo ngữ cảnh linh hoạt của nó.
Quên những ngày của danh sách từ khóa định dạng một cách rõ ràng, hệ thống này cho phép người dùng cung cấp văn bản nền mô hình ở hầu hết mọi định dạng để nhận kết quả tùy chỉnh. Bạn có thể cung cấp một danh sách đơn giản các từ khóa, toàn bộ tài liệu hoặc thậm chí là một hỗn hợp lộn xộn của cả hai.
Quá trình này loại bỏ mọi nhu cầu về tiền xử lý phức tạp của thông tin theo ngữ cảnh. Mô hình đủ thông minh để sử dụng bối cảnh để làm sắc nét độ chính xác của nó; Tuy nhiên, hiệu suất chung của nó hầu như không bị ảnh hưởng ngay cả khi văn bản bạn cung cấp là hoàn toàn không liên quan.
Rõ ràng tham vọng của Alibaba cho mô hình AI này là trở thành một công cụ phiên mã lời nói toàn cầu. Dịch vụ cung cấp phiên âm chính xác từ một mô hình duy nhất bao gồm 11 ngôn ngữ, hoàn chỉnh với nhiều phương ngữ và điểm nhấn.
Sự hỗ trợ cho người Trung Quốc đặc biệt sâu sắc, bao gồm cả tiếng Quan thoại ngoài các phương ngữ chính như Quảng Đông, Tứ Xuyên, Minnan (Hokkien) và Wu.
Đối với người nói tiếng Anh, nó xử lý các điểm nhấn của Anh, Mỹ và các khu vực khác. Đội hình ấn tượng của các ngôn ngữ được hỗ trợ khác bao gồm tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý, tiếng Bồ Đào Nha, tiếng Nga, Nhật Bản, tiếng Hàn và tiếng Ả Rập.
Để làm tròn tất cả, mô hình có thể xác định chính xác những ngôn ngữ nào trong số 11 ngôn ngữ đang được nói và rất giỏi trong việc từ chối các phân đoạn không nói như im lặng hoặc nhiễu nền, đảm bảo đầu ra sạch hơn so với các công cụ phiên mã AI.
Xem thêm: Siddhartha Choudhury, Booking.com: Chống gian lận trực tuyến với AI

Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra AI & Big Data Expo Diễn ra tại Amsterdam, California và London. Sự kiện toàn diện là một phần của Techex và được đồng định vị với các sự kiện công nghệ hàng đầu khác, nhấp vào đây Để biết thêm thông tin.
Tin tức AI được cung cấp bởi TechForge Media. Khám phá các sự kiện và hội thảo trên web về công nghệ doanh nghiệp sắp tới khác đây.