Mặc dù AI có thể cảm thấy có mặt khắp nơi, nhưng nó chủ yếu hoạt động trong một phần nhỏ trong số 7.000 ngôn ngữ của thế giới, để lại một phần lớn dân số toàn cầu phía sau. Nvidia nhằm mục đích sửa chữa điểm mù rõ ràng này, đặc biệt là ở châu Âu.
Công ty vừa phát hành một bộ công cụ nguồn mở mới mạnh mẽ nhằm cung cấp cho các nhà phát triển sức mạnh để xây dựng bài phát biểu chất lượng cao AI cho 25 ngôn ngữ châu Âu khác nhau. Điều này bao gồm các ngôn ngữ chính, nhưng quan trọng hơn, nó cung cấp một huyết mạch cho những người thường bị bỏ qua bởi công nghệ lớn, như Croatia, Estonia và Malta.
Mục tiêu là để các nhà phát triển tạo ra loại Công cụ chạy bằng giọng nói Nhiều người trong chúng ta được cấp, từ các chatbot đa ngôn ngữ thực sự hiểu bạn đến các bot dịch vụ khách hàng và dịch vụ dịch thuật hoạt động trong chớp mắt.
Trung tâm của sáng kiến này là Khomột thư viện khổng lồ của lời nói của con người. Nó chứa khoảng một triệu giờ âm thanh, tất cả được quản lý để giúp dạy cho AI các sắc thái nhận dạng giọng nói và dịch thuật.
Để sử dụng dữ liệu lời nói này, NVIDIA cũng đang cung cấp hai mô hình AI mới được thiết kế cho các tác vụ ngôn ngữ:
- Canary-1B-V2Một mô hình lớn được xây dựng cho độ chính xác cao trên các công việc phiên mã và dịch thuật phức tạp.
- Parakeet-TDT-0.6B-V3được thiết kế cho các ứng dụng thời gian thực trong đó tốc độ là tất cả.
Nếu bạn muốn đi sâu vào khoa học đằng sau nó, thì Giấy trên Granary sẽ được trình bày tại Hội nghị Interspeech ở Hà Lan trong tháng này. Đối với các nhà phát triển mong muốn bị bẩn tay, bộ dữ liệu và cả hai mô hình đã có sẵn trên khuôn mặt ôm.
Tuy nhiên, phép thuật thực sự nằm ở cách tạo dữ liệu này. Chúng ta đều biết rằng đào tạo AI yêu cầu Số lượng dữ liệu khổng lồnhưng nhận được nó thường là một quá trình chú thích của con người chậm, tốn kém và thẳng thắn.
Để khắc phục điều này, nhóm AI bài phát biểu của NVIDIA – làm việc với các nhà nghiên cứu từ Đại học Carnegie Mellon Và Fondazione Bruno Kessler – Xây dựng một đường ống tự động. Sử dụng bộ công cụ NEMO của riêng họ, họ có thể sử dụng âm thanh thô, không ghi nhãn và đưa nó vào dữ liệu có cấu trúc, chất lượng cao mà AI có thể học hỏi.
Đây không chỉ là một thành tựu kỹ thuật; Đó là một bước nhảy vọt lớn cho tính bao gồm kỹ thuật số. Điều đó có nghĩa là một nhà phát triển ở Riga hoặc Zagreb cuối cùng cũng có thể xây dựng các công cụ AI chạy bằng giọng nói để hiểu đúng các ngôn ngữ địa phương của họ. Và họ có thể làm điều đó hiệu quả hơn. Nhóm nghiên cứu nhận thấy rằng dữ liệu Granary của họ có hiệu quả đến mức mất khoảng một nửa số lượng của nó để đạt đến mức độ chính xác của mục tiêu so với các bộ dữ liệu phổ biến khác.
Hai mô hình mới thể hiện sức mạnh này. Canary thẳng thắn là một con thú, cung cấp chất lượng dịch và phiên mã mà đối thủ mô hình ba lần kích thước của nó, nhưng với tốc độ lên tới gấp mười lần. Parakeet, trong khi đó, có thể nhai qua một bản ghi cuộc họp 24 phút trong một lần, tự động tìm ra ngôn ngữ nào đang được nói. Cả hai mô hình đều đủ thông minh để xử lý dấu câu, viết hoa và cung cấp dấu thời gian cấp độ từ, được yêu cầu để xây dựng các ứng dụng cấp chuyên nghiệp.
Bằng cách đặt các công cụ mạnh mẽ này và các phương pháp đằng sau chúng vào tay toàn cầu Cộng đồng nhà phát triểnNvidia không chỉ phát hành một sản phẩm. Đó là khởi động một làn sóng đổi mới mới, hy vọng tạo ra một thế giới nơi AI nói ngôn ngữ của bạn, bất kể bạn đến từ đâu.
(Ảnh bởi Aedrian Salazar)
Xem thêm: Deepseek trở lại NVIDIA cho mô hình R2 sau khi chip Huawei AI thất bại

Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra AI & Big Data Expo Diễn ra tại Amsterdam, California và London. Sự kiện toàn diện được cùng đặt với các sự kiện hàng đầu khác bao gồm cả Hội nghị tự động hóa thông minhThì BlockxThì Tuần Chuyển đổi sốVà An ninh mạng & Triển lãm đám mây.
Khám phá các sự kiện và hội thảo trên web về công nghệ doanh nghiệp sắp tới được cung cấp bởi TechForge đây.