Soundhound AI, đã là một người chơi chính trong các trợ lý giọng nói, hiện đang mang đến cho công nghệ của nó một đôi mắt.
Hãy tưởng tượng bạn lái xe qua một địa danh và, mà không rút điện thoại ra, hỏi chiếc xe của bạn, đó là tòa nhà ở đó là gì? và nhận được một câu trả lời ngay lập tức. Đó là những gì âm thanh AI đang xây dựng.
Với sự ra mắt của Vision AI, hệ thống mới của Soundhound kết hợp tầm nhìn với âm thanh để tạo ra một cách thông minh hơn và tự nhiên hơn nhiều để tương tác với công nghệ. Ý tưởng là bắt chước cách chúng ta hoạt động; Chúng tôi không chỉ lắng nghe ai đó, chúng tôi cũng thấy cử chỉ của họ và những gì họ đang nhìn.
Bằng cách mang lại sự hiểu biết theo ngữ cảnh tương tự này cho AI, Soundhound hy vọng sẽ suôn sẻ về trải nghiệm vụng về và thường gây khó chịu mà chúng ta có với nhiều thiết bị thông minh ngày nay. Công ty đang nhắm mục tiêu các ứng dụng trong thế giới thực trong đó ý nghĩa kết hợp này có thể tạo ra sự khác biệt lớn, cho dù đó là trong chiếc xe tiếp theo của bạn, tại nhà hàng lái xe, hoặc sàn nhà máy.
Keyvan Mohajer, Giám đốc điều hành của Soundhound AI, cho biết: Tại At Soundhound, chúng tôi tin rằng tương lai của AI không chỉ là đa phương thức, nó được tích hợp sâu sắc, đáp ứng và được xây dựng cho tác động trong thế giới thực.
Với tầm nhìn AI, chúng tôi đang mở rộng sự lãnh đạo của chúng tôi trong tiếng nói và AI trò chuyện để xác định lại cách con người tương tác với các sản phẩm và dịch vụ được cung cấp và sử dụng bởi các doanh nghiệp.
Vì vậy, nó hoạt động như thế nào? Vision AI lấy một nguồn cấp dữ liệu trực tiếp từ máy ảnh và hợp nhất nó với công nghệ giọng nói của công ty, đã vượt trội trong việc tìm hiểu lời nói tự nhiên. Bằng cách xử lý những gì nó nhìn thấy và những gì nó nghe thấy cùng một lúc, hệ thống có thể nắm bắt được ý định thực sự của người dùng theo cách mà một trợ lý giọng nói đơn giản không bao giờ có thể.
Hãy nghĩ về một thợ máy đeo kính thông minh, những người có thể chỉ cần nhìn vào một bộ phận động cơ và yêu cầu hướng dẫn, nhận hướng dẫn trực quan và âm thanh tức thì mà không bao giờ đặt công cụ của họ xuống. Trong một cửa hàng, một nhân viên có thể quét các kệ chỉ bằng cách nhìn vào chúng để có được số lượng hàng tồn kho thời gian thực. Đối với phần còn lại của chúng tôi, điều đó có thể có nghĩa là một ki-ốt lái xe trực quan xác nhận đơn đặt hàng của chúng tôi trên màn hình ngay khi chúng tôi nói.
Một trong những vấn đề kỹ thuật lớn nhất trong việc tạo ra một hệ thống như vậy là đảm bảo các yếu tố âm thanh và thị giác được đồng bộ hóa hoàn hảo. Bất kỳ độ trễ nào cũng sẽ phá vỡ ảo ảnh của một cuộc trò chuyện tự nhiên.
Pranav Singh, VP của Kỹ thuật tại Soundhound AI, nhận xét: Từ với tầm nhìn AI, chúng ta đang hợp nhất nhận dạng thị giác và trí thông minh đàm thoại vào một dòng chảy, đồng bộ hóa duy nhất. Mỗi khung hình, mọi cách nói, mọi ý định đều được giải thích trong cùng một hệ sinh thái.
Đây là sự đổi mới tại giao điểm của trí thông minh và thực thi, cung cấp AI nhìn thấy những gì bạn nhìn thấy, nghe những gì bạn nói và trả lời trong thời điểm này.
Đối với các doanh nghiệp áp dụng công nghệ này, lời hứa là cung cấp dịch vụ nhanh hơn, ít sai lầm hơn và khách hàng hạnh phúc hơn. Đó là về việc loại bỏ ma sát và làm cho công nghệ cảm thấy không giống như một công cụ bạn phải vận hành và giống như một đối tác giúp bạn hoàn thành công việc.
Khả năng trực quan mới này không phải là bản nâng cấp duy nhất được tung ra. Công ty gần đây cũng đã cải thiện bộ não trực tuyến của hệ thống với một bản cập nhật mới, Amelia 7.1. Sự tăng cường này làm cho nó Đại lý AI Nhanh hơn, chính xác hơn và giúp doanh nghiệp kiểm soát và minh bạch hơn về cách họ làm việc.
Bằng cách kết hợp thị giác và âm thanh, Soundhound đang nhắm đến việc đẩy chúng ta đến gần một thế giới nơi tương tác với AI cảm thấy dễ dàng và trực quan như nói chuyện với người khác.
(Ảnh của Christian Lue)
Xem thêm: Học viện Alan Turing: Nhân văn là chìa khóa cho tương lai của AI

Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra AI & Big Data Expo Diễn ra tại Amsterdam, California và London. Sự kiện toàn diện được cùng đặt với các sự kiện hàng đầu khác bao gồm cả Hội nghị tự động hóa thông minhThì BlockxThì Tuần Chuyển đổi sốVà An ninh mạng & Triển lãm đám mây.
Khám phá các sự kiện và hội thảo trên web về công nghệ doanh nghiệp sắp tới được cung cấp bởi TechForge đây.