“Đang sử dụng AI trong 70% thời gian dành cho tự động hóa như kiểm duyệt quy trình tự động, kiểm tra chất lượng, v.v. Sau đó, sử dụng AI cho trải nghiệm người nghe. Chúng tôi luôn cố gắng đảm bảo người nghe của mình có trải nghiệm nghe tốt nhất với nội dung phù hợp nhất, tiêu chuẩn âm thanh chất lượng và trải nghiệm phát trực tuyến không bị gián đoạn. Vì vậy, đối với chúng tôi, nếu bạn nói về AI, chúng tôi thường sử dụng tự động hóa mọi thứ trong sơ đồ người mới và xây dựng trải nghiệm người nghe tốt hơn cho tương lai, ” Prateek DixitCTO và Đồng sáng lập, Pocket FM.
Với lượng người nghe ngày càng tăng, Pocket FM nhận thấy điều cần thiết là phải phát triển các mô hình AI hỗ trợ học sâu để thiết lập hồ sơ người nghe duy nhất dựa trên mối quan hệ nội dung của họ, điều này sẽ đóng vai trò là xương sống chính cho công cụ đề xuất nội dung tùy chỉnh. Tuy nhiên, vì chúng là các nền tảng hướng tới cộng đồng, nên rất khó để phân tích các tệp âm thanh này và trích xuất dữ liệu cho Machine Learning để tiếp tục mở rộng kiến trúc học sâu của chúng.
“Chúng tôi làm việc với cộng đồng người sáng tạo của mình, bao gồm các tác giả xuất sắc và các kịch bản từ nhiều ngôn ngữ. Điều này trở thành thách thức về mặt xử lý. Cơ sở hạ tầng học tập sâu của chúng tôi lấy các tệp âm thanh này và chuyển 25-30% phần nội dung thành văn bản thông qua chuyển đổi thông minh chuyển giọng nói thành văn bản của chúng tôi. Sau đó, chúng tôi gắn nhãn các tệp âm thanh này bằng các siêu dữ liệu khác nhau, bao gồm danh mục, thể loại, tác giả, người sáng tạo, v.v. Hơn nữa, dữ liệu này được khoa học dữ liệu và đường ống nội dung sử dụng để củng cố công cụ đề xuất. Tính cách người nghe, được xây dựng thông qua phân đoạn dữ liệu của chúng tôi, được đề xuất trong thời gian thực. Giả sử bạn không phải là người lắng nghe quá nặng vào ngày hôm sau hoặc hai ngày kể từ bây giờ. Vì vậy, làm thế nào tôi có thể khuyến khích bạn ngày hôm nay? Do đó, chúng tôi có hệ thống đó cho phép chúng tôi thực hiện một số việc trên các tính năng xung quanh việc giảm giá tương tác, giúp tăng tỷ lệ giữ chân của chúng tôi, ”ông mở rộng.
Tuy nhiên, nếu bạn thực hiện bất kỳ quy trình học máy nào, thì sẽ có nhiều bước liên quan, vì thuật toán là duy nhất cho mọi sản phẩm.
“Chúng tôi rõ ràng không thể kế thừa thuật toán của người khác. Vì chúng tôi có nội dung hư cấu đặc biệt dài, chúng tôi có một loại thách thức khác về đề xuất. Vì vậy, mã hóa, chiếm khoảng 70%, hoàn toàn được xây dựng trong nhà trong khi chúng tôi nhận trợ giúp từ Amazon về cơ sở hạ tầng. Chúng tôi đề cập đến các công cụ như Sagemaker, EMR, v.v. Điều này đảm bảo rằng chúng tôi không liên quan đến quá nhiều băng thông trong việc lập kế hoạch cơ sở hạ tầng và dung lượng. Vì vậy, các thuật toán được xây dựng hoàn toàn nội bộ và chúng tôi đã hợp tác với AWS cho cơ sở hạ tầng. Điều này cho phép chúng tôi tập trung vào phần quan trọng, đó là thuật toán và đảm bảo không tiêu tốn quá nhiều băng thông tài nguyên về mặt xây dựng cơ sở hạ tầng, ”Dixit nói thêm.
Những thách thức trên đường đi
Là một hình thức lâu dài hướng tới cộng đồng giải trí âm thanhPocket FM phải đối mặt với những thách thức trong việc đảm bảo chất lượng nội dung và duy trì tiêu chuẩn âm thanh đồng nhất.
Ông giải thích, “Không có nhiều giải pháp cụ thể trên thị trường cho âm thanh và chúng tôi không có các giải pháp để kiểm duyệt và xử lý âm thanh đặc biệt. Chúng tôi đang xây dựng các giải pháp này trong nội bộ bằng cách sử dụng AI / ML để tự động hóa việc xử lý các tệp âm thanh trên quy mô lớn. Nhưng đây không phải là những giải pháp cụ thể trên thị trường. Chúng tôi đang làm việc để xây dựng các hệ thống nội bộ của chúng tôi để bảo mật âm thanh bằng cách sử dụng những hệ thống này sẽ giúp chúng tôi tự động hóa quy trình kiểm tra chất lượng này. Ở quy mô mà chúng tôi hoạt động, chúng tôi nhận được hàng triệu tệp âm thanh và thật khó để làm điều đó theo cách thủ công. Do đó, chúng tôi không dựa vào các quy trình và sự can thiệp thủ công. “
Do đó, công ty đang phát triển các giải pháp học sâu và tự động hóa âm thanh này trong các đường ống QC. Họ đã cấu trúc đường ống của mình theo cách xử lý rất nhiều biến và điểm dữ liệu từ người nghe. “Chúng tôi tiếp tục điều chỉnh hệ thống với các điểm dữ liệu từ người nghe của chúng tôi như nhà khai thác mạng, tốc độ internet và mô hình tiêu thụ lịch sử. Các biến này giúp xây dựng hồ sơ người nghe và giúp chúng tôi thực hiện một cách tiếp cận tùy chỉnh hơn để tối ưu hóa trải nghiệm một cách thông minh, ”Dixit nói thêm.
Giảm 25% chi phí cơ sở hạ tầng
Với việc mở rộng kinh doanh, mục tiêu chính của họ là kết hợp công nghệ với tư duy cắt giảm chi phí. Ví dụ, cho đến gần đây, việc lọc nội dung của họ được thực hiện theo cách thủ công, điều này khiến chúng tôi tốn rất nhiều thời gian và tiền bạc. Tự động hóa đã hỗ trợ Pocket FM trong việc giảm chi phí kiểm duyệt nội dung.
“Chúng tôi nghĩ, tại sao chúng tôi không tưới nước cho nhà ngoại cảm hoàn chỉnh? Nó giống như một hệ thống hoàn hảo, và nếu chúng tôi bỏ lỡ một vài tháng trong hệ thống đó, ít nhất nó có thể giúp chúng tôi tiết kiệm được số tiền này. Chúng tôi có thể để nhóm tập trung vào một cái gì đó phù hợp hơn. Thay vì bắt buộc hoặc kiểm duyệt một chút. Hệ thống hiện đại là một trong những thứ có lẽ được dành để hỗ trợ chi phí tiết kiệm doanh thu của chúng tôi. ”
Nêu ví dụ, Dixit nói rằng bằng cách triển khai mô hình thanh toán vi mô, Pocket FM đã đạt được mức tăng doanh thu 350% chỉ trong một quý. Họ đã xây dựng toàn bộ mô hình xoay quanh tiền ảo trong ứng dụng thông qua cổng thanh toán của đối tác để làm cho mô hình đăng ký hấp dẫn người nghe. Điều này cho phép cộng đồng người nghe của họ sử dụng các tập giới hạn miễn phí hàng ngày hoặc mở khóa một hoặc nhiều tập thông qua cơ chế thanh toán vi mô trong ứng dụng của họ.
Khi chúng tăng theo cấp số nhân, kế hoạch tiếp theo của họ nhằm mục đích tiết kiệm sức mạnh tính toán của mình. “Mọi thứ đều là khả năng tính toán và sức mạnh tính toán. Giờ tính toán càng cao, chi phí cơ sở hạ tầng cho bạn càng cao. Chúng tôi đang có kế hoạch tạo ra khoảng 3/4 những gì chúng tôi hiện có bằng cách chuyển sang một nền tảng hoạt động hoàn chỉnh bằng cách sử dụng cơ sở dữ liệu như Kubernetes. Chúng tôi nhận thấy rằng chúng tôi có thể giảm một phần tư chi phí chính thức đó. Vì vậy, chúng tôi đang nỗ lực giảm 25% chi phí cơ sở hạ tầng bằng cách thực hiện chiến lược đa đám mây và ảo hóa “, ông nói.
NLP tập trung
Ngoài ra, công ty có các ưu tiên cao sẽ làm việc xung quanh NLP và công cụ chuyển văn bản thành giọng nói. Do đó, đối với quá trình dịch thuật, họ đang có kế hoạch tăng cường khía cạnh xử lý ngôn ngữ của mình.
“Trên công cụ chuyển văn bản thành giọng nói, chúng tôi đang làm việc để thu âm các nghệ sĩ lồng tiếng và với một số đối tác đang giúp chúng tôi tối ưu hóa chất lượng chuyển văn bản thành giọng nói và quy trình mở rộng quy mô. Đây là những lĩnh vực trọng tâm trong vài tháng tới sẽ giúp chúng tôi nâng cao trải nghiệm nội dung cho người nghe, ”ông nói.
Nguồn : https://cio.economictimes.indiatimes.com/news/next-gen-technologies/how-ai-is-enabling-pocket-fm-to-channel-its-10x-user-growth/92118523.