Trí tuệ nhân tạo nhận diện giọng nói

Ứng dụng Memobot có thể nhận diện và chuyển giọng nói miền Bắc thành văn bản chính xác đến 99%, miền Trung 85%-90% và miền Nam 90%.
Công ty CP Giải pháp Trí thông minh nhân tạo Việt Nam (VAIS) được thành lập vào năm 2018 khi nhóm sáng lập nhận thấy công nghệ nhận dạng giọng nói trên thị trường lúc bấy giờ còn nhiều hạn chế. Tập trung đầu tư, nghiên cứu, chỉ khoảng 1 năm sau đó, sản phẩm trí tuệ nhân tạo Memobot đã ra đời.

Memobot đang được sử dụng trong các cuộc họp của Quốc hội, Chính phủ và nhiều cơ quan nhà nước. Trước đó, vào năm 2019, giải pháp của VAIS được triển khai thử nghiệm thành công tại kỳ họp thứ 7, Quốc hội khóa XIV và nhận được thư khen của tổng thư ký Quốc hội, sau đó tiếp tục được ứng dụng tại các cuộc họp Quốc hội cho đến nay. Đáng chú ý, Memobot còn có thể tự động nhận biết, ngắt đoạn từng lời nói của nhiều người, thậm chí kết nối với ChatGPT để tóm tắt nội dung cuộc họp… nhằm phục vụ người dùng có nhu cầu cao hơn.

Ông Phạm Tấn Anh Vũ giới thiệu công nghệ Memobot tại Sàn giao dịch Công nghệ năm 2023 do Sở Khoa học và Công nghệ TP HCM tổ chức

Ông Phạm Tấn Anh Vũ, đại diện kinh doanh khu vực phía Nam của VAIS cho hay bên cạnh cung cấp ứng dụng giúp chuyển hóa lời nói từ cuộc họp của cơ quan nhà nước, doanh nghiệp (DN) thành chữ viết, khắc phục việc phải nghe lại băng ghi âm mất nhiều thời gian, công ty còn viết phần mềm riêng theo đặt hàng của khách.

“Sau vụ lùm xùm giữa diễn viên Ngọc Lan với công ty bảo hiểm nhân thọ, một hãng bảo hiểm lớn đã đặt hàng VAIS cung cấp giải pháp văn bản hóa nội dung tư vấn của đại lý với khách hàng kèm băng ghi âm để lưu hồ sơ. Mới đây, một ví điện tử cũng phối hợp với công ty triển khai thêm giải pháp xác thực giao dịch bằng giọng nói để tăng bảo mật” – ông Vũ cho biết.

Memobot đã được đưa lên kho ứng dụng Apple store và Play store để phục vụ người dùng cá nhân. Hiện có khoảng 5.000 người dùng ứng dụng và tốc độ tăng trưởng tài khoản đăng ký mới đạt khoảng 2%-3%/tháng. Theo thông tin VAIS ghi nhận được, khoảng 70% người dùng là nhà báo, luật sư, còn lại là những người sáng tạo nội dung số.

Anh Nguyễn Bá Nam, phóng viên của một đài phát thanh ở TP HCM, cho hay sau vài tháng trải nghiệm Memobot phiên bản miễn phí, anh đã đóng phí để sử dụng ứng dụng tốt hơn. Anh Nam nhận xét việc chuyển đổi lời nói của Memobot trong phòng thu hay các cuộc phỏng vấn quy mô nhỏ cho kết quả chính xác cao. Tuy nhiên, với bản thu có nhiều tiếng ồn, tạp âm, phần mềm xử lý còn nhiều lỗi sai.

Ông Phạm Tấn Anh Vũ xác nhận hạn chế trên và cho hay có công nghệ tách tạp âm nhưng chi phí cao. Ông cũng cho biết VAIS luôn kiên trì cải thiện chất lượng ứng dụng nên đã sở hữu kho dữ liệu lớn về giọng nói tiếng Việt, giúp việc chuyển đổi lời nói sang văn bản ngày càng chính xác hơn.

Gặt hái nhiều giải thưởng

Năm 2019, Memobot đoạt giải nhất hạng mục “Nhận dạng giọng nói” với độ chính xác trung bình 95,2% tại cuộc thi “Xử lý ngôn ngữ và giọng nói tiếng Việt” do CLB Xử lý Ngôn ngữ và Tiếng nói tiếng Việt thuộc Hội Tin học Việt Nam tổ chức.

Bộ Thông tin và Truyền thông bình chọn Memobot là giải pháp tiêu biểu về chuyển đổi số năm 2019 nhờ khả năng nhận dạng được tiếng nói miền Bắc và chuyển thành văn bản với độ chính xác 99%, miền Trung 85%-90% và miền Nam 90%.

Gần đây nhất, tại Startup Wheel 2022 – cuộc thi khởi nghiệp thường niên quy mô quốc tế diễn ra tại Việt Nam, VAIS đoạt 2 giải thưởng quan trọng, gồm giải nhì bảng Việt Nam và giải Dự án sáng tạo nhất trong sự kiện Startup Day 2022.

Bài và ảnh: VƯƠNG NGỌC/Theo báo Người lao động