Thông tin Đề tài

Tên đề tài Nghiên cứu Phát triển Hệ thống báo nói tự động cho báo điện tử dựa trên nền tảng web và công nghệ tổng hợp tiếng nói.
Mã số đề tài VAST01.02/14-15
Cơ quan chủ trì (Cơ quan thực hiện) Viện Công nghệ Thông tin
Thuộc Danh mục đề tài Hướng Công nghệ thông tin, điện tử, tự động hóa và công nghệ vũ trụ (VAST01)
Họ và tên TS. Vũ Tất Thắng
Thời gian thực hiện 01/01/2014 - 01/01/2016
Tổng kinh phí 600.000.000 đồng
Xếp loại Đạt
Mục tiêu đề tài

•    Xây dựng hệ thống tự động chuyển báo điện tử trên nền web thành báo nói dựa vào công nghệ tổng hợp tiếng nói tiếng Việt.
•    Đưa công nghệ này vào thực tiễn.

Kết quả chính của đề tài

* Hệ thống chuyển đổi báo điện tử thành báo nói dựa trên công nghệ tổng hợp tiếng nói tiếng Việt:     01    Biến báo viết thành báo nói trên nhiều môi trường như máy tính PC, cũng như điện thoại smartphone.
Yêu cầu hệ thống đạt được giọng nói nghe rõ, chính xác, giọng nói tự nhiên, có cảm xúc. Hệ thống đọc được các từ viết tắt thông dụng, các cụm từ nước ngoài phổ biến nhiều nhất có thể. Hệ  thống áp dụng được cho các trang báo điện tử phổ biến như dantri.vn, vietnamnet.vn, ... Tin tức cập nhật kịp thời.
Bao gồm đầy đủ các module cấu thành như trong kiến trúc ở hình 10.1 của đề cương:
-    Các module của tầng ứng dụng
-    Các module của tầng thu thập tin tức và xử lí
-    Các module của tầng quản lí tài nguyên

vtthang


* 01 Hệ thống thu thập tin tức và xử lý: Là sản phẩm bổ sung cho hệ thống ở  tầng thu thập tin tức và xử lí, để nâng cấp hệ thống báo nói ViNAS.  Sản phẩm tập trung vào các chức năng nâng cao hướng ngữ cảnh, module chuẩn hóa văn bản, tiếp cận có hệ thống cho chuẩn hóa văn bản tiếng Việt. Văn bản viết đôi khi không đủ tốt để chuyển sang tiếng nói, sản phẩm sẽ đưa văn bản đạt được các chuẩn cần thiết để tiếng nói tạo ra đạt được chất lượng tốt nhất
- Module Chia nhỏ văn bản
- Module Phát hiện từ không chuẩn
- Module Phân loại từ không chuẩn
- Module Khai triển từ không chuẩn
- Các thuật toán xử lí nhập nhằng
* 01 Hệ thống máy chủ quản lý tài nguyên: Là sản phẩm bổ sung cho hệ thống ở tầng quản lí tài nguyên, để nâng cấp hệ thống báo nói ViNAS.
Sản phẩm tập trung vào chất lượng tiếng nói tổng hợp, và khả năng đáp ứng được lượng truy vấn từ lớn đến rất lớn.
- Đáp ứng yêu cầu chất lượng nâng cao của tiếng nói tổng hợp. Server thu thập các yêu cầu từ phía người sử dụng (cách đọc từ viết tắt, sai sót các từ khi đọc,...) để chỉnh sửa các bài báo sao cho phù hợp hơn và lấy các yêu cầu làm dữ liệu tham khảo cho các bài báo tổng hợp sau đó.
- Đáp ứng yêu cầu quản trị tài nguyên text/audio với số lượng hơn 100k bản tin trong cache, các bài báo cần được tổng hợp sẵn là lưu giữ  lại trên server để có thể đáp ứng lượng truy cập lớn mà không quá trễ về thời gian.
- Đáp ứng yêu cầu về phân tích các cấu trúc động của các trang tin để lấy chính xác nội dung bản tin và tổng hợp tiếng nói trong thời gian thực.
* 01 Phần mềm nghe nội dung báo điện tử trên PC: Là sản phẩm bổ sung cho hệ thống ở tầng ứng dụng, để nâng cấp hệ thống báo nói ViNAS trên môi trường PC.
- Đáp ứng nhu cầu thống kê các trang tin tức, các mục tin được chú ý, tập trung xử lý các sự kiện được nhiều sự quan tâm của người sử dụng
- Đáp ứng nhu cầu cập nhập tin tức gần như tức thời, trong vòng 5 phút xuất hiện bản tin mới, sẽ có bản tin audio được cập nhập.
-Đáp ứng như cầu liên kết với hệ thống của người sử dụng, quản lý người dùng trên môi trường PC của hệ thống.
* Công bố 09 bài báo: Trong đó có 01 bài tạp chí thuộc SCI-E, 02 tạp chí trong nước, 05 bài đăng trong kỷ yếu hội nghị quốc tế, 01 bài đăng trong kỷ yếu hội nghị quốc gia.
* 01 Báo cáo các loại của đề tài. Các báo cáo ở các dạng thức: Tổng quan, tổng kết, tóm tắt, kỹ thuật, tài chính…
* Đào tạo: 01 Thạc sĩ

Những đóng góp mới

Đề tài đã tập trung vào các yêu cầu kỹ thuật, hướng sản phẩm với kiến trúc hệ thống đáp ứng với hoạt động của một hệ thống dựa trên nền tảng web, cung cấp khả năng tự động biến báo điện tử thành báo nói dựa trên công nghệ tổng hợp tiếng nói VieTalk, đưa công nghệ tổng hợp tiếng Việt vào một giải pháp tổng thể, có tính thực tiễn, nhằm hướng đến hệ thống báo nói đa nền tảng, trọng tâm là cung cấp khả năng tương tác bằng tiếng nói cho các thiết bị máy tính, di động.
Sản phẩm đề tài có thể để hoạt động như những dịch vụ Services, và cho dùng từ xa qua internet. Sản phẩm đề tài còn có ý nghĩa ứng dụng trong thực tế, cả cho người dùng nói chung, và đặc biệt là hỗ trợ các đơn vị làm báo điện tử có thể thêm tính năng hỗ trợ người dùng bằng giọng đọc tổng hợp.

Địa chỉ ứng dụng

Các địa chỉ đã áp dụng sản phẩm của đề tài:
-    Trung tâm công nghệ thông tin Hải phòng, 36 Văn Cao, Hải An, Hải Phòng.
-    VOV Giao thông quốc gia, tầng 10, 58 Quán Sứ, Hàng Bông, Hoàn Kiếm, Hà Nội.