Lọc theo danh mục
  • Năm xuất bản
    Xem thêm
  • Lĩnh vực
liên kết website
Lượt truy cập
 Lượt truy cập :  30,060,625
  • Công bố khoa học và công nghệ Việt Nam

50.41

Người máy và điều khiển tự động

Nguyễn Hùng Dũng, Trương Xuân Việt, Trương Quốc Định, Lương Huy Nhật, Huỳnh Gia Khương, Nguyễn Hoàng Việt, Phạm Văn Cường(1)

Đề xuất mô hình quản lý và trực quan hóa kết quả thống kê văn bản trực tuyến - ứng dụng trong phân tích xu hướng nghiên cứu khoa học tại trường Đại học Cần Thơ

Recommending model management and visualize statistical results online text - Applying the analysis of trends in scientific research at Can Tho University

Khoa học (Đại học Cần Thơ)

2024

45A

1-11

1859-2333

Đề xuất mô hình quản lý và khai thác hữu hiệu các dữ liệu phong phú, đa dạng đang tồn tại dưới dạng văn bản, bảng tính của một tổ chức. Bên cạnh đó, chúng tôi cũng đề xuất giải pháp công nghệ cụ thể dựa trên các nền tảng Big Data phổ biến bao gồm: 1) HDFS (Hadoop Distributed File System) của Hadoop dùng trong quản lý tập tin, 2) Lucene để lập chỉ mục nghịch đảo (Inverted Index) cho văn bản, 3) Apache Solr hỗ trợ cơ chế quản lý chỉ mục nghịch đảo, tìm kiếm toàn văn và một số chức năng tìm kiếm nâng cao. Bài viết cũng trình bày kết quả thực nghiệm, tổng hợp kết quả và trình bày biểu đồ thống kê của việc áp dụng mô hình trong phân tích xu hướng nghiên cứu khoa học tại Đại học Cần Thơ.

The objective of the article is to propose a suitable management model which could be used to exploit rich and diversified data in different formats (i.e. text and spreadsheet). Besides, the author also propose specific solutions based on a common Big Data platform, including: (1) HDFS (Hadoop Distributed File System) of Hadoop, which could be used in file management, (2) Lucene, which could be used to establish reversed indexing for text and (3) Apache Solr, which could be used to support reversed indexing management mechanism, full text searching and advanced searching functions. This article also presents experimental results, aggregates statistical results and displays statistical chart of applying the model into the analysis of trends in scientific research at Can Tho University.

TTKHCNQG, CVv403

  • [1] Trương Quốc Định, Nguyễn Quang Dũng (2012), Một giải pháp tóm tắt văn bản tiếng Việt tự động,Hội thảo toàn quốc lần thứ XV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông
  • [2] O. Alhabashneh, R. Iqbal, N. Shah, S. Amin, A. James (2011), Towards the Development of an Integrated Framework for Enhancing Enterprise Search Using Latent Semantic Indexing,ICCS 2011, LNAI 6828
  • [3] (2015), Lucene,http://lucene.apache.org/solr/index.html
  • [4] Le-Hong, P., T M H. Nguyen, A. Roussanaly, T V. Ho (2008), A hybrid approach to word segmentation of Vietnamese texts,Proceedings of the 2nd International Conference on Language and Automata Theory and Applications
  • [5] (2014), Khung tích hợp Hortonworks,http://hortonworks.com
  • [6] (2015), Khung tích hợp Cloudera,http://www.cloudera.com
  • [7] Doug Cutting (2013), Apache Lucene: Then and Now,http://www.meetup.com/fr-FR/Hadoop-DC/events/140608632
  • [8] Cao Mạnh Đạt (2013), Bộ phân tích từ vựng tiếng Việt cho Lucene,https://caomanhdat.wordpress.com/2013/06/26/bộ-phân-tích-từ-vựng-tiếng-việt-cho-lucene
  • [9] Bernard Marr (2015), Why only one of the 5 Vs of big data really matters,http://www.ibmbigdatahub.com/blog/why-only-one-5-vs-big-data-really-matters
  • [10] (2015), Banana for Solr,https://github.com/lucidworks/banana