



- Công bố khoa học và công nghệ Việt Nam
Nghiên cứu chung về ngôn ngữ
Nguyễn Sơn, Hồ Viết Hoàng, Đinh Điền(1), Lương An Vinh, Nguyễn Thị Như Điệp
Mô hình so sánh các văn bản tiếng Việt theo độ khó
Comparing Vietnamese texts by readability
Tạp chí khoa học - Trường Đại học Huế
2021
130
123-130
1859-1388
Độ khó của văn bản là chỉ số xác định văn bản dễ hay khó đọc ở mức nào. Độ khó của văn bản đóng vai trò vô cùng quan trọng trong việc soạn thảo, phát hành và lựa chọn sách, đặc biệt là trong lĩnh vực giáo dục. Nghiên cứu về độ khó của văn bản đã được quan tâm từ lâu nhưng chủ yếu là cho tiếng Anh và một số ngôn ngữ phổ biến khác. Trong bài báo này, chúng tôi trình bày một phương pháp so sánh độ khó của các văn bản tiếng Việt với nhau bằng máy tính, sử dụng bộ phân lớp SVM. Bộ ngữ liệu được sử dụng là các tác phẩm văn học Việt Nam được đánh giá độ khó tương quan với nhau thông qua một số người đọc. Phương pháp này không đòi hỏi quá nhiều chi phí để xây dựng bộ ngữ liệu huấn luyện nhưng cũng đạt được độ chính xác xấp xỉ 80%. Đây cũng là tiền đề cho việc so sánh và lựa chọn các văn bản sao cho phù hợp với trình độ đọc của người đọc.
Readability is a concept that describes the degree to which a text is easy or difficult to read. It has an important role in text drafting, publishing and document selecting, especially in education. Research on text readability has long been concerned but mainly for English and some other popular languages. In this paper, we present a method of comparing the readability of Vietnamese texts using an SVM classifier. The corpus we used for the experiment is Vietnamese literary texts evaluated for their relative readability by some readers. This method does not require too much effort to build a training corpus but also achieves approximately 80% accuracy. This is also a prerequisite for the comparison and selection of text to fit the reader's reading level.
TTKHCNQG, CVv 469
- [1] Vajjala, S., & Meurers, D. (2012), On Improving the Accuracy of Readability Classification using Insights from Second Language Acquisition,Paper presented at the Proceedings of the Seventh Workshop on Building Educational Applications Using NLP, Montr\'{e}al
- [2] Tanaka-Ishii, K., Tezuka, S., & Terada, H. (2010), Sorting Texts by Readability,Comput. Linguist.
- [3] Si, L., & Callan, J. (2001), A Statistical Model for Scientific Readability,Paper presented at the Proceedings of the Tenth International Conference on Information and Knowledge Management
- [4] Schwarm, S. E., & Ostendorf, M. (2005), Reading Level Assessment Using Support Vector Machines and Statistical Language Models.,Paper presented at the Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, Stroudsburg, PA, USA.
- [5] Nguyen, L. T., & Henkin, A. B. (1985), A Second Generation Readability Formula for Vietnamese,Journal of Reading
- [6] Nguyen, L. T., & Henkin, A. B. (1982), A Readability Formula for Vietnamese,Journal of Reading
- [7] Mc Laughlin, G. H. (1969), SMOG grading-a new readability formula,Journal of Reading
- [8] Luong, A.-V., Nguyen, D., & Dinh, D. (2017), Examining the text-length factor in evaluating the readability of literary texts in Vietnamese textbooks,Paper presented at the 2017 9th International Conference on Knowledge and Systems Engineering (KSE)
- [9] Kincaid, J. P., Fishburne, R. P., Rogers, R. L., & Chissom, B. S. (1975), Derivation of New Readability Formulas (Automated Readability Index, Fog Count and Flesch Reading Ease Formula) for Navy Enlisted Personnel,Technical Training, Research B(February)
- [10] Heilman, M., Collins-Thompson, K., Callan, J., & Eskenazi, M. (2007), Combining Lexical and Grammatical Features to Improve Readability Measures for First and Second Language Texts,Paper presented at the Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics;
- [11] Flesch, R. (1949), The Art of Readable Writing,
- [12] Dinh, D., Nguyen, T. N., & Ho, H. T. (2018), Building a corpus-based frequency dictionary of Vietnamese. In,
- [13] Dale, E., & Chall, J. S. (1949), The Concept of Readability,Elementary English
- [14] Bailin, A., & Grafstein, A. (2016), Readability: Text and Context: Palgrave Macmillan UK.,