Lọc theo danh mục
  • Năm xuất bản
    Xem thêm
  • Lĩnh vực
liên kết website
Lượt truy cập
 Lượt truy cập :  30,197,999
  • Công bố khoa học và công nghệ Việt Nam

Khoa học thông tin

Tuấn Nguyên Hoài Đức(1), Phạm Hữu Sang, Hoàng Văn Thức

Xây dựng ngữ liệu gán nhãn ngữ nghĩa y sinh bằng hướng tiếp cận bán tự động

A semi-automatic approach to biomedical semantic role corpus construction

Phát triển Khoa học và Công nghệ: Khoa học Tự nhiên (ĐHQG TP. Hồ Chí Minh)

2022

2

2083-2094

2588-106X

Bài viết trình bày một giải pháp bán tự động để xây dựng bộ ngữ liệu gán nhãn ngữ nghĩa Y sinh mang tên PASBio+. Bộ ngữ liệu PASBio+ chứa nhãn Cấu trúc Đối số Vị ngữ, một dữ kiện quan trọng bao quát toàn bộ nội dung chính của câu. Do hơn 86% đối số trong Y sinh khác biệt đáng kể so với đối số trong lĩnh vực tổng quát nên ngữ liệu được gán nhãn theo PASBio, một bộ khung đối số được soạn chuyên biệt dành riêng cho Y sinh. Tiền đề của PASBio+ là 317 câu đã gán nhãn của PASBio. Từ đó, với giải pháp bán tự động này, các chuyên gia chỉ cần gán nhãn thủ công 87 câu để cuối cùng có ngữ liệu gồm 2.500 câu đã gán nhãn đầy đủ. Điều này đạt được nhờ Phương Pháp Ví Dụ Ảo, một kỹ thuật tăng cường dữ liệu mạnh mẽ đầy linh hoạt được áp dụng thành công trong hàng loạt tác vụ khác nhau. Ngữ liệu sinh ra bởi Phương Pháp Ví Dụ Ảo được qui định bằng hai quy tắc tuần tự để đảm bảo tri thức Y sinh luôn được giữ đúng đắn (quy tắc Trao đổi và quy tắc Thay thế). PASBio+ cũng được tăng cường độ phong phú mẫu câu bằng biến thể ngữ pháp của các câu gốc, giúp ngữ liệu có độ phủ rộng trên các cách hành văn tự nhiên đa dạng. Ngoài ra, ngay từ đầu, bộ câu gốc của PASBio cũng được làm giàu bằng nguồn văn bản ngoài, là bộ câu bổ sung được chọn lọc từ ngữ liệu Y sinh GREC. Bên cạnh đó, PASBio+ đạt độ phân bố tần suất rất đồng đều giữa các vị ngữ, nhờ đó loại bỏ vấn đề dữ liệu thưa (data sparsity), giúp hạn chế lỗi quá khớp (overfitting) trong học máy. Kết quả đánh giá thực nghiệm cho thấy bộ ngữ liệu đề nghị này, với vai trò là ngữ liệu huấn luyện, đã giúp mô hình học sâu tăng điểm F thêm 52,2% và 22,5% khi so sánh lần lượt với mô hình huấn luyện bằng ngữ liệu gốc chưa tăng cường và ngữ liệu của lĩnh vực tổng quát.

A semi-automatic solution to build a iomedical semantic role corpus named PASBio+ was proposed. The corpus was annotated with a predicate argument tructure, the important information that revealed the main content of a sentence. Because more than 86% of the arguments in the biomedical domain significantly differed from those in the general domain, this proposed corpus was labeled on top of 317 labeled sentences from PASBio, the argument frameset specifically designed for the Biomedical domain. From these sentences, the proposed semi-automatic solution additionally generated 87 sentences which were manually annotated by our experts. More instances were further generated by using the virtual example method, a powerful and flexible data augmentation technique that ha been successfully applied in a wide range of tasks. Specifically, two sequential rules (the swap rule and the replace rule) were proposed to ensure that the biomedical knowledge was always kept correct. PASBio+ was also augmented by adding grammatical variants of the original sentences which kept the corpus having a wide coverage of diverse natural writing styles. In addition, from the very beginning, the PASBio's original sentence set was also enriched by an external text source which was an additional set of sentences selected from GREC iomedical corpus. As a result, a corpus with 2,500 fully labeled sentences with a uniform frequency distribution among predicates was obtained, thereby eliminating the problem of data sparsity and helping to restrict the overfitting in machine learning. The experimental results showed that when using the augmented corpus to train a semantic role labeling model, an increase in the F score by 52.2% or 22.5% were obtained compared to those trained by using the original PASBio corpus or a general domain one, respectively.

TTKHCNQG, CTv 149