Lọc theo danh mục
  • Năm xuất bản
    Xem thêm
  • Lĩnh vực
liên kết website
Lượt truy cập
 Lượt truy cập :  30,128,584
  • Công bố khoa học và công nghệ Việt Nam

Toán học ứng dụng

Dương Thị Nhung, Bùi Thị Thanh Xuân(1)

Cải tiến thuật toán tối ưu giải bài toán suy diễn hậu nghiệm với mô hình chủ đề

Improvement optimization algorithms applied for solving the posterior inference problem in topic models

Khoa học và Công nghệ - Đại học Thái Nguyên

2019

7

69-74

1859-2171

Bài toán suy diễn hậu nghiệm cho mỗi văn bản đóng vai trò quan trọng trong mô hình chủ đề. Tuy nhiên, trong quá trình giải bài toán suy diễn này thường đưa về dưới dạng một bài toán tối ưu không lồi với dữ liệu lớn, do đó nó thường là bài toán NP-khó. Có nhiều phương pháp được đề xuất để giải xấp xỉ bài toán suy diễn hậu nghiệm như phương pháp Variational Bayes (VB), collapsed variational Bayes (CVB) hay phương pháp collapsed Gibbs sampling (CGS),... Tuy nhiên các phương pháp này hầu hết không đảm bảo về chất lượng cũng như tốc độ hội tụ của thuật toán. Với ý tưởng sử dụng thuật toán Online Frank-Wolfe (OFW) và thuật toán Online Maximum a Posterior Estimation (OPE), chúng tôi đề xuất hai thuật toán cải tiến có hiệu quả giải bài toán suy diễn hậu nghiệm với mô hình chủ đề, đó là IOPE1, IOPE2. Bằng việc sử dụng biên ngẫu nhiên, xấp xỉ ngẫu nhiên và phân phối ngẫu nhiên như phân phối Uniform, phân phối Bernoulli, các đề xuất của chúng tôi được sử dụng để phát triển các phương pháp mới có hiệu quả để học các mô hình chủ đề từ bộ sưu tập văn bản lớn.

The posterior inference problem for individual text plays an important role in the topic models. However, in solving this problem, it is usually given as a nonconvex optimization problem with the large datasets, so it is often NP-hard. There are many methods proposed to approximate the posterior inference problem such as Variational Bayes (VB), collapsed variational Bayes (CVB) or collapsed Gibbs sampling (CGS) methods, but these methods do not guarantee the quality or convergence rate. Using the idea of Online Frank-Wolfe algorithm (OFW) and Online Maximum a Posteriori Estimation (OPE) algorithm, we propose two efficient algorithms for solving the posterior inference problem in the topic models which are IOPE1 and IOPE2. Using stochastic bounds, stochastic approximation and probability distributions such as uniform distribution, Bernoulli distribution, our improvements are used to develop new effective method for learning LDA from large text collections. Experimental results show that our approaches are often more effective than OPE.

TTKHCNQG, CTv 178

  • [1] Khoat Than; Tung Doan (2016), Fast algorithms for inference in topic models,Technical report
  • [2] Khoat Than; Tung Doan (2014), Dual online inference for latent Dirichlet allocation,In ACML. Journal of Machine Learning Research: W&CP
  • [3] Elad Hazan; Satyen Kale (2012), Projection-free Online Learning,ICML 2012
  • [4] Léon Bottou (1998), Online learning and stochastic approximations,Online learning in neural networks, 17(9), pp.142
  • [5] Nikolaos Aletras; Mark Stevenson (2013), Evaluating topic coherence using distributional semantics,In Proceedings of the 10th International Conference on Computational Semantics (IWCS 2013), pp. 13-22
  • [6] David M. Blei; Andrew Y. Ng; Michael I. Jordan, (2003), Latent Dirichlet allocation,Journal of Machine Learning Research, 3(3), pp. 993–1022