Trình bày quá trình thử nghiệm nhận dạng trên một cơ sở dữ liệu tiếng gồm một tập các từ tiếng Việt giống nhau về âm đầu, âm vần và chỉ khác nhau về thanh điệu. Cơ sở dữ liệu tiếng bao gồm 294 câu, mỗi câu gồm có 6 từ "na, ná, nạ, nã, nả, nà" được sắp xếp theo thứ tự ngẫu nhiên, thu âm do giọng một người đọc trong môi trường văn phòng. Thử nghiệm áp dụng các phương pháp nhận dạng tiếng: mạng nơron nhiều lớp, mô hình Markov ẩn (HMM) và hệ thống lai ghép giữa các mạng nơron và mô hình Markov ẩn (NN-HMM). Các hệ thống nhận dạng được huấn luyện bằng cùng một tập gồm 214 câu, sau đó được tiến hành nhận dạng trên một tập kiểm tra gồm 63 câu, độc lập với các câu đã dùng để huấn luyện trước đó. Kết quả nhận dạng cho thấy hệ thống NN-HMM cho kết quả nhận dạng cao nhất với độ chính xác 94.93 phần trăm ở mức từ và 73.91 phần trăm ở mức câu