Abstract
Nghiên cứu khảo sát khả năng nhận diện người dùng có dấu hiệu rối loạn tăng động giảm chú ý (ADHD) thông qua ngôn ngữ trên mạng xã hội. Dữ liệu được lấy từ bộ Twitter-STMHD và xử lý ở mức người dùng, với 1.999 mẫu sau tiền xử lý. Trên tập dữ liệu này, nghiên cứu so sánh 3 mô hình gồm: Logistic Regression, Linear SVM và DistilBERT. Kết quả cho thấy, cả 3 mô hình đều phân biệt được 2 nhóm ADHD và đối chứng, trong đó Linear SVM đạt hiệu quả cao nhất với Accuracy 0.8733 và F1-score 0.8812. Kết quả gợi ý tín hiệu ngôn ngữ trên mạng xã hội có thể hỗ trợ sàng lọc ADHD, nhưng không thay thế chẩn đoán lâm sàng.