Thuật toán Bayes dựa theo phương pháp học nào

1 MB

Nhấn vào bên dưới để tải tài liệu

Để tải xuống xem đầy đủ hãy nhấn vào bên trên

pdf

4 0 3

pdf

178 0 1

pdf

9 0 13

Đào Đức Anh, Nguyễn Tu Trung, Vũ Văn Thỏa ỨNG DỤNG THUẬT TOÁN BAYES TRONG VẤN ĐỀ DỰ BÁO HỌC LỰC CỦA HỌC SINH PHỔ THÔNG Đào Đức Anh1, Nguyễn Tu Trung1, Vũ Văn Thỏa2 Đại học Thủy Lợi Học viện Công nghệ Bưu chính Viễn thông 1 2 Tóm tắt: Đánh giá học lực là vấn đề quan trọng trong việc đánh giá học sinh phổ thông. Việc đánh giá dựa trên điểm các môn học của học sinh trong suốt quá trình học. Từ lâu, các thuật toán học máy nói chung, thuật toán phân lớp Bayes nói riêng đã được ứng dụng để giải quyết các bài toán phân lớp, dự báo một cách hiệu quả. Bài báo này ứng dụng thuật toán Bayes trong việc dự báo học lực của học sinh để hỗ trợ cho việc quản lý cũng như đánh giá học sinh trong trường phổ thông.1 Từ khóa: Học lực, điểm trung bình, Bayes, học máy thống kê, dự báo. I. MỞ ĐẦU Dự báo là một khoa học và nghệ thuật tiên đoán những sự việc sẽ xảy ra trong tương lai, trên cơ sở phân tích khoa học về các dữ liệu đã thu thập được. Khi tiến hành dự báo cần căn cứ vào việc thu thập, xử lý số liệu trong quá khứ và hiện tại để xác định xu hướng vận động của các hiện tượng trong tương lai nhờ vào một số mô hình toán học (định lượng). Tuy nhiên, dự báo cũng có thể là một dự đoán chủ quan hoặc trực giác về tương lai (định tính) và để dự báo định tính được chính xác hơn, người ta cố loại trừ những tính chủ quan của người dự báo. Có nhiều phương pháp dự báo khác nhau. Hiện nay, việc sử dụng các phương pháp học máy ứng dụng cho các bài toán dự báo trở nên rất phổ biến. Trong đó, dự báo sử dụng phân lớp Bayes được ứng dụng rất rộng rãi… Ví dụ, dự báo giá cả các loại mặt hàng, dự báo tỉ lệ tăng dân số… khi biết các thông tin trong quá khữ và điều kiện cho trước… Phân lớp Bayes cũng được sử dụng một cách trong phân lớp chủ đề văn bản [6]. Một trong những ứng dụng rất phổ biến của phân lớp Bayes là phân loại thư rác. Trong [1], Awad đã trình bày một đánh giá, so sánh một số phương pháp học máy (Bayesian classiﬁcation, k-NN, ANNs, SVMs...) cho vấn đề lọc thư rác. Trong [2], Jialin và cộng sự đã thảo luận, đánh giá về phương pháp lọc SMS rác sử dụng SVM và MTM (message topic model). Trong [4], Phan Hữu Tiếp cùng các cộng sự trình bày quy trình lọc thưc rác tiếng Việt dựa trên thuật toán Naïve Bayes và việc xử lý tách câu tiếng Việt. Trong [5], Tác giả liên hệ: Nguyễn Tu Trung Email: Đến tòa soạn: 2/2020, chỉnh sửa 4/2020, chấp nhận đăng 4/2020 SỐ 01 (CS.01) 2020 Tianda và cộng sự đã trình bày một so sánh giữa bộ phân loại thư rác chỉ sử dụng kĩ thuật Naïve Bayes và bộ phân loại thư rác sử dụng bộ phân loại thư rác kĩ thuật và luật kết hợp. Trong [3], các tác giả đã đánh giá một số cách thức tính xác suất SPAM của token trong phân loại thư rác. Hạnh kiểm và học lực là hai yếu tố rất quan trọng của mỗi học sinh khi tham gia học tập tại trường. Trong đó, kết quả xếp loại học lực của học sinh sẽ được sử dụng để đánh giá và xét cho học sinh lên lớp và để đánh giá xếp loại khen thưởng [7]. Căn cứ vào điểm trung bình các môn học kỳ và cả năm, xếp loại học tập được chia thành 5 loại là: Giỏi, Khá, Trung bình, Yếu, Kém. Do đó, việc đánh giá xếp loại học lực học sinh được thực hiện rất chặt chẽ. Trong bài báo này, chúng tôi đề xuất giải pháp ứng dụng thuật toán Bayes trong vấn đề dự báo học lực học sinh dựa trên điểm số các môn của học sinh. II. ĐÁNH GIÁ HỌC LỰC Theo quy chế đánh giá xếp loại học lực[7], kết quả học lực của học sinh được tổng hợp, tính toán và đánh giá qua các bài kiểm tra. A. Dữ liệu phục vụ cho việc đánh giá Các hình thức kiểm tra bao gồm: Kiểm tra miệng (kiểm tra bằng hỏi đáp), kiểm tra viết, kiểm tra thực hành. Các loại bài kiểm tra bao gồm:  Kiểm tra thường xuyên: Kiểm tra miệng; kiểm tra viết dưới 1 tiết, kiểm tra thực hành dưới 1 tiết.  Kiểm tra định kỳ: Kiểm tra viết từ 1 tiết trở lên; kiểm tra thực hành từ 1 tiết trở lên, kiểm tra học kỳ. Hệ số các loại bài kiểm tra:  Đối với các môn học đánh giá bằng cho điểm: Điểm kiểm tra thường xuyên tính hệ số 1, điểm kiểm tra viết và kiểm tra thực hành tư 1 tiết trở lên tính hệ số 2, điểm kiểm tra học kỳ tính hệ số 3.  Đối với các môn đánh giá bằng nhận xét: Kết quả nhận xét của các bài kiểm tra đều tính 1 lần khi xếp loại môn học sau mỗi học kỳ. TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 46 ỨNG DỤNG THUẬT TOÁN BAYES TRONG VẤN ĐỀ DỰ BÁO HỌC LỰC CỦA HỌC SINH PHỔ THÔNG Điểm trung bình môn học kỳ (ĐTBmhk) là trung bình cộng của điểm các bài KTtx, KTđk và KThk với các hệ số quy định tại Điểm a, Khoản 3, Điều 7 Quy chế này: ĐTBmhk = Trong đó: TĐKTtx + 2 x TĐKTđk + 3 x ĐKThk Số bài KTtx + 2 x Số bài KTđk + 3  D: tập dữ liệu huấn luyện, được vector hoá dưới dạng 𝑥⃗ = (𝑥1 , 𝑥2 , … , 𝑥𝑛 ). (1)  Ci : tập các tài liệu của D thuộc lớp Ci với i={1,2,3,…}.  Các 𝑥1 , 𝑥2 , … , 𝑥𝑛 độc lập xác suất đôi một với nhau.  TĐKTđk: Tổng điểm của các bài KTđk.  ĐKThk: Điểm bài KThk. Điểm trung bình môn cả năm (ĐTBmcn) là trung bình cộng của ĐTBmhkI với ĐTBmhkII, trong đó ĐTBmhkII tính hệ số 2: Thuật toán Naïve Bayes cơ bản:  Bước 1 : Huấn luyện Naïve Bayes (dựa vào tập dữ liệu)  Tính xác suất P(Ci). ĐTBmhkI + 2 x ĐTBmhkII 3 Theo[8], có thể mô tả bài toán cần giải quyết như sau: Dữ kiện cần có:  TĐKTtx: Tổng điểm của các bài KTtx. ĐTBmcn = III. THUẬT TOÁN NAÏVE BAYES (2) ĐTBmhk và ĐTBmcn là số nguyên hoặc số thập phân được lấy đến chữ số thập phân thứ nhất sau khi làm tròn số. B. Tiêu chuẩn xếp loại hoc lực dựa trên điểm số  Tính xác suất P(xk|Ci).  Bước 2: Phân lớp Xnew  Tính 𝐹(𝑋𝑛𝑒𝑤 , 𝐶𝑖 ) = 𝑃(𝐶𝑖 ) ∏𝑛𝑘=1 P(𝑥𝑘 |𝐶𝑖 )  Xnew được gán vào lớp Cq sao cho 𝐹(𝑋𝑛𝑒𝑤 , 𝐶𝑞 ) = max⁡(𝐹(𝑋𝑛𝑒𝑤 , 𝐶𝑖 ))  Loại Giỏi:  Điểm trung bình các môn học từ 8.0 trở lên, trong đó điểm trung bình của 1 trong 2 môn Toán, Ngữ văn từ 8.0 trở lên.  Không có môn học nào điểm trung bình dưới 6.5.  Các môn học đánh giá bằng nhận xét đạt loại Đ.  Loại Khá:  Điểm trung bình các môn học từ 6.5 trở lên, trong đó điểm trung bình của 1 trong 2 môn Toán, Ngữ văn từ 6.4 trở lên.  Không có môn học nào điểm trung bình dưới 5.0.  Các môn học đánh giá bằng nhận xét đạt loại Đ.  Loại Trung bình  Điểm trung bình các môn học từ 5.0 trở lên, trong đó điểm trung bình của 1 trong 2 môn Toán, Ngữ văn từ 5.0 trở lên. (3) 𝑃(𝑥𝑖 |𝐶𝑖 ) được tính như sau: 𝑃(𝑥𝑘 |𝐶𝑖 ) = 𝐶𝑖,𝐷 {𝑥𝑘 } |𝐶𝑖,𝐷 | (4) Trong đó:  𝐶𝑖,𝐷 số mẫu của tập dữ liệu huấn luyện D thuộc về lớp 𝐶𝑖 .  𝐶𝑖,𝐷 {𝑥𝑘 } số mẫu trong tập 𝐶𝑖,𝐷 mà có nhân giá trị là 𝑥𝑘 . IV. ĐỀ XUẤT PHƯƠNG PHÁP DỰ BÁO HỌC LỰC HỌC SINH A. Sử dụng thuật toán Bayes để dự báo học lực Dữ liệu đầu vào là thông tin điểm các môn học của học sinh: Toán, Vật lý, Hóa, Sinh, Tin học, Ngữ văn, Lịch sử, Địa lý, Tiếng Anh, GDCD, KTNN, Thể dục, GDQP như hình 1. Đầu ra là thông tin dự báo xếp loại học lực: Giỏi, Khá, Trung bình, Yếu, Kém.  Không có môn học nào điểm trung bình dưới 3.5.  Các môn học đánh giá bằng nhận xét đạt loại Đ.  Loại Yếu:  Điểm trung bình các môn học từ 3.5 trở lên.  Không có môn học nào điểm trung bình dưới 2.0.  Loại Kém: Các trường học còn lại. Hình 1: Ví dụ về dữ liệu đầu vào. Để có thể sử dụng phân lớp Bayes, ta xác định nhãn lớp Ci, 𝑥⃗ như sau: SỐ 01 (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 47 Đào Đức Anh, Nguyễn Tu Trung, Vũ Văn Thỏa  Nhãn Ci là: Giỏi, Khá, Trung bình, Yếu, Kém.  𝑥⃗ là vector thông tin điểm các môn học của học sinh.  𝐹(𝑋𝑛𝑒𝑤 , 𝑌ế𝑢) = max⁡(𝐹(𝑋𝑛𝑒𝑤 , 𝐶𝑖 )) không phải loại Giỏi, Khá Trung bình. hoặc  ĐTBmhk(Môn[i]) <2.0∀𝑖.>= 8), K (6.5 <=>= 8.0 Phương án/ Kĩ thuật  ĐTBmhk(Môn[i]) < 6.5 ∀𝑖.  Điểm(Môn_Đánh_Giá[i]) = Đ∀𝑖.  Luật quyết định loại Khá:  𝐹(𝑋𝑛𝑒𝑤 , 𝐾ℎá) = max⁡(𝐹(𝑋𝑛𝑒𝑤 , 𝐶𝑖 ) hoặc không phải loại Giỏi. Độ chính xác test Phương án 1 Kĩ thuật 1 95.48 % Kĩ thuật 2 96 % Kĩ thuật 3 95.48 % Phương án 2 95.5 % Từ kết quả trong bảng 3, ta thấy độ chính xác trên dữ liệu test của Phương án 1-Kĩ thuật 1 là nhỏ nhất còn Phương án 1-Kĩ thuật 2 là lớn nhất. Độ chính xác chỉ đạt được như vậy có thể do tập dữ liệu huấn luyện chưa đủ lớn và bao quát miền dữ liệu điểm.  Or(ĐTBmhk(Toán),ĐTBmhk(Văn)) >= 6.4.  ĐTBmhk(Môn[i]) <5.0∀𝑖.>= 5.0.  ĐTBmhk(Môn[i]) < 3.5∀𝑖.  Điểm(Môn_Đánh_Giá[i]) = Đ∀𝑖.  Luật quyết định loại Yếu: SỐ 01 (CS.01) 2020 VI. KẾT LUẬN Trong bài báo này, nhóm tác giả đã đề xuất phương pháp dự báo học lực sử dụng thuật toán phân lớp Bayes. Kết quả thử nghiệm cho thấy tốc độ huấn luyện rất nhanh và độ chính xác cao. Tuy nhiên, nếu dữ liệu huấn luyện rất lớn, đặc biệt khi thu thập dữ liệu đủ lớn để có thể phủ tất cả điểm thập phân (một hoặc hai chữ số sau dấu phảy), thời gian huấn luyện chắc chắn sẽ lâu hơn... Vì vậy, trong nghiên cứu tiếp theo, nhóm tác giả dự định TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 48 ỨNG DỤNG THUẬT TOÁN BAYES TRONG VẤN ĐỀ DỰ BÁO HỌC LỰC CỦA HỌC SINH PHỔ THÔNG nghiên cứu các phương án song song, phân tán để giải quyết vấn đề này. TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] Awad W.A. and ELseuofi S.M., Machine learning methods for spam e-mailclassification, International Journal of Computer Science & Information Technology (IJCSIT), Vol 3, No 1, Feb 2011, pp.173-184. Jialin ma, Yongjun zhang, Jinling liu, Intelligent SMS spam filtering using topic model, ieee international conference on intelligent networking and collaborative systems (incos), 2016. Nguyễn Tu Trung, Nguyễn Ngọc Hưng, Phạm Thanh Giang,Đánh giá một số cách thức tính xác suất SPAM của Token ứng dụng trong phân loại thư rác, Tạp chí Học viện Bưu chính, số 3, 2018. Phan Hữu Tiếp, Vũ Đức Lung, Cao Nguyễn Thủy Tiên, Lâm Thành Hiển, Phương pháp lọc thư rác tiếng việt dựa trên từ ghép và theo vết người sử dụng, Hội thảo “Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông”, Cần Thơ, 2011. Tianda Yang, Kai Qian, Dan Chia-Tien Lo, Spamfiltering using Association Rules and Naïve Bayes Classifier, IEEE International Conference on Progressin Informatics and Computing (PIC), 2015. Zhang Haiyi, Li Di, Naïve Bayes Text Classifier, Proceedings - 2007 IEEE International Conference on Granular Computing, 2007. https://thuvienphapluat.vn/van-ban/giao-duc/Thongtu-58-2011-TT-BGDDT-Quy-che-danh-gia-xeploai-hoc-sinh-trung-hoc-co-so-133268.aspx Duan Li-guo, Di peng*, Li Ai-ping, A New Naive Bayes Text Classification Algorithm, Indonesian Journal of Electrical Engineering, 2014. Đào Đức Anh, sinh viên năm cuối trường Đại học Thủy Lợi. Bắt đầu nghiên cứu về học máy... Nguyễn Tu Trung, tốt nghiệp Đại học Sư phạm Hà Nội 2 năm 2007, hoàn thành luận văn Thạc sỹ tại trường ĐHCông Nghệ, ĐHQGHN năm 2011, luận ánTiến sĩ, Học viện Công nghệ Bưu chính Viễn thông năm 2018. Hiện tôi làm việc tại trường Đại học Thủy Lợi. Lĩnh vực nghiên cứu: Xử lý ảnh, xử lý tiếng nói, hệ thống thông tin, hệ thống nhúng. Vũ Văn Thỏa,Tốt nghiệp Đại học Sư phạm Vinh năm 1975, Tiến Sĩ 1990 Viện Điều khiển tại Liên Xô cũ. Hiện công tác tại Khoa Quốc tế và Đào tạo Sau Đại học, Học viện Công nghệ Bưu chính Viễn thông.. Lĩnh vực nghiên cứu: Lý thuyết thuật toán, tối ưu hóa, hệ thông tin địa lý, mạng viễn thông USING BAYESIAN CLASSIFICATION IN PREDICTING LEARNING ABILITY OF HIGH SCHOOL STUDENTS Abstract: Learning ability assessment is an important issue in assessing high school students. The assessment is based on a student's subject grades throughout the learning process. For a long time, machine learning algorithms in general and Bayes classification algorithms in particular have been applied to solve classification and prediction problems effectively. This paper applys the Bayes algorithm in predicting student performance to support the management and assessment of students in high school. Keyword: Learning ability, Bayes, Statistical machine learning, Predicting. SỐ 01 (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 49

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.