4 1 MB 0 7 Nhấn vào bên dưới để tải tài liệu Để tải xuống xem đầy đủ hãy nhấn vào bên trên pdf 4 0 3
pdf 178 0 1
pdf 9 0 13
Đào Đức Anh, Nguyễn Tu Trung, Vũ Văn Thỏa ỨNG DỤNG THUẬT TOÁN BAYES TRONG
VẤN ĐỀ DỰ BÁO HỌC LỰC CỦA HỌC
SINH PHỔ THÔNG
Đào Đức Anh1, Nguyễn Tu Trung1, Vũ Văn Thỏa2
Đại học Thủy Lợi
Học viện Công nghệ Bưu chính Viễn thông
1 2 Tóm tắt: Đánh giá học lực là vấn đề quan trọng trong
việc đánh giá học sinh phổ thông. Việc đánh giá dựa trên
điểm các môn học của học sinh trong suốt quá trình học.
Từ lâu, các thuật toán học máy nói chung, thuật toán
phân lớp Bayes nói riêng đã được ứng dụng để giải quyết
các bài toán phân lớp, dự báo một cách hiệu quả. Bài báo
này ứng dụng thuật toán Bayes trong việc dự báo học lực
của học sinh để hỗ trợ cho việc quản lý cũng như đánh
giá học sinh trong trường phổ thông.1
Từ khóa: Học lực, điểm trung bình, Bayes, học máy
thống kê, dự báo. I. MỞ ĐẦU
Dự báo là một khoa học và nghệ thuật tiên đoán
những sự việc sẽ xảy ra trong tương lai, trên cơ sở phân
tích khoa học về các dữ liệu đã thu thập được. Khi tiến
hành dự báo cần căn cứ vào việc thu thập, xử lý số liệu
trong quá khứ và hiện tại để xác định xu hướng vận động
của các hiện tượng trong tương lai nhờ vào một số mô
hình toán học (định lượng). Tuy nhiên, dự báo cũng có
thể là một dự đoán chủ quan hoặc trực giác về tương lai
(định tính) và để dự báo định tính được chính xác hơn,
người ta cố loại trừ những tính chủ quan của người dự
báo.
Có nhiều phương pháp dự báo khác nhau. Hiện nay,
việc sử dụng các phương pháp học máy ứng dụng cho các
bài toán dự báo trở nên rất phổ biến. Trong đó, dự báo sử
dụng phân lớp Bayes được ứng dụng rất rộng rãi… Ví dụ,
dự báo giá cả các loại mặt hàng, dự báo tỉ lệ tăng dân
số… khi biết các thông tin trong quá khữ và điều kiện
cho trước…
Phân lớp Bayes cũng được sử dụng một cách trong
phân lớp chủ đề văn bản [6]. Một trong những ứng dụng
rất phổ biến của phân lớp Bayes là phân loại thư rác.
Trong [1], Awad đã trình bày một đánh giá, so sánh một
số phương pháp học máy (Bayesian classification, k-NN,
ANNs, SVMs...) cho vấn đề lọc thư rác. Trong [2], Jialin
và cộng sự đã thảo luận, đánh giá về phương pháp lọc
SMS rác sử dụng SVM và MTM (message topic model).
Trong [4], Phan Hữu Tiếp cùng các cộng sự trình bày quy
trình lọc thưc rác tiếng Việt dựa trên thuật toán Naïve
Bayes và việc xử lý tách câu tiếng Việt. Trong [5],
Tác giả liên hệ: Nguyễn Tu Trung
Email:
Đến tòa soạn: 2/2020, chỉnh sửa 4/2020, chấp nhận đăng
4/2020 SỐ 01 (CS.01) 2020 Tianda và cộng sự đã trình bày một so sánh giữa bộ phân
loại thư rác chỉ sử dụng kĩ thuật Naïve Bayes và bộ phân
loại thư rác sử dụng bộ phân loại thư rác kĩ thuật và luật
kết hợp. Trong [3], các tác giả đã đánh giá một số cách
thức tính xác suất SPAM của token trong phân loại thư
rác.
Hạnh kiểm và học lực là hai yếu tố rất quan trọng của
mỗi học sinh khi tham gia học tập tại trường. Trong đó,
kết quả xếp loại học lực của học sinh sẽ được sử dụng để
đánh giá và xét cho học sinh lên lớp và để đánh giá xếp
loại khen thưởng [7]. Căn cứ vào điểm trung bình các
môn học kỳ và cả năm, xếp loại học tập được chia thành
5 loại là: Giỏi, Khá, Trung bình, Yếu, Kém. Do đó, việc
đánh giá xếp loại học lực học sinh được thực hiện rất chặt
chẽ.
Trong bài báo này, chúng tôi đề xuất giải pháp ứng
dụng thuật toán Bayes trong vấn đề dự báo học lực học
sinh dựa trên điểm số các môn của học sinh. II. ĐÁNH GIÁ HỌC LỰC
Theo quy chế đánh giá xếp loại học lực[7], kết quả
học lực của học sinh được tổng hợp, tính toán và đánh giá
qua các bài kiểm tra.
A. Dữ liệu phục vụ cho việc đánh giá
Các hình thức kiểm tra bao gồm: Kiểm tra miệng
(kiểm tra bằng hỏi đáp), kiểm tra viết, kiểm tra thực
hành.
Các loại bài kiểm tra bao gồm:
Kiểm tra thường xuyên: Kiểm tra miệng; kiểm tra
viết dưới 1 tiết, kiểm tra thực hành dưới 1 tiết.
Kiểm tra định kỳ: Kiểm tra viết từ 1 tiết trở lên;
kiểm tra thực hành từ 1 tiết trở lên, kiểm tra học
kỳ.
Hệ số các loại bài kiểm tra:
Đối với các môn học đánh giá bằng cho điểm:
Điểm kiểm tra thường xuyên tính hệ số 1, điểm
kiểm tra viết và kiểm tra thực hành tư 1 tiết trở lên
tính hệ số 2, điểm kiểm tra học kỳ tính hệ số 3.
Đối với các môn đánh giá bằng nhận xét: Kết quả
nhận xét của các bài kiểm tra đều tính 1 lần khi
xếp loại môn học sau mỗi học kỳ. TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 46 ỨNG DỤNG THUẬT TOÁN BAYES TRONG VẤN ĐỀ DỰ BÁO HỌC LỰC CỦA HỌC SINH PHỔ THÔNG Điểm trung bình môn học kỳ (ĐTBmhk) là trung bình
cộng của điểm các bài KTtx, KTđk và KThk với các hệ số
quy định tại Điểm a, Khoản 3, Điều 7 Quy chế này:
ĐTBmhk =
Trong đó: TĐKTtx + 2 x TĐKTđk +
3 x ĐKThk
Số bài KTtx + 2 x Số bài
KTđk + 3 D: tập dữ liệu huấn luyện, được vector hoá dưới
dạng 𝑥⃗ = (𝑥1 , 𝑥2 , … , 𝑥𝑛 ). (1) Ci : tập các tài liệu của D thuộc lớp Ci với
i={1,2,3,…}.
Các 𝑥1 , 𝑥2 , … , 𝑥𝑛 độc lập xác suất đôi một với
nhau. TĐKTđk: Tổng điểm của các bài KTđk.
ĐKThk: Điểm bài KThk.
Điểm trung bình môn cả năm (ĐTBmcn) là trung bình
cộng của ĐTBmhkI với ĐTBmhkII, trong đó ĐTBmhkII tính
hệ số 2: Thuật toán Naïve Bayes cơ bản:
Bước 1 : Huấn luyện Naïve Bayes (dựa vào tập dữ
liệu)
Tính xác suất P(Ci). ĐTBmhkI + 2 x ĐTBmhkII
3 Theo[8], có thể mô tả bài toán cần giải quyết như sau:
Dữ kiện cần có: TĐKTtx: Tổng điểm của các bài KTtx. ĐTBmcn = III. THUẬT TOÁN NAÏVE BAYES (2) ĐTBmhk và ĐTBmcn là số nguyên hoặc số thập phân
được lấy đến chữ số thập phân thứ nhất sau khi làm tròn
số.
B. Tiêu chuẩn xếp loại hoc lực dựa trên điểm số Tính xác suất P(xk|Ci).
Bước 2: Phân lớp Xnew
Tính 𝐹(𝑋𝑛𝑒𝑤 , 𝐶𝑖 ) = 𝑃(𝐶𝑖 ) ∏𝑛𝑘=1 P(𝑥𝑘 |𝐶𝑖 )
Xnew được gán vào lớp Cq sao cho
𝐹(𝑋𝑛𝑒𝑤 , 𝐶𝑞 ) = max(𝐹(𝑋𝑛𝑒𝑤 , 𝐶𝑖 )) Loại Giỏi:
Điểm trung bình các môn học từ 8.0 trở lên,
trong đó điểm trung bình của 1 trong 2 môn
Toán, Ngữ văn từ 8.0 trở lên.
Không có môn học nào điểm trung bình dưới
6.5.
Các môn học đánh giá bằng nhận xét đạt loại
Đ.
Loại Khá:
Điểm trung bình các môn học từ 6.5 trở lên,
trong đó điểm trung bình của 1 trong 2 môn
Toán, Ngữ văn từ 6.4 trở lên.
Không có môn học nào điểm trung bình dưới
5.0.
Các môn học đánh giá bằng nhận xét đạt loại
Đ.
Loại Trung bình
Điểm trung bình các môn học từ 5.0 trở lên,
trong đó điểm trung bình của 1 trong 2 môn
Toán, Ngữ văn từ 5.0 trở lên. (3) 𝑃(𝑥𝑖 |𝐶𝑖 ) được tính như sau:
𝑃(𝑥𝑘 |𝐶𝑖 ) = 𝐶𝑖,𝐷 {𝑥𝑘 }
|𝐶𝑖,𝐷 | (4) Trong đó:
𝐶𝑖,𝐷 số mẫu của tập dữ liệu huấn luyện D thuộc về
lớp 𝐶𝑖 .
𝐶𝑖,𝐷 {𝑥𝑘 } số mẫu trong tập 𝐶𝑖,𝐷 mà có nhân giá trị
là 𝑥𝑘 . IV. ĐỀ XUẤT PHƯƠNG PHÁP DỰ BÁO HỌC
LỰC HỌC SINH A. Sử dụng thuật toán Bayes để dự báo học lực
Dữ liệu đầu vào là thông tin điểm các môn học của
học sinh: Toán, Vật lý, Hóa, Sinh, Tin học, Ngữ văn,
Lịch sử, Địa lý, Tiếng Anh, GDCD, KTNN, Thể dục,
GDQP như hình 1.
Đầu ra là thông tin dự báo xếp loại học lực: Giỏi,
Khá, Trung bình, Yếu, Kém. Không có môn học nào điểm trung bình dưới
3.5.
Các môn học đánh giá bằng nhận xét đạt loại
Đ.
Loại Yếu:
Điểm trung bình các môn học từ 3.5 trở lên.
Không có môn học nào điểm trung bình dưới
2.0.
Loại Kém: Các trường học còn lại. Hình 1: Ví dụ về dữ liệu đầu vào.
Để có thể sử dụng phân lớp Bayes, ta xác định nhãn
lớp Ci, 𝑥⃗ như sau: SỐ 01 (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 47 Đào Đức Anh, Nguyễn Tu Trung, Vũ Văn Thỏa
Nhãn Ci là: Giỏi, Khá, Trung bình, Yếu, Kém.
𝑥⃗ là vector thông tin điểm các môn học của học
sinh. 𝐹(𝑋𝑛𝑒𝑤 , 𝑌ế𝑢) = max(𝐹(𝑋𝑛𝑒𝑤 , 𝐶𝑖 ))
không phải loại Giỏi, Khá Trung bình. hoặc ĐTBmhk(Môn[i]) <2.0∀𝑖.>= 8), K
(6.5 <=>= 8.0
Phương
án/ Kĩ
thuật ĐTBmhk(Môn[i]) < 6.5 ∀𝑖.
Điểm(Môn_Đánh_Giá[i]) = Đ∀𝑖.
Luật quyết định loại Khá:
𝐹(𝑋𝑛𝑒𝑤 , 𝐾ℎá) = max(𝐹(𝑋𝑛𝑒𝑤 , 𝐶𝑖 ) hoặc không
phải loại Giỏi. Độ chính
xác test Phương án 1
Kĩ
thuật 1
95.48
% Kĩ
thuật 2
96
% Kĩ
thuật 3
95.48
% Phương
án 2
95.5
% Từ kết quả trong bảng 3, ta thấy độ chính xác trên dữ
liệu test của Phương án 1-Kĩ thuật 1 là nhỏ nhất còn
Phương án 1-Kĩ thuật 2 là lớn nhất. Độ chính xác chỉ đạt
được như vậy có thể do tập dữ liệu huấn luyện chưa đủ
lớn và bao quát miền dữ liệu điểm. Or(ĐTBmhk(Toán),ĐTBmhk(Văn)) >= 6.4.
ĐTBmhk(Môn[i]) <5.0∀𝑖.>= 5.0.
ĐTBmhk(Môn[i]) < 3.5∀𝑖.
Điểm(Môn_Đánh_Giá[i]) = Đ∀𝑖.
Luật quyết định loại Yếu: SỐ 01 (CS.01) 2020 VI. KẾT LUẬN
Trong bài báo này, nhóm tác giả đã đề xuất phương
pháp dự báo học lực sử dụng thuật toán phân lớp Bayes.
Kết quả thử nghiệm cho thấy tốc độ huấn luyện rất nhanh
và độ chính xác cao. Tuy nhiên, nếu dữ liệu huấn luyện
rất lớn, đặc biệt khi thu thập dữ liệu đủ lớn để có thể phủ
tất cả điểm thập phân (một hoặc hai chữ số sau dấu
phảy), thời gian huấn luyện chắc chắn sẽ lâu hơn... Vì
vậy, trong nghiên cứu tiếp theo, nhóm tác giả dự định TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 48 ỨNG DỤNG THUẬT TOÁN BAYES TRONG VẤN ĐỀ DỰ BÁO HỌC LỰC CỦA HỌC SINH PHỔ THÔNG nghiên cứu các phương án song song, phân tán để giải
quyết vấn đề này.
TÀI LIỆU THAM KHẢO
[1] [2] [3] [4] [5] [6] [7] [8] Awad W.A. and ELseuofi S.M., Machine learning
methods for spam e-mailclassification, International
Journal of Computer Science & Information
Technology (IJCSIT), Vol 3, No 1, Feb 2011,
pp.173-184.
Jialin ma, Yongjun zhang, Jinling liu, Intelligent
SMS spam filtering using topic model, ieee
international conference on intelligent networking
and collaborative systems (incos), 2016.
Nguyễn Tu Trung, Nguyễn Ngọc Hưng, Phạm
Thanh Giang,Đánh giá một số cách thức tính xác
suất SPAM của Token ứng dụng trong phân loại thư
rác, Tạp chí Học viện Bưu chính, số 3, 2018.
Phan Hữu Tiếp, Vũ Đức Lung, Cao Nguyễn Thủy
Tiên, Lâm Thành Hiển, Phương pháp lọc thư rác
tiếng việt dựa trên từ ghép và theo vết người sử
dụng, Hội thảo “Một số vấn đề chọn lọc của Công
nghệ thông tin và truyền thông”, Cần Thơ, 2011.
Tianda Yang, Kai Qian, Dan Chia-Tien Lo,
Spamfiltering using Association Rules and Naïve
Bayes Classifier, IEEE International Conference on
Progressin Informatics and Computing (PIC), 2015.
Zhang Haiyi, Li Di, Naïve Bayes Text Classifier,
Proceedings - 2007 IEEE International Conference
on Granular Computing, 2007.
https://thuvienphapluat.vn/van-ban/giao-duc/Thongtu-58-2011-TT-BGDDT-Quy-che-danh-gia-xeploai-hoc-sinh-trung-hoc-co-so-133268.aspx
Duan Li-guo, Di peng*, Li Ai-ping, A New Naive
Bayes Text Classification Algorithm, Indonesian
Journal of Electrical Engineering, 2014. Đào Đức Anh, sinh viên năm
cuối trường Đại học Thủy Lợi.
Bắt đầu nghiên cứu về học
máy... Nguyễn Tu Trung, tốt
nghiệp Đại học Sư phạm Hà
Nội 2 năm 2007, hoàn thành
luận văn Thạc sỹ tại trường
ĐHCông Nghệ, ĐHQGHN năm
2011, luận ánTiến sĩ, Học viện
Công nghệ Bưu chính Viễn
thông năm 2018. Hiện tôi làm
việc tại trường Đại học Thủy
Lợi. Lĩnh vực nghiên cứu: Xử lý
ảnh, xử lý tiếng nói, hệ thống
thông tin, hệ thống nhúng.
Vũ Văn Thỏa,Tốt nghiệp Đại
học Sư phạm Vinh năm 1975,
Tiến Sĩ 1990 Viện Điều khiển
tại Liên Xô cũ.
Hiện công tác tại Khoa Quốc tế
và Đào tạo Sau Đại học, Học
viện Công nghệ Bưu chính
Viễn thông..
Lĩnh vực nghiên cứu: Lý thuyết
thuật toán, tối ưu hóa, hệ thông
tin địa lý, mạng viễn thông USING BAYESIAN CLASSIFICATION IN
PREDICTING LEARNING ABILITY OF HIGH
SCHOOL STUDENTS
Abstract: Learning ability assessment is an important
issue in assessing high school students. The assessment is
based on a student's subject grades throughout the
learning process. For a long time, machine learning
algorithms in general and Bayes classification algorithms
in particular have been applied to solve classification and
prediction problems effectively. This paper applys the
Bayes algorithm in predicting student performance to
support the management and assessment of students in
high school.
Keyword: Learning ability, Bayes, Statistical machine
learning, Predicting. SỐ 01 (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 49 This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
|