Phương pháp xác định cỡ mẫu trong nghiên cứu khoa học

  • Ngày đăng: 4/11/2018
  • |
  • Chuyên mục: SPSS

Bài viết được đăng tải duy nhất và thuộc bản quyền của Phạm Lộc Blog. Việc chia sẻ lại nội dung lên website khác vui lòng dẫn nguồn link bài viết gốc này. Xin cảm ơn!

Nghiên cứu với một kích thước mẫu càng lớn sẽ càng thể hiện được tính chất của tổng thể nhưng lại tốn nhiều thời gian và chi phí. Do vậy, việc chọn một kích thước mẫu phù hợp là rất quan trọng.

Phương pháp xác định cỡ mẫu trong nghiên cứu khoa học

Kích thước mẫu (cỡ mẫu) của nghiên cứu càng lớn, sai số trong các ước lượng sẽ càng thấp, khả năng đại diện cho tổng thể càng cao. Tuy nhiên, việc thu thập cỡ mẫu lớn sẽ làm tiêu tốn nhiều thời gian, công sức, tiền bạc ở toàn bộ các khâu từ thu thập, kiểm tra, phân tích. Do đó việc chọn kích thước mẫu cần phải được xem xét một cách có cân nhắc để mọi thứ được cân bằng và hiệu quả. Sự lựa chọn cỡ mẫu sẽ phụ thuộc vào:

  • Độ tin cậy cần có của dữ liệu. Nghĩa là mức độ chắc chắn rằng các đặc điểm của cỡ mẫu được chọn phải khái quát được cho đặc điểm tổng thể.
  • Sai số mà nghiên cứu có thể chấp nhận được. Đó là độ chính xác chúng ta yêu cầu cho bất ký ước lượng được thực hiện trên mẫu.
  • Các loại kiểm định, phân tích sẽ thực hiện. Một số kỹ thuật thống kê yêu cầu cỡ mẫu phải đạt một ngưỡng nhất định thì các ước lượng mới có ý nghĩa.
  • Kích thước của tổng thể. Mẫu nghiên cứu sẽ cần chiếm một tỷ lệ nhất định so với kích thước của tổng thể.

Việc xác định cỡ mẫu theo ước lượng tổng thể thường yêu cầu cỡ mẫu lớn. Tuy nhiên, nhà nghiên cứu lại có quỹ thời gian giới hạn và nếu không có nguồn tài chính tài trợ thì khả năng lấy mẫu theo ước lượng tổng thể sẽ khó có thể thực hiện. Do đó, các nhà nghiên cứu thường sử dụng công thức lấy mẫu dựa vào phương pháp định lượng được sử dụng để phân tích dữ liệu. Hai phương pháp yêu cầu cỡ mẫu lớn thường là hồi quy và phân tích nhân tố khám phá (EFA). 

N = 5 * số biến đo lường tham gia EFA

Theo Hair và cộng sự (2014) , kích thước mẫu tối thiểu để sử dụng EFA là 50, tốt hơn là từ 100 trở lên. Tỷ lệ số quan sát trên một biến phân tích là 5:1 hoặc 10:1, một số nhà nghiên cứu cho rằng tỷ lệ này nên là 20:1. “Số quan sát” hiểu một cách đơn giản là số phiếu khảo sát hợp lệ cần thiết; “biến đo lường” là một câu hỏi đo lường trong bảng khảo sát. 

Ví dụ, nếu bảng khảo sát của chúng ta có 30 câu hỏi sử dụng thang đo Likert 5 mức độ (tương ứng với 30 biến quan sát thuộc các nhân tố khác nhau), 30 câu này được sử dụng để phân tích trong một lần EFA. Áp dụng tỷ lệ 5:1, cỡ mẫu tối thiểu sẽ là 30 × 5 = 150, nếu tỷ lệ 10:1 thì cỡ mẫu tối thiểu là là 30 × 5 = 300. Kích thước mẫu này lớn hơn kích thước tối thiểu 50 hoặc 100, vì vậy chúng ta cần cỡ mẫu tối thiểu để thực hiện phân tích nhân tố khám phá EFA là 150 hoặc 300 tùy tỷ lệ lựa chọn dựa trên khả năng có thể khảo sát được.

b. Công thức lấy mẫu theo hồi quy

N = 50 + 8*số biến độc lập tham gia hồi quy

Đối với kích thước mẫu tối thiểu cho phân tích hồi quy, Green (1991)  đưa ra hai trường hợp. Trường hợp một, nếu mục đích phép hồi quy chỉ đánh giá mức độ phù hợp tổng quát của mô hình như R2, kiểm định F ... thì cỡ mẫu tối thiểu là 50 + 8m (m là số lượng biến độc lập hay còn gọi là predictor tham gia vào hồi quy). 

Trường hợp hai, nếu mục đích muốn đánh giá các yếu tố của từng biến độc lập như kiểm định t, hệ số hồi quy … thì cỡ mẫu tối thiểu nên là 104 + m (m là số lượng biến độc lập). Lưu ý rằng, m là số biến độc lập chúng ta đưa vào phân tích hồi quy, không phải là số biến quan sát hay số câu hỏi của nghiên cứu. 

Giả sử chúng ta xây dựng bảng khảo sát gồm 4 biến độc lập (4 thang đo), mỗi thang đo biến độc lập này được đo lường bằng 5 câu hỏi Likert (5 biến quan sát), như vậy tổng cộng chúng ta có 20 biến quan sát. Sau bước phân tích EFA, 4 thang đo này vẫn giữ nguyên như lý thuyết ban đầu, điều này đồng nghĩa có 4 biến độc lập sẽ được sử dụng cho phân tích hồi quy, tức m = 4 không phải m = 20. 

Phương pháp xác định cỡ mẫu trong nghiên cứu khoa học

Harris (1985)  cho rằng cỡ mẫu phù hợp để chạy hồi quy đa biến phải bằng số biến độc lập cộng thêm ít nhất là 50. Ví dụ, phép hồi quy có 4 biến độc lập tham gia, thì cỡ mẫu tối thiểu phải là 4 + 50 = 54. Hair và cộng sự (2014)  cho rằng cỡ mẫu tối thiểu nên theo tỷ lệ 5:1, tức là 5 quan sát cho một biến độc lập. Như vậy, nếu có 4 biến độc lập tham gia vào hồi quy, cỡ mẫu tối thiểu sẽ là 5 x 4 = 20. 

Tuy nhiên, 5:1 chỉ là cỡ mẫu tối thiểu cần đạt, để kết quả hồi quy có ý nghĩa thống kê cao hơn, cỡ mẫu lý tưởng nên theo tỷ lệ 10:1 hoặc 15:1. Riêng với trường hợp sử dụng phương pháp đưa biến vào lần lượt Stepwise trong hồi quy, cỡ mẫu nên theo tỷ lệ 50:1. 

Nếu một bài nghiên cứu sử dụng kết hợp nhiều phương pháp xử lý thì sẽ lấy kích thước mẫu cần thiết lớn nhất trong các phương pháp. Ví dụ, nếu bài nghiên cứu vừa sử dụng phân tích EFA và vừa phân tích hồi quy. Kích thước mẫu cần thiết của EFA là 200, kích thước mẫu cần thiết của hồi quy là 100, chúng ta sẽ chọn kích thước mẫu cần thiết của nghiên cứu là 200 hoặc từ 200 trở lên. Thường chúng ta sử dụng phân tích EFA cùng với phân tích hồi quy trong cùng một bài luận văn, một bài nghiên cứu. EFA luôn đòi hỏi cỡ mẫu lớn hơn rất nhiều so với hồi quy, chính vì vậy chúng ta có thể sử dụng công thức tính kích thước mẫu tối thiểu cho EFA làm công thức tính kích thước mẫu cho nghiên cứu. 

Cũng lưu ý rằng, đây là cỡ mẫu tối thiểu, nếu chúng ta sử dụng cỡ mẫu lớn hơn kích thước tối thiểu, nghiên cứu sẽ càng có giá trị.

Từ khóa: công thức tính cỡ mẫu, các tính cỡ mẫu, cách xác định mẫu nghiên cứu, xác định kích thước mẫu.

Estimated reading time: 5 minutes

Có 2 phương pháp xác định cỡ mẫu:

Cỡ mẫu (Sample size)

Cỡ mẫu là Số đơn vị mẫu (người, hộ gia đình) được lựa chọn vào nghiên cứu.

  • Cỡ mẫu thường được tính toán dựa trên công thức tính cỡ mẫu với các tham số phù hợp.

Công thức tính cỡ mẫu (Sample size formula/equation)

Công thức tính cỡ mẫu dùng để xác định số đơn vị mẫu tối thiểu cần thiết cho một nghiên cứu.

Chú ý

Công thức tính cỡ mẫu phụ thuộc mục tiêu nghiên cứu, thiết kế nghiên cứu, biến số nghiên cứu, độ chính xác mong muốn …

Nghiên cứu với một kích thước mẫu càng lớn sẽ càng thể hiện được tính chất của tổng thể nhưng lại tốn nhiều thời gian và chi phí. Do vậy, việc chọn một kích thước mẫu phù hợp là rất quan trọng.

Hai phương pháp tìm cỡ mẫu (sample size)

  1. Theo phương pháp xác định chung

  2. Theo phương pháp xử lý

1. Theo phương pháp xác định chung

  • Không biết số lượng quần thể / số lượng quần thể chưa được cập nhật.
  • Đã biết (chính xác / khoảng) số lượng quần thể
  • Phương thức chọn mẫu ngẫu nhiên đơn giản

Không biết số lượng quần thể / số lượng quần thể chưa được cập nhật.

Dùng công thức tính của Cochran’s (1977). 1

$$n = \frac{Z^2}{4e^2}$$

Trong đó:

nnn = số lượng cỡ mẫu tối thiểu

ZZZ = khoảng tin cậy 95%, tại giá trị 1.96

eee = giới hạn mẫu bị lỗi (±5%)

Đã biết (chính xác / khoảng) số lượng quần thể - Simplified formula for proportions

Dùng công thức tính của Yamane (1967). 2

$$n = \frac{N}{1+Ne^2}$$

Trong đó:

nnn = số lượng cỡ mẫu

NNN = số lượng tổng quần thể

eee = giới hạn mẫu bị lỗi (±3%; ±5%; ±7%; ±10%)

  • khoảng tin cậy 95% và kết quả có ý nghĩa thống kê p= 0.5 được giả định

Phương thức chọn mẫu ngẫu nhiên đơn giản – simple random sampling

Sử dụng bảng kích cỡ mẫu của Krejcie and Morgan (1970). 3

Phương pháp xác định cỡ mẫu trong nghiên cứu khoa học

2. Theo phương pháp xử lý

  • Phân tích EFA
  • Phân tích regression

EFA

Theo Hair et al. (2006) chỉ ra mẫu tối thiểu (>50), tốt hơn (>100), tỉ lệ quan sát:biến đo lường (5:1)4

$$N = 5m$$

Trong đó:

NNN = số lượng cỡ mẫu,

mmm = số lượng câu hỏi đo lường

Note

1 biến đo lường cần tối thiểu 5 quan sát. Số quan sát hiểu một cách đơn giản là số phiếu khảo sát hợp lệ cần thiết;
Biến đo lường đơn giản là một câu hỏi đo lường trong bảng khảo sát.

Regression

Theo Tabachnick & Fidell (2007)5

$$N > 50 + 8m$$

Trong đó:

NNN = số lượng cỡ mẫu

mmm = số biến độc lập

cỡ mẫu, quần thể, sample size, population