So sánh giữa các nhóm đối tượng (1)

Submitted by DATATI on
Share/Subscribe/Save

Tiếp theo bài viết về cách nhập liệu để tính frequency trong SPSS, bài viết này đưa ra một ví dụ về cách dùng SPSS để so sánh giữa các nhóm về một biến nào đó.

Nói chung đã gọi là thống kê thì thường là có so sánh. Vì so sánh là cơ sở để đưa ra kết luận. Tuy nhiên, trong SPSS có các tests khác nhau để thực hiện công việc so sánh này. Bài viết này đưa ra một test để dùng với một loại biến cụ thể thông qua ví dụ sau đây:

Tôi muốn làm một khảo sát để so sánh giữa Nam và Nữ trong việc lựa chọn 3 ngành học: Toán, Y khoa, và Tiếng Anh ở bậc Đại học. Như vậy tôi thiết kế một bảng khảo sát như sau:

Vui lòng trả lời những câu hỏi sau đây:

1. Giới tính của bạn:

2. Hãy khoanh tròn vào một ngành học chính hiện tại của bạn:

a. Toán

b. Y khoa

c. Tiếng Anh

d. Các ngành khác

Sau đó tôi gởi bảng khảo sát này cho các sinh viên đang theo học tại nhiều trường Đại học khác nhau. Giả sử tôi thu được dữ liệu từ 500 đối tượng tham gia. Tôi bắt đầu nhập liệu vào SPSS như sau.

Đối với câu 1: Nếu là Nam, tôi nhập 1; nếu là Nữ, tôi nhập 0, nếu đối tượng tham gia không điền gì cả tôi bỏ đối tượng đó luôn.

Đối với câu 2: Nếu đối tượng chọn Toán, tôi nhập vào 1; chọn Y khoa, tôi nhập 2; chọn Tiếng Anh, tôi nhập 3; chọn Các ngành khác, tôi nhập 4.

Như vậy, tôi sẽ có bảng dữ liệu trong SPSS dạng như sau:

Thẻ Variable View

 

Thẻ Data View (ứng với 8 đối tượng tham gia đầu tiên)

 

Điều quan trọng chúng ta cần lưu ý ở đây là các giá trị tương ứng mà tôi chọn để nhập liệu trong trường hợp này không hề có tương quan gì với nhau về giá trị của các con số. Đối với Giới tính, trường hợp này tôi tự gán 1 cho Nam và 0 cho Nữ, nhưng đương nhiên tôi cũng có thể làm ngược lại hoặc gán một giá trị bất kỳ nào đó cho Nam Nữ mà không hề làm ảnh hưởng tới việc cấu trúc dữ liệu. Tương tự như thế, trong câu hỏi số 2, tôi đã gán các giá trị từ 1-4 cho bốn loại câu trả lời, nhưng đó rõ ràng đó không phải là cách duy nhất. Chúng ta có thể gán bất kỳ ví dụ như 3 cho Toán, 7 cho Tiếng Anh, 2 cho Y khoa... Những loại dữ liệu như trong ví dụ này gọi là norminal data. Nhìn lại hình Variable View ở trên để thấy điều đó.

Bây giờ ta tiến hành so sánh việc lựa chọn ngành học giữa Nam và Nữ. Như vậy Giới tính (Nam/Nữ) sẽ là Independent Variable, còn Ngành học (Toán, Tiếng Anh...) là Dependent Variable. Vì data của Ngành học là norminal, tôi chọn Chi-square test để làm việc so sánh này. Trong SPSS 18, bắt đầu từ Analyze -- Descriptive Statistics -- Crosstabs. Trong khung Crosstabs hiện lên, tôi cho biến Giới tính vào ô Row và biến Ngành học vào ô Column. Trong nút Statistics, tôi tick vào chọn Chi-square, nhấn Continue sau đó nhấn OK để chạy test. Kết quả tôi có được 3 bảng, nhưng quan trọng là 2 bảng như hình bên dưới.

 

 
Bảng thứ nhất chỉ có tính chất thống kê, cho ta thấy số lượng Nam và Nữ của từng Ngành học. Bảng thứ 2 là kết quả so sánh về Ngành học giữa Nam và Nữ. Ta nhìn vào cột cuối sẽ thấy các số .000, đây là giá trị p tương ứng của từng Chi-square test. Cả ba tests này đều nói rằng với mẫu thu được từ 500 đối tượng này, có sự khác biệt giữa Nam và Nữ trong việc chọn Ngành học.
 
 
Bài sau tôi sẽ đề cập đến cách so sánh khi data ở dạng khác.
 

Author: 

Tin Dang

Tag: