Bài giảng tin ứng dụng
Gv: Trần Trung Hiếu
Bộ môn CNPM – Khoa CNTT
Email: [email protected]
Website: http://fita.hua.edu.vn/tthieu
Chương III: Các thống kê cơ bản,
tương quan & hồi quy
I. Thống kê mô tả (Desriptive Statistics)
a. Các bước thực hiện
b. Phân tích kết quả
II. Tổ chức đồ (Histogram)
a. Các bước thực hiện
b. Phân tích kết quả
III. Tương quan và hồi qui
a. Tính hệ số tương quan
b. Hồi quy tuyến tính
c. Hồi quy phi tuyến
Giới thiệu về phân phối chuẩn
1.
2.
Phân phối chuẩn, còn gọi là phân phối Gauss, là
một phân phối xác suất cực kì quan trọng trong nhiều
lĩnh vực. Nó là họ phân phối có dạng tổng quát giống
nhau, chỉ khác tham số vị trí (giá trị trung bình μ) và tỉ
lệ (phương sai σ2).
Định nghĩa: Biến ngẫu nhiên X có phân phối chuẩn với
các tham số m (kỳ vọng), σ2 (phương sai) nếu nó có
hàm mật độ:
Đồ thị hàm mật độ phân phối chuẩn
Đồ thị hàm phân bố trong phân phối chuẩn
I. Thống kê mô tả (Descriptive Statistics)
Ví dụ 1 – trang 23
Liên hệ xác suất thống kê và các thuật ngữ Excel sử dụng trong
thống kê mô tả
1.
2.
»
Thống kê mô tả cho phép tính các số đặc trưng mẫu, các giá trị
thống kê mẫu như trung bình, độ lệch chuẩn, sai số chuẩn, trung
vị, mode…Số liệu tính toán được bố trí theo cột hoặc theo dòng
Mean (trung bình hay kỳ vọng): đặc trưng cho giá trị trung bình
của DLNN
Standard Deviation (độ lệch chuẩn), Sample Variance
(phương sai mẫu): đặc trưng cho độ phân tán các giá trị của
DLNN xung quanh giá trị trung bình
Standard Error (sai số chuẩn): Sai số của trung bình
Median (trung vị): cho giá trị điểm giữa của dãy số, trong xác
suất là giá trị Me của đại lượng ngẫu nhiên X sao cho
P(XMe)
Mode: là giá trị của biến ngẫu nhiên ứng với xác suất cực đại
hay giá trị có tần suất xuất hiện trong mẫu lớn nhất
I. Thống kê mô tả (Descriptive Statistics)
2. Liên hệ xác suất thống kê và các thuật ngữ Excel sử dụng trong
thống kê mô tả (tiếp)
Kurtosis (độ nhọn): trong xác suất, người ta chứng minh được
nếu DLNN X có phân phối chuẩn thì độ nhọn bằng 0. Ở đây,
độ nhọn đánh giá đường mật độ phân phối của dãy số liệu có
nhọn hơn hay tù hơn đường mật độ chuẩn tắc (dương là nhọn
hơn, âm là tù hơn). Nếu trong khoảng [-2,2] thì có thể coi số
liệu xấp xỉ chuẩn
Skewness (Độ lệch): Trong xác suất gọi là hệ số bất đối xứng
đánh giá sự phân phối các giá trị có cân đối đối với giá trị
trung bình hay không, nếu các giá trị của X đối xứng qua kỳ
vọng thì Skewness=0 biểu hiện ở đường phân phối lệch trái
hay lệch phải (âm là lệch trái, dương là lệch phải). Nếu trong
khoảng [-2,2] thì có thể coi như số liệu cân đối như trong phân
phối chuẩn.
Confidence Level (Nửa độ dài khoảng tin cậy):
»
»
»
Ví dụ: Confidence level = 95%
Trong xác suất tương đương bài toán tìm giá trị α sao cho P(mα<=X<=m+ α) = 95%
Tìm giá trị α sao cho xác suất X rơi vào khoảng [m- α,m+ α] là
95%
Kurtosis > 0 đường màu đỏ, Kurtosis <0 đường màu xanh
phía dưới, =0 đường màu xanh ở giữa (chuẩn)
Nếu Kurtosis > 0, kurtosis càng lớn đồ thị càng nhọn. Nếu
kurtosis <0, kurtosis càng bé đồ thị càng tù
Skewness > 0 là lệch phải, <0 là lệch trái
II. Tổ chức đồ
Ví dụ 2 – trang 25
Tần số xuất hiện của số liệu trong các khoảng cách
đều nhau cho phép phác họa biểu đồ tần số. Để vẽ
biểu đồ cần thực hiện qua 2 bước: bước chuẩn bị và
bước vẽ tổ chức đồ
1.
2.
Chuẩn bị:
»
»
»
»
»
»
Dể số liệu ở một cột, một hàng hay một bảng chữ nhật
Tìm giá trị lớn nhất (hàm Max), nhỏ nhất (hàm Min)
Tính khoảng biến thiên R=Max-Min
Chọn số khoảng k của miền phân tổ (thực tế chọn k từ 20-30, ví
dụ minh họa chọn k từ 6-10), có thể lấy bằng công thức 6*log(n)
trong đó n là số giá trị của DLNN X (lấy giá trị nguyên xấp xỉ)
Tìm giá trị bước tăng trong miền phân tổ h = R/k (Sử dụng hàm
Round(R/k,số chữ số lẻ)
Tạo cột bin (Edit->Fill->Series, xem trang 25, 20)
II. Tổ chức đồ
Chuẩn bị:
Vẽ tổ chức đồ
»
Chọn Tool -> Data Analysis-> Histogram để khai báo các mục:
•
•
•
•
•
•
•
Input range: Miền dữ liệu
Input Bin: Miền phân tổ
Labels: Nhãn ở dòng đầu nếu có
Output range: Miền kết quả
Pareto: Tần số sắp xếp trong tổ chức đồ là giảm dần
Cumulative Percentage: Hiển thị đường tần suất cộng dồn %
Chart output: Hiển thị biểu đồ
Phân tích kết quả từ biểu đồ
»
»
Trong khoảng nào số liệu xuất hiện nhiều nhất
Hình dạng tổ chức đồ có giống hình dạng đường mật độ trong
phân phối chuẩn không (có tính đối xứng, nhô cao ở giữa-> dạng
đường cong chuông). Nếu có thì kết luận dữ liệu có thể tuân theo
luật chuẩn
Hình ảnh về tổ chức đồ
Histogram
7
120.00%
6
100.00%
Frequency
5
80.00%
4
60.00%
3
40.00%
2
1
20.00%
0
0.00%
10
15
20
25
30
35
Bin
40
45
50
55
More
Frequency
Cumulative %
Xem xét các đỉnh của các HCN xấp xỉ đường cong
hàm mật độ trong phân phối chuẩn hay không ?
Xem xét trường hợp sau
III. Tương quan và hồi quy
Tính hệ số tương quan
Ý nghĩa của hệ số tương quan: (xem lại)
Excel cho phép tính hệ số tương quan đơn giữa các
biến
Cách thực hiện: Vào Tools-> Data Analysis->
Correlation và khai báo các mục
a.
-
-
Input range: miền dữ liệu kể cả nhãn (nên có)
Grouped by: số liệu nhóm theo cột hay hàng
Labels in first row: tích vào nếu có nhãn ở dòng đầu hay cột
đầu
Output range: miền output
Nhấn OK để kết thúc, cho kết quả là bảng n hàng n cột
Ví dụ 3: (Giáo trình)
III. Tương quan và hồi quy
b. Hồi quy tuyến tính
- Cho phép tìm phương trình hồi quy tuyến tính
đơn y=a*x +b và hồi quy tuyến tính bội
y=a1*x1 + a2*x2 + … + an*xn + b
- Dữ liệu input: Các biến độc lập chứa trong n
cột, biến phụ thuộc y để trong một cột, các giá
trị tương ứng giữa biến độc lập và biến phụ
thuộc được xếp trên cùng một hàng
- Ví dụ (giáo trình): Tìm đường hồi quy cuả năng
xuất lúa y phụ thuộc vào độ dài bông, trọng
lượng 1000 hạt, và số bông
Cách thực hiện: Data-> Analysis-> Regression
18
Xuất hiện hộp thoại
Miền dữ liệu của biến phụ
thuộc Y
Miền dữ liệu của các biến X
Có để nhãn đầu dòng không?
Độ tin cậy (bằng 1-α, với α
là mức xác suất)
Hệ số tự do b = 0 khi tích vào
Hiện đồ thị phần dư
Hiện phần dư hay sai lệch giữa y
thực nghiêm và y theo hồi quy
Hiện đồ thị
đường dự báo
19
Kết quả
20