PCA LÀ GÌ

Mlàm việc đầu.

Bạn đang xem: Pca là gì

Đây là thuật tân oán xuất hiện để giải quyết và xử lý vấn đề tài liệu tất cả không ít chiều dữ liệu, đề nghị giảm sút chiều tài liệu nhằm tăng tốc độ xử lý, nhưng vẫn lưu giữ lên tiếng các tốt nhất có thể (high variance).

Chúng ta đề xuất đưa ra chiều tài liệu có độ đặc trưng cao, nhằm mục đích giảm bớt vấn đề tính tân oán, tương tự như tăng vận tốc xử lí.
*
PCA gửi tài liệu từ linear thành các ở trong tính bắt đầu không liên quan lẫn nhau.

Xem thêm: Sinh Năm 1964 Mệnh Gì, Tuổi Gì Và Hợp Màu Gì? Sinh Năm 1964 Mệnh Gì

Dữ liệu.

Chúng ta cần khác nhau 2 loại dữ liệu:

Dữ liệu tương quan (correlated):

*

Dữ liệu không tương quan (uncorrelated):

*

PCA đưa ra mean với principal components.

*
*

Làm nạm nào nhằm implement PCA:

Biến đổi X về dạng đồng nhất.Tính tân oán covariance matrix ΣTìm eigenvectors của ΣLấy K dimensions có giá trị variance cao nhất

eigenvectors (vector color đỏ)

là vector ko đổi khác phía lúc apply linear transformation.

*

eigenvalue cho PC1

*

eigenvalue đến PC2

*

eigenvector

*

Sự phân chia độ đặc biệt quan trọng của chiều dữ liệu

*
*

Algorithm

from numpy import arrayfrom numpy import meanfrom numpy import covfrom numpy.linalg import eig# define a matrixA = array(<<1, 2>, <3, 4>, <5, 6>>)print(A)# calculate the mean of each columnM = mean(A.T, axis=1)print(M)# center columns by subtracting column meansC = A - Mprint(C)# calculate covariance matrix of centered matrixV = cov(C.T)print(V)# eigendecomposition of covariance matrixvalues, vectors = eig(V)print(vectors)print(values)# project dataPhường = vectors.T.dot(C.T)print(Phường.T)Output:

*
*
Reference: