Pca Là Gì

     

Mở đầu.

Bạn đang xem: Pca là gì

Đây là thuật toán hình thành để giải quyết và xử lý vấn đề dữ liệu có vô số chiều dữ liệu, cần giảm bớt chiều dữ liệu nhằm mục tiêu tăng tốc độ xử lí, cơ mà vẫn giữ lại tin tức nhiều nhất có thể (high variance).

Chúng ta phải tìm ra chiều tài liệu có độ đặc biệt cao, nhằm giảm sút việc tính toán, cũng tương tự tăng vận tốc xử lí.
*
PCA chuyển dữ liệu từ linear thành các thuộc tính new không liên quan lẫn nhau.

Xem thêm: Trường Trung Cấp Tiếng Anh Là Gì : Định Nghĩa, Ví Dụ Anh Việt

Dữ liệu.

Chúng ta cần phân biệt 2 loại dữ liệu:

Dữ liệu liên quan (correlated):

*

Dữ liệu không tương quan (uncorrelated):

*

PCA tìm thấy mean với principal components.

Xem thêm: Chân Nhân Là Gì ? Từ Điển Tiếng Việt Chân Nhân

*
*

Làm nỗ lực nào để implement PCA:

Biến đổi X về dạng đồng nhất.Tính toán covariance matrix ΣTìm eigenvectors của ΣLấy K dimensions có giá trị variance cao nhất

eigenvectors (vector color đỏ)

là vector không biến đổi hướng lúc apply linear transformation.

*

eigenvalue cho PC1

*

eigenvalue mang đến PC2

*

eigenvector

*

Sự phân bổ độ đặc biệt của chiều dữ liệu

*
*

Algorithm

from numpy import arrayfrom numpy import meanfrom numpy import covfrom numpy.linalg import eig# define a matrixA = array(<<1, 2>, <3, 4>, <5, 6>>)print(A)# calculate the mean of each columnM = mean(A.T, axis=1)print(M)# center columns by subtracting column meansC = A - Mprint(C)# calculate covariance matrix of centered matrixV = cov(C.T)print(V)# eigendecomposition of covariance matrixvalues, vectors = eig(V)print(vectors)print(values)# project dataP = vectors.T.dot(C.T)print(P.T)Output:

*
*
Reference: