Pca Là Gì
Mở đầu.
Bạn đang xem: Pca là gì
Đây là thuật toán hình thành để giải quyết và xử lý vấn đề dữ liệu có vô số chiều dữ liệu, cần giảm bớt chiều dữ liệu nhằm mục tiêu tăng tốc độ xử lí, cơ mà vẫn giữ lại tin tức nhiều nhất có thể (high variance).
Chúng ta phải tìm ra chiều tài liệu có độ đặc biệt cao, nhằm giảm sút việc tính toán, cũng tương tự tăng vận tốc xử lí.
Xem thêm: Trường Trung Cấp Tiếng Anh Là Gì : Định Nghĩa, Ví Dụ Anh Việt
Dữ liệu.
Chúng ta cần phân biệt 2 loại dữ liệu:
Dữ liệu liên quan (correlated):

PCA tìm thấy mean với principal components.
Xem thêm: Chân Nhân Là Gì ? Từ Điển Tiếng Việt Chân Nhân


Làm nỗ lực nào để implement PCA:
Biến đổi X về dạng đồng nhất.Tính toán covariance matrix ΣTìm eigenvectors của ΣLấy K dimensions có giá trị variance cao nhấteigenvectors (vector color đỏ)
là vector không biến đổi hướng lúc apply linear transformation.

eigenvalue cho PC1

eigenvalue mang đến PC2

eigenvector

Sự phân bổ độ đặc biệt của chiều dữ liệu


Algorithm
from numpy import arrayfrom numpy import meanfrom numpy import covfrom numpy.linalg import eig# define a matrixA = array(<<1, 2>, <3, 4>, <5, 6>>)print(A)# calculate the mean of each columnM = mean(A.T, axis=1)print(M)# center columns by subtracting column meansC = A - Mprint(C)# calculate covariance matrix of centered matrixV = cov(C.T)print(V)# eigendecomposition of covariance matrixvalues, vectors = eig(V)print(vectors)print(values)# project dataP = vectors.T.dot(C.T)print(P.T)Output:

