Naive bayes là gì

     

Bài viết này vincitysdaimo.com sẽ trao đổi về kim chỉ nan đằng sau những bộ phân nhiều loại Naive Bayes và việc triển khai chúng.

Bạn đang xem: Naive bayes là gì

Bộ phân nhiều loại Naive Bayes là tập hợp những thuật toán phân loại dựa vào Định lý Bayes. Nó không phải là 1 thuật toán đơn lẻ mà là 1 trong những họ những thuật toán mà toàn bộ chúng đều phải có chung một nguyên tắc, có nghĩa là mọi cặp đặc tính được phân loại là chủ quyền với nhau.

Để bắt đầu, bọn họ hãy để ý một tập dữ liệu.

Hãy chăm chú một tập tài liệu hư cấu tế bào tả các điều kiện khí hậu để đùa gôn. Với đk thời tiết, mỗi bộ phân loại những điều kiện là cân xứng (“Có”) hoặc không phù hợp (“Không”) để đánh gôn.

Đây là phần trình bày dạng bảng của tập dữ liệu của chúng ta.


OUTLOOKTEMPERATUREHUMIDITYWINDYPLAY GOLF
0RainyHotHighFalseNo
1RainyHotHighTrueNo
2OvercastHotHighFalseYes
3SunnyMildHighFalseYes
4SunnyCoolNormalFalseYes
5SunnyCoolNormalTrueNo
6OvercastCoolNormalTrueYes
7RainyMildHighFalseNo
8RainyCoolNormalFalseYes
9SunnyMildNormalFalseYes
10RainyMildNormalTrueYes
11OvercastMildHighTrueYes
12OvercastHotNormalFalseYes
13SunnyMildHighTrueNo

Tập tài liệu được phân thành hai phần, đó là ma trận đặc trưng và vectơ phản nghịch hồi.

Ma trận đối tượng người sử dụng chứa tất cả các vectơ (hàng) của tập dữ liệu, trong những số đó mỗi vectơ bao hàm giá trị của các đối tượng người tiêu dùng phụ thuộc. Trong tập dữ liệu trên, các tính năng là ‘Outlook’, ‘Nhiệt độ’, ‘Độ ẩm’ với ‘Có gió’.Vectơ ý kiến chứa quý hiếm của đổi thay lớp (dự đoán hoặc đầu ra) cho mỗi hàng của ma trận đặc trưng. Vào tập dữ liệu trên, tên phát triển thành lớp là ‘Chơi gôn’.

Nội dung chính


1. Trả thiết:

Giả định cơ bạn dạng của Naive Bayes là mỗi tác dụng tạo nên:

độc lậpcông bằng

đóng góp vào kết quả.

Với mối quan hệ với tập tài liệu của chúng ta, có mang này hoàn toàn có thể được đọc là:


Chúng ta đưa định rằng không có cặp nhân tài nào là phụ thuộc. Ví dụ: ánh sáng là “Nóng” không liên quan gì đến nhiệt độ hoặc triển vọng là “Mưa” không tác động đến gió. Vị đó, các tính năng được mang định là độc lập.Thứ hai, mỗi kĩ năng có thuộc trọng số (hoặc tầm quan tiền trọng). Ví dụ: chỉ biết nhiệt độ và nhiệt độ không thể dự đoán chính xác kết quả. Không có thuộc tính như thế nào là không tương quan và biết tới đóng góp giống hệt vào kết quả.

Lưu ý: những giả định vị Naive Bayes chỉ dẫn thường không đúng trong các tình huống thực tế. Bên trên thực tế, giả định về tính độc lập không lúc nào đúng dẫu vậy thường chuyển động tốt trong thực tế.

Bây giờ, trước lúc chuyển sang phương pháp cho Naive Bayes, điều đặc biệt là phải biết về định lý Bayes.

2, Định lý Bayes

Định lý Bayes tìm tỷ lệ của một sự kiện xảy ra với tỷ lệ của một sự khiếu nại khác đang xảy ra. Định lý Bayes được phát biểu về mặt toán học bên dưới dạng phương trình sau:

trong đó A với B là các sự kiện và p (B)? 0.

Về cơ bản, chúng ta đang cố gắng tìm xác suất của sự khiếu nại A, với đk sự khiếu nại B là đúng. Sự khiếu nại B cũng được gọi là bởi chứng.P (A) là tiên nghiệm của A (xác suất trước, tức là xác suất của sự kiện trước khi minh chứng được quan sát thấy). Bằng chứng là một trong những giá trị thuộc tính của một cá thể không khẳng định (ở đây, nó là việc kiện B).P (A | B) là xác suất hậu kỳ của B, có nghĩa là xác suất của việc kiện sau thời điểm bằng chứng được chú ý thấy.

Bây giờ, liên quan đến tập tài liệu của bọn chúng ta, chúng ta cũng có thể áp dụng định lý Bayes theo phong cách sau:

trong đó, y là phát triển thành lớp cùng X là vectơ quánh trưng phụ thuộc vào (có size n) trong đó:

Chỉ nhằm rõ ràng, một lấy ví dụ về vectơ đặc trưng và trở thành lớp tương ứng hoàn toàn có thể là: (tham khảo bậc nhất tiên của tập dữ liệu)

X = (Rainy, Hot, High, False)y = NoVì vậy, về cơ bản, p. (y | X) ở chỗ này có nghĩa là, xác suất “Không nghịch gôn” với đk thời huyết là “Có mưa”, “Nhiệt độ nóng”, “độ ẩm cao” với “không có gió”.

3. đưa định Naive 

Bây giờ, đã đến khi đặt một giả định Naive đến định lý Bayes, tức là sự độc lập giữa các đối tượng người dùng địa lý. Bởi vì vậy, bây giờ, chúng ta chia dẫn chứng thành các phần độc lập.

Xem thêm: De Thi Chuyên Hóa Vào Lớp 10 Tphcm 2018, 29 Thi 10 Chuyen Hoa Tphcm 2018

Bây giờ, nếu như hai sự khiếu nại A với B ngẫu nhiên là độc lập, thì


P (A, B) = phường (A) phường (B)

Do đó, shop chúng tôi đạt được kết quả:

có thể được diễn đạt như sau:

Bây giờ, bởi vì mẫu số ko đổi đối với một nguồn vào nhất định, chúng ta có thể loại vứt thuật ngữ đó:

Bây giờ, chúng ta cần tạo thành một mô hình phân loại. Đối với điều này, chúng ta tìm tỷ lệ của bộ đầu vào đã cho cho tất cả các giá trị có thể có của biến đổi lớp y với chọn áp ra output với tỷ lệ tối đa. Điều này có thể được biểu thị bằng toán học tập như sau:

Vì vậy, cuối cùng, bọn họ chỉ còn sót lại nhiệm vụ tính phường (y) và p. (xi | y).

Xin chú ý rằng p. (y) còn được gọi là xác suất lớp và p. (xi | y) được gọi là phần trăm có điều kiện.

Các cỗ phân nhiều loại Naive Bayes không giống nhau chủ yếu khác nhau bởi các giả định mà bọn chúng đưa ra tương quan đến phân phối p. (xi | y).

Hãy để họ thử vận dụng công thức trên theo cách thủ công bằng tay trên tập dữ liệu thời tiết của bọn chúng ta. Đối với điều này, họ cần thực hiện một số đo lường và thống kê trước bên trên tập tài liệu của mình.

Chúng ta đề nghị tìm phường (xi | yj) cho từng xi trong X và yj vào y. Toàn bộ những thống kê giám sát này vẫn được chứng minh trong bảng dưới đây:


*

Vì vậy, vào hình trên, bọn họ đã thống kê giám sát P (xi | yj) cho từng xi trong X và yj trong y theo cách thủ công trong bảng 1-4. Ví dụ, phần trăm chơi gôn nhận định rằng nhiệt độ mát, có nghĩa là P (nhiệt độ = non | nghịch gôn = Có) = 3/9.

Ngoài ra, chúng ta cần tìm xác suất của lớp (P (y)) đã được tính trong bảng 5. Ví dụ, p. (chơi gôn = Có) = 9/14.

Vì vậy, bây giờ, chúng tôi đã hoàn tất các tính toán trước của bản thân và trình phân loại đã sẵn sàng!

Hãy để bọn họ thử nghiệm nó bên trên một bộ tính năng được cải thiện (chúng ta call nó là hôm nay):

today = (Sunny, Hot, Normal, False)

Vì vậy, phần trăm chơi gôn được đến bởi:

và tỷ lệ để không nghịch gôn được mang đến bởi:

Vì p. (ngày nay) là thông thường trong cả nhì xác suất, bạn cũng có thể bỏ qua p. (ngày nay) và tìm xác suất tỷ lệ thuận là:

Những con số này hoàn toàn có thể được chuyển đổi thành xác suất bằng cách làm đến tổng bằng 1 (chuẩn hóa):

Vì vậy, dự kiến rằng chơi gôn sẽ tiến hành chơi là “Có”.


Phương pháp mà bọn họ đã bàn luận ở trên rất có thể áp dụng cho dữ liệu rời rạc. Vào trường hợp tài liệu liên tục, bọn họ cần đưa ra một số trong những giả định tương quan đến câu hỏi phân phối các giá trị của từng đối tượng người tiêu dùng địa lý. Các bộ phân các loại Naive Bayes không giống nhau chủ yếu khác nhau bởi những giả định mà bọn chúng đưa ra tương quan đến phân phối p. (xi | y).

Bây giờ, chúng ta thảo luận về một trong những bộ phân loại do đó ở đây.

3. Cỗ phân các loại Gaussian Naive Bayes

Trong Gaussian Naive Bayes, các giá trị tiếp tục được links với mỗi đối tượng người sử dụng địa lý được đưa định là phân phối theo phân phối Gauss. Phân phối Gaussian còn gọi là phân phối Chuẩn. Lúc được vẽ, nó cho một đường cong hình chuông đối xứng về quý hiếm trung bình của các giá trị đối tượng người tiêu dùng như hình bên dưới đây:

*

Khả năng của các đối tượng người sử dụng được mang định là Gaussian, vì đó, tỷ lệ có đk được giới thiệu bởi:

Bây giờ, bọn họ xem xét việc tiến hành trình phân một số loại Gaussian Naive Bayes bằng phương pháp sử dụng scikit-learning.

# load the iris dataset from sklearn.datasets import load_iris iris = load_iris() # store the feature matrix (X) và response vector (y) X = iris.data y = iris.target # splitting X và y into training and testing sets from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=1) # training the model on training mix from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() gnb.fit(X_train, y_train) # making predictions on the testing phối y_pred = gnb.predict(X_test) # comparing actual response values (y_test) with predicted response values (y_pred) from sklearn import metrics print("Gaussian Naive Bayes mã sản phẩm accuracy(in %):", metrics.accuracy_score(y_test, y_pred)*100)Output

Gaussian Naive Bayes model accuracy(in %): 95.0Các bộ phân loại Naive Bayes thịnh hành khác là:

Đa thức Naive Bayes: Các vectơ sệt trưng đại diện cho các tần số mà những sự kiện khăng khăng đã được tạo thành bởi một phân phối đa thức. Đây là quy mô sự kiện thường xuyên được áp dụng để phân một số loại tài liệu.Bernoulli Naive Bayes: Trong quy mô sự kiện Bernoulli nhiều biến, những đặc trưng là những boolean độc lập (biến nhị phân) biểu lộ đầu vào. Giống hệt như mô hình nhiều thức, mô hình này thông dụng cho các nhiệm vụ phân các loại tài liệu, trong các số ấy các tính năng xuất hiện thêm thuật ngữ nhị phân (tức là 1 trong từ xuất hiện thêm trong tư liệu hoặc không) được sử dụng thay vì tần suất thuật ngữ (tức là tần suất của một từ vào tài liệu).

Khi họ đi đến phần cuối của bài viết này, đây là một số điểm đặc biệt cần suy ngẫm:

Bất chấp hầu hết giả định được đơn giản và dễ dàng hóa trên mức cần thiết của họ, cỗ phân một số loại Naive Bayes đã hoạt động khá giỏi trong nhiều trường hợp thực tế, lừng danh là phân một số loại tài liệu và lọc thư rác. Bọn chúng yêu ước một lượng nhỏ tuổi dữ liệu huấn luyện và đào tạo để mong tính các thông số kỹ thuật cần thiết.Người học và phân loại Naive Bayes rất có thể cực kỳ nhanh so với các phương thức phức tạp hơn. Việc tách bóc các phân phối đặc trưng có điều kiện của lớp tức là mỗi phân phối hoàn toàn có thể được cầu tính hòa bình như một triển lẵm một chiều. Điều này theo lần lượt giúp giảm sút các vấn đề bắt đầu từ lời nguyền về chiều ko gian.

Xem thêm: Cobalt Hay Coban Là Gì ? Nó Có Ứng Dụng Gì? Đặc Điểm, Tính Chất Lý Hóa Học Của Kim Loại Coban

Cài áp dụng vincitysdaimo.com để dễ dàng cập nhật tin cùng học xây dựng mọi lúc đa số nơi tại đây.