Page 186 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 186
9.4.2.2 Máy học
Kỹ thuật phân loại đa lớp trong máy học được áp dụng để dự đoán cho từng
bệnh xuất hiện tại các ao nuôi. Cách tiếp cận phân tách một lớp so với phần
còn lại của dữ liệu là việc chia tập dữ liệu nhiều lớp thành nhiều bài toán phân
loại nhị phân. Mỗi bài toán nhị phân chỉ dự đoán cho một lớp. Nói cách khác,
phương pháp này liên quan đến việc huấn luyện dữ liệu cho từng lớp, có nghĩa
là các mẫu thuộc lớp được huấn luyện là “possitive” và tất cả các mẫu khác
là “negative”. Ở đây, phương pháp “một so với tổng thể” được áp dụng để xử
lý dự đoán cho từng bệnh. Phương pháp này được sử dụng từ thư viện scikit-
learn của ngôn ngữ python (Pedregosa, 2011). Có bốn thuật toán bao gồm hồi
quy logistic, mạng lưới neuron, tăng cường độ dốc và rừng ngẫu nhiên được
sử dụng.
Hồi quy logistic
Mô hình hồi quy logistic thường được áp dụng để dự đoán xác suất. Phương
trình của nó được mô tả là:
log ( ) = + + + ⋯ + (1)
2 2
1 1
0
1−
Trong đó, ρ là xác suất xảy ra còn β là hệ số của các biến độc lập. Ở
đây, kết quả là xác suất xuất hiện bệnh, tức là bệnh đốm trắng/chậm lớn/viêm
gan tụy sẽ xảy ra hoặc sẽ không xảy ra.
Mạng lưới neuron
Mạng lưới thần kinh là một phương pháp phát triển từ ý tưởng mô
phỏng bộ não con người (Zou et al., 2008). Cấu trúc của mạng neuron bao
gồm nhiều nút (neuron) nằm ở các lớp. Có ba lớp chính bao gồm lớp đầu vào,
lớp ẩn và lớp đầu ra. Lớp đầu vào bao gồm các neuron nhận thông tin từ thế
giới bên ngoài, các lớp ẩn có trách nhiệm ánh xạ các mẫu thông tin bên trong
trong khi lớp đầu ra đóng vai trò chuyển tiếp kết quả ra ngoài. Dữ liệu được
xử lý trong mỗi nút và mỗi nút trong các lớp ẩn nhận vào các giá trị là các
đầu ra từ các nút trước đó, sau đó kết hợp với hệ số hoặc trọng số để tính toán
kết quả cho các nút tiếp theo.
Rừng ngẫu nhiên
Rừng ngẫu nhiên dựa trên nguyên tắc cây quyết định. Cây quyết định
bao gồm nút gốc và các nút trung gian nhận các đầu vào để xử lý và các nút
lá là đầu ra. Rừng ngẫu nhiên tạo ra mô hình dự đoán bằng cách chọn mẫu
ngẫu nhiên và sử dụng các đặc điểm để xây dựng nhiều cây quyết định. Trong
172