Page 328 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 328

học cá thể hóa, việc phân tích dữ liệu metagenomic để có thể đưa ra phương
          pháp điều trị phù hợp cho từng bệnh nhân là vô cùng cần thiết.
























                 Hình 16.2. Tiến trình “định lượng Metagenomic” trong ruột người
                                   (Nguồn: Tài và ctv., 2020)

               Hình 16.2 mô tả một ví dụ về việc xử lý dữ liệu metagenomic phân tích
          các thành phần vi khuẩn có trong ruột người, để thu được dữ liệu cho phân
          tích, kho dữ liệu này cần phải trải qua nhiều giai đoạn xử lý. Như mô tả của
          Tài và ctv. (2020) dữ liệu từ các mẫu phân của bệnh nhân, sau đó đem đi phân
          tích giải trình tự vật liệu di truyền (deoxyribonucleic acid - DNA). Kết quả
          giải trình tự này sẽ được tham chiếu đến bộ gene đã được công bố để tìm ra
          những đoạn DNA này thuộc những loài nào, kết quả sau khi tham chiếu sẽ có
          được một bảng gọi là “Bộ đếm gen” (gene counts). Căn cứ vào bộ đếm gen
          này, chúng ta sẽ có được kết quả tham chiếu về các loài vi khuẩn đã biết và
          thông qua tính toán sẽ biết được các tỷ lệ phân bố (anbudance) các thành phần
          vi khuẩn trong cơ thể của chính bệnh nhân. Độ phong phú tương đối như một
          độ đo đa dạng sinh học và cho biết độ phổ biến hay độ nguy hiểm của một
          loài si với các loài khác.
               16.2.2  Các giải pháp Tăng cường dữ liệu (data augmentation)

               Trong các bài toán học sâu, dữ liệu đóng một vai trò vô cùng quan trọng,
          ảnh hưởng trực tiếp đến chất lượng mô hình. Tuy nhiên, dữ liệu thực tế chúng
          ta thu thập được cho các nghiên cứu là khó khăn. Một thử thách khác là dữ
          liệu thu thập thường mất cân bằng giữa các lớp, việc thiếu hay mất cân bằng
          dữ liệu sẽ rất khó để huấn luyện ra một mô hình có kết quả dự đoán tốt và


          314
   323   324   325   326   327   328   329   330   331   332   333