Chào mọi người,
Tớ đang xem lại mấy cái cơ bản cho mấy buổi phỏng vấn sắp tới, và tớ nhận ra là tớ hay bị bí khi giải thích mấy cái khái niệm đơn giản mà không dùng mấy từ chuyên ngành.
Tớ viết ra một bản tóm tắt về 10 thuật toán hàng đầu để giúp tớ nhớ chúng. Tớ nghĩ cái này có thể giúp những người mới bắt đầu hoặc muốn ôn lại kiến thức ở đây.
Đây là danh sách:
-
Ý chính: Vẽ một đường thẳng nhất có thể đi qua một biểu đồ phân tán các điểm dữ liệu để dự đoán một giá trị (ví dụ như dự đoán giá nhà dựa trên diện tích).
-
Khái niệm chính: Giảm thiểu “lỗi” (khoảng cách) giữa đường thẳng và các điểm dữ liệu thực tế.
-
Ý chính: Mặc dù tên gọi là hồi quy, nhưng nó dùng để phân loại, không phải hồi quy. Nó vẽ một đường cong hình chữ “S” (Sigmoid) vào dữ liệu để phân chia nó thành hai nhóm (ví dụ: “Spam” vs. “Không phải Spam”).
-
Khái niệm chính: Nó xuất ra một xác suất giữa 0 và 1.
-
Ý chính: Thuật toán “áp lực từ bạn bè”. Nếu bạn muốn biết một điểm dữ liệu mới là gì, bạn xem xét ‘K’ láng giềng gần nhất của nó. Nếu hầu hết chúng là Xanh lam, điểm mới có lẽ là Xanh lam.
-
Khái niệm chính: Nó không thực sự “học” một mô hình; nó chỉ ghi nhớ dữ liệu (Lazy Learner – Học lười).
-
Ý chính: Tưởng tượng hai nhóm dữ liệu trên sàn nhà. SVM cố gắng đặt một con đường rộng (siêu phẳng) giữa chúng. Mục tiêu là làm cho con đường rộng nhất có thể mà không chạm vào bất kỳ điểm dữ liệu nào.
-
Khái niệm chính: “Kernel Trick” cho phép nó phân tách dữ liệu không dễ dàng phân tách bằng một đường thẳng bằng cách chiếu nó vào các chiều cao hơn.
-
Ý chính: Một sơ đồ các câu hỏi. “Trời có mưa không?” -> Có -> “Có gió không?” -> Không -> “Chơi tennis.” Nó chia dữ liệu thành các phần nhỏ hơn dựa trên các quy tắc đơn giản.
-
Khái niệm chính: Dễ hiểu, nhưng dễ bị “overfitting” (ghi nhớ dữ liệu quá hoàn hảo).
-
Ý chính: Một nền dân chủ của Cây quyết định. Bạn xây dựng 100 cây khác nhau và để chúng bỏ phiếu cho câu trả lời. Đa số thắng.
-
Khái niệm chính: Giảm thiểu rủi ro sai sót mà một cây đơn lẻ có thể mắc phải (Ensemble Learning – Học theo nhóm).
-
Ý chính: Bạn có một đống dữ liệu lộn xộn chưa được gắn nhãn. Bạn muốn tổ chức nó thành ‘K’ số lượng đống. Thuật toán chọn ngẫu nhiên các trung tâm cho các đống và tiếp tục di chuyển chúng cho đến khi các nhóm có ý nghĩa.
-
Khái niệm chính: Học không giám sát (chúng ta không biết câu trả lời trước).
-
Ý chính: Một bộ phân loại xác suất dựa trên Định lý Bayes. Nó giả định rằng tất cả các tính năng đều độc lập (điều này là “ngây thơ” vì trong đời thực, mọi thứ thường liên quan đến nhau).
-
Khái niệm chính: Tốt một cách đáng ngạc nhiên để phân loại văn bản (như lọc email).
-
Ý chính: Nén dữ liệu. Bạn có một tập dữ liệu với 50 cột (tính năng), nhưng bạn chỉ muốn 2 hoặc 3 cột quan trọng nhất. PCA kết hợp các biến để giảm độ phức tạp trong khi vẫn giữ lại thông tin quan trọng.
-
Khái niệm chính: Giảm chiều.
-
Ý chính: Tương tự như Random Forest, nhưng thay vì xây dựng cây cùng một lúc, nó xây dựng chúng từng cái một. Mỗi cây mới cố gắng sửa lỗi của cây trước đó.
-
Khái niệm chính: Thường là người chiến thắng trong các cuộc thi Kaggle về dữ liệu dạng bảng.
Nếu bạn muốn kết nối những khái niệm này với quy trình làm việc sản xuất thực tế, một tài nguyên hữu ích là một khóa học thực hành về Machine Learning trên Google Cloud. Nó cho thấy các thuật toán như Linear/Logistic Regression, PCA, Random Forests và Gradient Boosting: Machine Learning on Google Cloud
Cho tớ biết nếu tớ bỏ sót cái nào quan trọng hoặc nếu bạn có một phép loại suy nào hay hơn cho chúng nhé!