Chuyển đến nội dung

Trắc nghiệm Khai phá dữ liệu online có đáp án

Trắc Nghiệm Kỹ Thuật & Công Nghệ

Trắc nghiệm Khai phá dữ liệu online có đáp án

Ngày cập nhật: Tháng 2 6, 2026

Lưu ý và Miễn trừ trách nhiệm:Toàn bộ nội dung câu hỏi, đáp án và thông tin được cung cấp trên website này được xây dựng nhằm mục đích tham khảo, hỗ trợ ôn tập và củng cố kiến thức. Chúng tôi không cam kết về tính chính xác tuyệt đối, tính cập nhật hay độ tin cậy hoàn toàn của các dữ liệu này. Nội dung tại đây KHÔNG PHẢI LÀ ĐỀ THI CHÍNH THỨC của bất kỳ tổ chức giáo dục, trường đại học hay cơ quan cấp chứng chỉ nào. Người sử dụng tự chịu trách nhiệm khi sử dụng các thông tin này vào mục đích học tập, nghiên cứu hoặc áp dụng vào thực tiễn. Chúng tôi không chịu trách nhiệm pháp lý đối với bất kỳ sai sót, thiệt hại hoặc hậu quả nào phát sinh từ việc sử dụng thông tin trên website này.

Chào mừng bạn đến với bộ Trắc nghiệm Khai phá dữ liệu online có đáp án. Bộ trắc nghiệm này giúp bạn hệ thống lại kiến thức một cách logic và dễ hiểu. Hãy chọn một bộ câu hỏi phía dưới để bắt đầu. Chúc bạn làm bài thuận lợi và thu được nhiều kiến thức mới

★★★★★
★★★★★
4.5/5 (152 đánh giá)

1. Trong thuật toán Apriori, khái niệm ‘support’ (độ hỗ trợ) thể hiện điều gì?

A. Xác suất một luật là đúng.
B. Tần suất xuất hiện của một tập mục trong cơ sở dữ liệu.
C. Độ tin cậy của một luật.
D. Mức độ quan trọng của một thuộc tính.

2. Trong ngữ cảnh của cây quyết định (Decision Tree), ‘entropy’ được sử dụng để làm gì?

A. Đo lường độ phức tạp của cây.
B. Đo lường độ không chắc chắn hoặc ngẫu nhiên của một tập dữ liệu.
C. Xác định thuộc tính quan trọng nhất để phân chia nút.
D. Cả B và C.

3. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu không cân bằng (imbalanced data)?

A. Chuẩn hóa dữ liệu
B. Oversampling (Lấy mẫu quá mức)
C. Giảm chiều dữ liệu
D. Tích hợp dữ liệu

4. Trong khai phá dữ liệu, kỹ thuật nào sau đây giúp tìm ra các mẫu (patterns) trong chuỗi thời gian (time series)?

A. Phân tích hồi quy
B. Phân tích chuỗi Fourier
C. Phân tích phân cụm
D. Phân tích luật kết hợp

5. Trong khai phá dữ liệu, ‘underfitting’ xảy ra khi nào?

A. Mô hình quá phức tạp và khớp với nhiễu trong dữ liệu.
B. Mô hình quá đơn giản và không nắm bắt được cấu trúc dữ liệu.
C. Dữ liệu huấn luyện không đủ lớn.
D. Dữ liệu kiểm tra khác biệt quá nhiều so với dữ liệu huấn luyện.

6. Phương pháp nào sau đây thường được sử dụng để giảm overfitting trong cây quyết định (Decision Tree)?

A. Tăng chiều sâu của cây.
B. Pruning (Cắt tỉa cây)
C. Sử dụng entropy để phân chia nút.
D. Chuẩn hóa dữ liệu đầu vào.

7. Trong khai phá dữ liệu, ‘confidence’ (độ tin cậy) trong luật kết hợp (association rule) thể hiện điều gì?

A. Tần suất xuất hiện của các mục trong luật.
B. Xác suất một luật là đúng.
C. Độ tin cậy của dữ liệu.
D. Mức độ quan trọng của một thuộc tính.

8. Độ đo nào sau đây được sử dụng để đánh giá hiệu quả của mô hình phân lớp?

A. Entropy
B. Độ chính xác (Accuracy)
C. Phương sai (Variance)
D. Độ lệch (Bias)

9. Khái niệm nào sau đây mô tả quá trình chuyển đổi dữ liệu từ nhiều nguồn khác nhau thành một định dạng thống nhất để khai phá?

A. Làm sạch dữ liệu (Data Cleaning)
B. Tích hợp dữ liệu (Data Integration)
C. Chuyển đổi dữ liệu (Data Transformation)
D. Giảm dữ liệu (Data Reduction)

10. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu văn bản (text data) trong khai phá dữ liệu?

A. Chuẩn hóa dữ liệu
B. Tokenization (Phân tách từ)
C. Giảm chiều dữ liệu
D. Tích hợp dữ liệu

11. Trong khai phá dữ liệu, ‘lift’ (độ nâng) trong luật kết hợp (association rule) được sử dụng để làm gì?

A. Đo lường độ tin cậy của luật.
B. Đo lường tần suất xuất hiện của các mục trong luật.
C. Đo lường mức độ tương quan giữa các mục trong luật so với khi chúng độc lập.
D. Đo lường độ phức tạp của luật.

12. Phương pháp nào sau đây giúp giảm số lượng bản ghi (rows) trong dữ liệu?

A. Aggregation (Tổng hợp)
B. Normalization (Chuẩn hóa)
C. Discretization (Rời rạc hóa)
D. Feature Selection (Lựa chọn thuộc tính)

13. Trong khai phá dữ liệu, mục tiêu của ‘feature selection’ (lựa chọn thuộc tính) là gì?

A. Tăng số lượng thuộc tính trong dữ liệu.
B. Giảm số lượng thuộc tính không liên quan hoặc dư thừa.
C. Chuyển đổi các thuộc tính liên tục thành rời rạc.
D. Tích hợp dữ liệu từ nhiều nguồn.

14. Phương pháp nào sau đây thường được sử dụng để đánh giá mô hình hồi quy?

A. Độ chính xác (Accuracy)
B. F1-score
C. Mean Squared Error (MSE)
D. Độ đo Lift

15. Kỹ thuật nào sau đây giúp xử lý dữ liệu bị thiếu trong khai phá dữ liệu?

A. Phân tích tương quan
B. Thay thế bằng giá trị trung bình/mode
C. Phân tích hồi quy
D. Phân tích phương sai

16. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu nhiễu (noisy data)?

A. Chuẩn hóa dữ liệu
B. Làm mịn dữ liệu (Data Smoothing)
C. Giảm chiều dữ liệu
D. Tích hợp dữ liệu

17. Trong khai phá dữ liệu, kỹ thuật ‘rời rạc hóa’ (discretization) được sử dụng để làm gì?

A. Chuyển đổi dữ liệu liên tục thành dữ liệu rời rạc.
B. Chuẩn hóa dữ liệu về một khoảng giá trị nhất định.
C. Loại bỏ các thuộc tính không liên quan.
D. Phát hiện các điểm dị biệt.

18. Phương pháp nào sau đây được sử dụng để đánh giá hiệu quả của mô hình phân cụm?

A. Độ chính xác (Accuracy)
B. F1-score
C. Silhouette Coefficient
D. AUC-ROC

19. Phương pháp nào sau đây thường được sử dụng để giảm số lượng chiều dữ liệu trong khai phá dữ liệu?

A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Giảm chiều dữ liệu
D. Làm sạch dữ liệu

20. Trong thuật toán K-means, mục tiêu là gì?

A. Phân loại các đối tượng vào các lớp đã biết.
B. Tìm các quy luật kết hợp giữa các thuộc tính.
C. Phân cụm các đối tượng thành k cụm sao cho tổng khoảng cách từ các đối tượng đến trung tâm cụm là nhỏ nhất.
D. Dự đoán giá trị của một biến liên tục.

21. Thuật toán nào sau đây là một phương pháp phân cụm dựa trên mật độ?

A. K-means
B. Hierarchical Clustering
C. DBSCAN
D. PCA

22. Thuật toán nào sau đây thường được sử dụng để tìm các quy luật kết hợp (association rules) trong khai phá dữ liệu?

A. K-means
B. Apriori
C. Decision Tree
D. Linear Regression

23. Trong ngữ cảnh của mạng nơ-ron (Neural Network), ‘activation function’ (hàm kích hoạt) có vai trò gì?

A. Tính toán độ lỗi của mạng.
B. Xác định kiến trúc của mạng.
C. Giới thiệu tính phi tuyến vào mạng.
D. Chuẩn hóa dữ liệu đầu vào.

24. Trong khai phá dữ liệu, mục tiêu của phân tích phân cụm là gì?

A. Dự đoán giá trị của một biến mục tiêu.
B. Tìm các nhóm đối tượng tương tự nhau.
C. Xác định các quy luật kết hợp giữa các thuộc tính.
D. Đánh giá hiệu quả của một mô hình.

25. Thuật toán nào sau đây thuộc nhóm thuật toán phân lớp trong khai phá dữ liệu?

A. K-means
B. Apriori
C. Support Vector Machine (SVM)
D. PCA

26. Trong khai phá dữ liệu, ‘recall’ (độ phủ) đo lường điều gì?

A. Tỷ lệ dự đoán đúng trên tổng số dự đoán.
B. Tỷ lệ dự đoán đúng trên tổng số thực tế là đúng.
C. Tỷ lệ dự đoán sai trên tổng số dự đoán.
D. Tỷ lệ dự đoán sai trên tổng số thực tế là sai.

27. Trong khai phá dữ liệu, ‘precision’ (độ chính xác) đo lường điều gì?

A. Tỷ lệ dự đoán đúng trên tổng số dự đoán.
B. Tỷ lệ dự đoán đúng trên tổng số thực tế là đúng.
C. Tỷ lệ dự đoán đúng trên tổng số dự đoán là đúng.
D. Tỷ lệ dự đoán sai trên tổng số thực tế là sai.

28. Trong khai phá dữ liệu, ‘overfitting’ (quá khớp) là gì?

A. Mô hình hoạt động kém trên dữ liệu huấn luyện.
B. Mô hình hoạt động kém trên dữ liệu kiểm tra.
C. Mô hình quá phức tạp và khớp với nhiễu trong dữ liệu huấn luyện.
D. Mô hình quá đơn giản và không thể hiện được mối quan hệ trong dữ liệu.

29. Phương pháp nào sau đây giúp phát hiện các điểm dị biệt (outliers) trong dữ liệu?

A. Phân tích hồi quy tuyến tính
B. Phân tích phương sai (ANOVA)
C. K-Nearest Neighbors (KNN)
D. Phân tích thành phần chính (PCA)

30. Thuật toán nào sau đây thuộc nhóm thuật toán học tăng cường (ensemble learning)?

A. K-means
B. Support Vector Machine (SVM)
C. Random Forest
D. Apriori

31. Trong khai phá dữ liệu, mục tiêu của feature selection là gì?

A. Tăng số lượng thuộc tính trong tập dữ liệu
B. Chọn ra tập hợp các thuộc tính quan trọng nhất để xây dựng mô hình
C. Giảm kích thước của tập dữ liệu bằng cách loại bỏ các bản ghi
D. Chuẩn hóa dữ liệu để có giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1

32. Trong quá trình tiền xử lý dữ liệu, kỹ thuật nào được sử dụng để xử lý các giá trị bị thiếu trong tập dữ liệu?

A. Data Reduction
B. Data Transformation
C. Data Cleaning
D. Data Integration

33. Trong khai phá dữ liệu, mục tiêu của feature engineering là gì?

A. Chọn ra các thuộc tính quan trọng nhất từ tập dữ liệu
B. Tạo ra các thuộc tính mới từ các thuộc tính hiện có để cải thiện hiệu suất mô hình
C. Giảm số lượng thuộc tính trong tập dữ liệu
D. Chuẩn hóa dữ liệu để có giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1

34. Phương pháp nào sau đây được sử dụng để giảm số lượng thuộc tính bằng cách kết hợp các thuộc tính ban đầu thành một số ít thuộc tính mới?

A. Feature Selection
B. Principal Component Analysis (PCA)
C. Feature Extraction
D. Feature Engineering

35. Kỹ thuật nào sau đây được sử dụng để xử lý dữ liệu chuỗi thời gian, ví dụ như dự đoán giá cổ phiếu?

A. Phân tích hồi quy
B. Mạng nơ-ron
C. ARIMA
D. Cây quyết định

36. Kỹ thuật nào sau đây được sử dụng để tìm các nhóm người dùng có hành vi tương tự nhau trên một trang web?

A. Phân tích hồi quy
B. Phân cụm (Clustering)
C. Phân lớp (Classification)
D. Phân tích chuỗi thời gian

37. Thuật toán nào sau đây thường được sử dụng để xây dựng mô hình mạng nơ-ron (neural network)?

A. K-means
B. Apriori
C. Backpropagation
D. Decision Tree

38. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để xây dựng một mô hình dự đoán dựa trên một tập hợp các luật IF-THEN?

A. Phân tích hồi quy
B. Mạng nơ-ron
C. Cây quyết định (Decision Tree)
D. Phân cụm

39. Trong khai phá dữ liệu, lift ratio được sử dụng để đánh giá điều gì trong phân tích luật kết hợp?

A. Độ phổ biến của một tập hợp các mục
B. Độ tin cậy của một luật kết hợp
C. Mức độ cải thiện của việc dự đoán một mục khi biết mục khác
D. Độ hỗ trợ của một luật kết hợp

40. Phương pháp nào sau đây được sử dụng để xử lý dữ liệu không cân bằng (imbalanced data), ví dụ như trong bài toán phát hiện gian lận?

A. Chuẩn hóa dữ liệu
B. Oversampling và undersampling
C. Giảm chiều dữ liệu
D. Rời rạc hóa dữ liệu

41. Kỹ thuật nào sau đây thường được sử dụng để trực quan hóa dữ liệu nhiều chiều?

A. Biểu đồ đường
B. Biểu đồ tròn
C. Scatter plot
D. Parallel Coordinates

42. Kỹ thuật nào sau đây được sử dụng để chuyển đổi dữ liệu định tính (categorical data) thành dữ liệu định lượng (numerical data) để phù hợp với các thuật toán khai phá dữ liệu?

A. Chuẩn hóa dữ liệu (Data Normalization)
B. Rời rạc hóa dữ liệu (Data Discretization)
C. Mã hóa One-Hot (One-Hot Encoding)
D. Giảm chiều dữ liệu (Dimensionality Reduction)

43. Phương pháp nào sau đây được sử dụng để đánh giá mô hình học máy bằng cách chia dữ liệu thành k phần, huấn luyện trên k-1 phần và kiểm tra trên phần còn lại, lặp lại k lần?

A. Bootstrap
B. Cross-validation
C. Hold-out validation
D. Leave-one-out

44. Trong khai phá dữ liệu, bias và variance là gì và chúng ảnh hưởng đến mô hình như thế nào?

A. Bias là lỗi do mô hình quá đơn giản, variance là lỗi do mô hình quá phức tạp
B. Bias là lỗi do dữ liệu bị thiếu, variance là lỗi do dữ liệu bị nhiễu
C. Bias là lỗi do thuật toán không phù hợp, variance là lỗi do dữ liệu không đủ
D. Bias và variance đều là lỗi do mô hình quá đơn giản

45. Thuật toán nào sau đây thuộc nhóm thuật toán phân cụm (clustering) dựa trên mật độ?

A. K-means
B. Hierarchical Clustering
C. DBSCAN
D. Support Vector Machine (SVM)

46. Độ đo nào sau đây thường được sử dụng để đánh giá hiệu quả của một mô hình phân lớp (classification model)?

A. Mean Squared Error (MSE)
B. Root Mean Squared Error (RMSE)
C. Accuracy
D. Sum of Squared Errors (SSE)

47. Trong khai phá dữ liệu, khái niệm nào sau đây mô tả việc sử dụng các kỹ thuật khai phá dữ liệu để giải quyết các vấn đề kinh doanh cụ thể?

A. Business Intelligence
B. Data Science
C. Business Analytics
D. Knowledge Discovery

48. Trong khai phá dữ liệu, entropy được sử dụng để đo lường điều gì?

A. Độ chính xác của một mô hình phân lớp
B. Độ không chắc chắn hoặc hỗn loạn của một tập dữ liệu
C. Mức độ liên quan giữa hai biến số
D. Độ phức tạp của một mô hình

49. Trong khai phá dữ liệu, underfitting và overfitting là gì?

A. Underfitting là mô hình quá phức tạp, overfitting là mô hình quá đơn giản
B. Underfitting là mô hình không đủ tốt để học từ dữ liệu, overfitting là mô hình học quá tốt dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới
C. Underfitting và overfitting đều là mô hình học quá tốt dữ liệu huấn luyện
D. Underfitting và overfitting đều là mô hình không đủ tốt để học từ dữ liệu

50. Phương pháp nào sau đây thường được sử dụng để giảm số lượng chiều dữ liệu trong khai phá dữ liệu, giúp đơn giản hóa mô hình và giảm thời gian tính toán?

A. Chuẩn hóa dữ liệu (Data Normalization)
B. Rời rạc hóa dữ liệu (Data Discretization)
C. Giảm chiều dữ liệu (Dimensionality Reduction)
D. Làm sạch dữ liệu (Data Cleaning)

51. Trong khai phá dữ liệu, mục tiêu chính của phân tích luật kết hợp (association rule mining) là gì?

A. Dự đoán giá trị của một biến số dựa trên các biến số khác
B. Tìm các mối quan hệ hoặc sự phụ thuộc giữa các biến số
C. Phân nhóm các đối tượng tương tự nhau thành các cụm
D. Giảm số lượng chiều dữ liệu

52. Trong khai phá dữ liệu, ROC curve và AUC được sử dụng để đánh giá mô hình nào?

A. Mô hình hồi quy
B. Mô hình phân cụm
C. Mô hình phân lớp
D. Mô hình luật kết hợp

53. Phương pháp nào sau đây thường được sử dụng để tìm các chủ đề (topics) trong một tập hợp các văn bản?

A. Phân tích hồi quy
B. Phân tích cảm xúc
C. Latent Dirichlet Allocation (LDA)
D. Phân tích chuỗi thời gian

54. Độ đo nào sau đây được sử dụng để đánh giá mức độ liên quan giữa hai biến số định lượng?

A. Entropy
B. Correlation
C. Chi-square
D. Information gain

55. Thuật toán nào sau đây thuộc nhóm thuật toán phân lớp (classification) trong khai phá dữ liệu?

A. K-means
B. Apriori
C. Support Vector Machine (SVM)
D. Hierarchical Clustering

56. Trong khai phá dữ liệu, khái niệm nào sau đây liên quan đến việc bảo vệ thông tin cá nhân và đảm bảo rằng dữ liệu không thể được sử dụng để xác định danh tính của một cá nhân?

A. Data mining
B. Data warehousing
C. Data privacy
D. Data integration

57. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để tìm các nhóm đối tượng tương tự nhau dựa trên các thuộc tính của chúng?

A. Phân tích hồi quy
B. Phân cụm (Clustering)
C. Phân lớp (Classification)
D. Phân tích chuỗi thời gian

58. Thuật toán nào sau đây thường được sử dụng để tìm các mẫu tuần tự (sequential patterns) trong dữ liệu, ví dụ như hành vi mua hàng của khách hàng theo thời gian?

A. K-means
B. Apriori
C. Decision Tree
D. GSP (Generalized Sequential Pattern)

59. Trong khai phá dữ liệu, outlier là gì?

A. Một thuộc tính quan trọng trong tập dữ liệu
B. Một giá trị dữ liệu bất thường, khác biệt đáng kể so với các giá trị khác
C. Một phương pháp để giảm chiều dữ liệu
D. Một kỹ thuật để chuẩn hóa dữ liệu

60. Trong khai phá dữ liệu, precision và recall là gì và chúng được sử dụng để đánh giá mô hình như thế nào?

A. Precision là tỷ lệ dự đoán đúng trên tổng số dự đoán, recall là tỷ lệ dự đoán đúng trên tổng số thực tế
B. Precision là tỷ lệ dự đoán sai trên tổng số dự đoán, recall là tỷ lệ dự đoán sai trên tổng số thực tế
C. Precision và recall đều là tỷ lệ dự đoán đúng trên tổng số dự đoán
D. Precision và recall đều là tỷ lệ dự đoán đúng trên tổng số thực tế

61. Phương pháp nào được sử dụng để chia một tập dữ liệu thành các nhóm sao cho các đối tượng trong cùng nhóm tương tự nhau hơn các đối tượng trong nhóm khác?

A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Dự báo (Forecasting)

62. Trong bối cảnh khai phá dữ liệu, phương pháp nào được sử dụng để giảm số lượng chiều của dữ liệu trong khi vẫn giữ lại thông tin quan trọng?

A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Giảm chiều dữ liệu
D. Làm sạch dữ liệu

63. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để xử lý dữ liệu bị thiếu?

A. Chuẩn hóa dữ liệu
B. Điền giá trị thiếu
C. Giảm chiều dữ liệu
D. Phân tích hồi quy

64. Thuật ngữ nào mô tả quá trình chuyển đổi dữ liệu thô thành một định dạng phù hợp hơn cho việc phân tích, bao gồm làm sạch, tích hợp và chuyển đổi dữ liệu?

A. Trực quan hóa dữ liệu
B. Tiền xử lý dữ liệu
C. Mô hình hóa dữ liệu
D. Đánh giá dữ liệu

65. Kỹ thuật nào trong khai phá dữ liệu giúp xác định mối quan hệ giữa các biến và dự đoán giá trị của một biến phụ thuộc?

A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân tích tương quan (Correlation Analysis)
D. Phân tích thành phần chính (Principal Component Analysis)

66. Trong khai phá dữ liệu, thuật ngữ nào mô tả một biến số có thể nhận một trong một số hữu hạn các giá trị rời rạc?

A. Biến liên tục (Continuous Variable)
B. Biến phân loại (Categorical Variable)
C. Biến số (Variable)
D. Biến độc lập (Independent Variable)

67. Đâu là một thách thức chính khi làm việc với dữ liệu lớn (Big Data) trong các dự án khai phá dữ liệu?

A. Sự thiếu hụt các thuật toán khai phá dữ liệu phù hợp.
B. Khả năng mở rộng của các hệ thống lưu trữ và xử lý dữ liệu.
C. Sự đơn giản trong việc tích hợp dữ liệu từ nhiều nguồn khác nhau.
D. Việc dễ dàng xác định và loại bỏ các giá trị ngoại lệ trong dữ liệu.

68. Khi nào thì việc sử dụng một ‘cây quyết định’ (decision tree) là phù hợp trong một dự án khai phá dữ liệu?

A. Khi cần dự đoán giá trị số của một biến số liên tục.
B. Khi cần phân loại dữ liệu vào các nhóm khác nhau dựa trên các thuộc tính.
C. Khi cần tìm kiếm các mối quan hệ giữa các biến số trong dữ liệu.
D. Khi cần giảm số lượng chiều dữ liệu để đơn giản hóa việc phân tích.

69. Trong khai phá dữ liệu, kỹ thuật nào giúp khám phá các mối quan hệ giữa các mục dữ liệu trong một tập dữ liệu?

A. Phân tích hồi quy (Regression Analysis)
B. Phân tích tương quan (Correlation Analysis)
C. Phân tích phương sai (Analysis of Variance)
D. Phân tích thành phần chính (Principal Component Analysis)

70. Kỹ thuật nào được sử dụng để dự đoán giá trị của một biến số phụ thuộc dựa trên một hoặc nhiều biến số độc lập?

A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)

71. Độ đo nào thường được sử dụng để đánh giá hiệu suất của mô hình phân loại, đặc biệt trong các bài toán có dữ liệu không cân bằng?

A. Độ chính xác (Accuracy)
B. Độ thu hồi (Recall)
C. Độ đo F1 (F1-score)
D. Độ đo AUC (Area Under the Curve)

72. Trong ngữ cảnh của khai phá dữ liệu, ‘làm sạch dữ liệu’ (data cleaning) bao gồm những hoạt động nào?

A. Chỉ loại bỏ các giá trị ngoại lệ.
B. Chỉ điền các giá trị thiếu.
C. Loại bỏ các giá trị ngoại lệ, điền các giá trị thiếu, và sửa các lỗi dữ liệu.
D. Chỉ chuyển đổi dữ liệu sang một định dạng phù hợp hơn.

73. Phương pháp nào trong khai phá dữ liệu được sử dụng để tìm ra các quy tắc mô tả mối quan hệ giữa các mục trong một tập dữ liệu, ví dụ như phân tích giỏ hàng?

A. Phân tích hồi quy
B. Phân tích tương quan
C. Khai thác luật kết hợp
D. Phân tích chuỗi thời gian

74. Trong khai phá dữ liệu, thuật ngữ ‘overfitting’ (quá khớp) dùng để chỉ điều gì?

A. Một mô hình quá phức tạp và phù hợp quá chặt chẽ với dữ liệu huấn luyện.
B. Một mô hình quá đơn giản và không thể nắm bắt được các mối quan hệ quan trọng trong dữ liệu.
C. Một tình huống khi dữ liệu huấn luyện không đủ lớn để huấn luyện một mô hình hiệu quả.
D. Một lỗi trong quá trình tiền xử lý dữ liệu dẫn đến việc mất thông tin quan trọng.

75. Trong khai phá dữ liệu, phương pháp nào được sử dụng để tìm các nhóm đối tượng tương tự nhau trong một tập dữ liệu?

A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)

76. Kỹ thuật nào trong khai phá dữ liệu được sử dụng để dự đoán giá trị của một biến số phụ thuộc dựa trên một hoặc nhiều biến số độc lập?

A. Phân loại
B. Hồi quy
C. Phân cụm
D. Khai thác luật kết hợp

77. Thuật ngữ nào mô tả một mẫu hoặc xu hướng bất thường trong một tập dữ liệu, có thể chỉ ra một vấn đề hoặc cơ hội tiềm năng?

A. Ngoại lệ (Outlier)
B. Giá trị trung bình
C. Phương sai
D. Độ lệch chuẩn

78. Phương pháp nào trong khai phá dữ liệu thường được sử dụng để chia một tập dữ liệu thành các nhóm nhỏ hơn, sao cho các đối tượng trong cùng một nhóm tương tự nhau hơn so với các đối tượng trong các nhóm khác?

A. Phân loại
B. Hồi quy
C. Phân cụm
D. Dự báo

79. Trong ngữ cảnh của khai phá dữ liệu, ‘độ chính xác’ (precision) và ‘độ phủ’ (recall) là gì?

A. Hai phương pháp để giảm số lượng chiều dữ liệu.
B. Hai độ đo đánh giá hiệu suất của một mô hình phân loại.
C. Hai kỹ thuật để làm sạch và chuẩn hóa dữ liệu.
D. Hai loại thuật toán được sử dụng trong phân tích hồi quy.

80. Khi nào thì việc sử dụng một mạng nơ-ron (neural network) là phù hợp trong một dự án khai phá dữ liệu?

A. Khi dữ liệu có cấu trúc đơn giản và dễ hiểu.
B. Khi cần giải quyết các bài toán phức tạp với dữ liệu phi tuyến tính.
C. Khi cần tìm kiếm các mối quan hệ giữa các biến số trong dữ liệu.
D. Khi cần giảm số lượng chiều dữ liệu để đơn giản hóa việc phân tích.

81. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để dự đoán chuỗi các sự kiện hoặc hành động xảy ra theo thời gian?

A. Phân tích hồi quy
B. Phân tích chuỗi thời gian
C. Phân tích luật kết hợp
D. Phân tích phương sai

82. Trong khai phá dữ liệu, thuật ngữ nào mô tả quá trình biến đổi dữ liệu thô thành định dạng phù hợp hơn cho phân tích?

A. Trực quan hóa dữ liệu (Data Visualization)
B. Tiền xử lý dữ liệu (Data Preprocessing)
C. Mô hình hóa dữ liệu (Data Modeling)
D. Đánh giá dữ liệu (Data Evaluation)

83. Mục đích chính của việc sử dụng kỹ thuật ‘giảm chiều dữ liệu’ (dimensionality reduction) trong khai phá dữ liệu là gì?

A. Tăng độ chính xác của các mô hình khai phá dữ liệu.
B. Giảm độ phức tạp tính toán và cải thiện hiệu suất của các thuật toán.
C. Tìm kiếm các mối quan hệ ẩn giữa các biến số trong dữ liệu.
D. Chuẩn hóa dữ liệu để đảm bảo rằng tất cả các biến số có cùng một thang đo.

84. Trong lĩnh vực khai phá dữ liệu, kỹ thuật ‘phân cụm’ (clustering) được sử dụng để làm gì?

A. Dự đoán giá trị của một biến số dựa trên các biến số khác.
B. Phân loại các đối tượng vào các nhóm khác nhau dựa trên nhãn đã biết.
C. Nhóm các đối tượng tương tự lại với nhau thành các cụm dựa trên các đặc điểm chung.
D. Tìm kiếm các quy luật hoặc mối quan hệ giữa các biến số trong dữ liệu.

85. Trong khai phá dữ liệu, thuật ngữ nào mô tả một biến số có thể nhận một trong một số hữu hạn các giá trị rời rạc?

A. Biến liên tục
B. Biến phân loại
C. Biến số
D. Biến độc lập

86. Trong khai phá dữ liệu, kỹ thuật nào được sử dụng để khám phá các mối quan hệ tiềm ẩn giữa các mục dữ liệu khác nhau trong một tập dữ liệu?

A. Phân tích hồi quy
B. Phân tích tương quan
C. Phân tích phương sai
D. Phân tích thành phần chính

87. Phương pháp nào được sử dụng để tìm ra các quy tắc mô tả mối quan hệ giữa các mục trong một tập dữ liệu?

A. Phân tích hồi quy (Regression Analysis)
B. Phân tích tương quan (Correlation Analysis)
C. Khai thác luật kết hợp (Association Rule Mining)
D. Phân tích chuỗi thời gian (Time Series Analysis)

88. Trong khai phá dữ liệu, bước nào liên quan đến việc chuyển đổi dữ liệu thô thành định dạng phù hợp hơn cho phân tích?

A. Trực quan hóa dữ liệu (Data Visualization)
B. Tiền xử lý dữ liệu (Data Preprocessing)
C. Mô hình hóa dữ liệu (Data Modeling)
D. Đánh giá mô hình (Model Evaluation)

89. Mục tiêu chính của việc sử dụng kỹ thuật ‘Khai thác luật kết hợp’ (Association Rule Mining) trong phân tích dữ liệu là gì?

A. Dự đoán giá trị tương lai của một biến số dựa trên dữ liệu lịch sử.
B. Phân loại dữ liệu vào các nhóm định trước dựa trên các thuộc tính của chúng.
C. Tìm kiếm các mối quan hệ hoặc sự phụ thuộc lẫn nhau giữa các biến số trong một tập dữ liệu lớn.
D. Giảm số lượng chiều dữ liệu để đơn giản hóa việc phân tích và trực quan hóa.

90. Trong ngữ cảnh của khai phá dữ liệu, độ đo nào thường được sử dụng để đánh giá hiệu suất của một mô hình phân loại, đặc biệt khi dữ liệu không cân bằng?

A. Độ chính xác (Accuracy)
B. Độ thu hồi (Recall)
C. Độ đo F1 (F1-score)
D. Độ đo AUC (Area Under the Curve)

91. Trong khai phá dữ liệu, ‘support’, ‘confidence’, và ‘lift’ là các độ đo được sử dụng trong kỹ thuật nào?

A. Phân cụm (Clustering)
B. Phân loại (Classification)
C. Khám phá luật kết hợp (Association Rule Mining)
D. Giảm chiều dữ liệu (Dimensionality Reduction)

92. Thuật ngữ ‘outlier’ (giá trị ngoại lệ) trong khai phá dữ liệu đề cập đến điều gì?

A. Các giá trị bị thiếu trong tập dữ liệu
B. Các giá trị không hợp lệ trong tập dữ liệu
C. Các giá trị khác biệt đáng kể so với phần lớn các giá trị khác trong tập dữ liệu
D. Các giá trị trùng lặp trong tập dữ liệu

93. Trong khai phá dữ liệu, mục đích của việc sử dụng ‘cross-validation’ (kiểm định chéo) là gì?

A. Giảm số lượng chiều dữ liệu
B. Đánh giá hiệu suất của mô hình trên dữ liệu chưa thấy và đảm bảo tính tổng quát của mô hình
C. Tìm các luật kết hợp giữa các biến
D. Phân cụm dữ liệu thành các nhóm khác nhau

94. Trong khai phá dữ liệu, mục đích của việc chuẩn hóa dữ liệu (data normalization) là gì?

A. Giảm kích thước của tập dữ liệu
B. Đưa các biến về cùng một thang đo để tránh sự ảnh hưởng không cân xứng của các biến có giá trị lớn
C. Loại bỏ các giá trị ngoại lệ (outliers)
D. Chuyển đổi dữ liệu định tính thành dữ liệu định lượng

95. Trong khai phá dữ liệu, thuật ngữ ‘feature engineering’ (kỹ thuật đặc trưng) đề cập đến điều gì?

A. Chọn các thuật toán khai phá dữ liệu phù hợp nhất
B. Tạo ra các đặc trưng mới từ các đặc trưng hiện có để cải thiện hiệu suất của mô hình
C. Giảm số lượng biến trong tập dữ liệu
D. Làm sạch dữ liệu và xử lý các giá trị bị thiếu

96. Phương pháp nào sau đây thường được sử dụng để đánh giá hiệu suất của một mô hình phân loại (classification model)?

A. Root Mean Squared Error (RMSE)
B. Mean Absolute Error (MAE)
C. Confusion Matrix (Ma trận nhầm lẫn)
D. R-squared

97. Mục tiêu chính của việc tiền xử lý dữ liệu (data preprocessing) trong khai phá dữ liệu là gì?

A. Tăng kích thước của tập dữ liệu
B. Cải thiện chất lượng dữ liệu và làm cho nó phù hợp hơn cho các thuật toán khai phá dữ liệu
C. Giảm số lượng biến trong tập dữ liệu
D. Chọn các thuật toán khai phá dữ liệu phù hợp nhất

98. Kỹ thuật nào sau đây được sử dụng để chuyển đổi dữ liệu định tính (categorical data) thành dữ liệu định lượng (numerical data) trong khai phá dữ liệu?

A. Normalization
B. Standardization
C. One-hot encoding
D. Feature scaling

99. Trong khai phá dữ liệu, thuật ngữ ‘overfitting’ (quá khớp) đề cập đến điều gì?

A. Mô hình hoạt động kém trên dữ liệu huấn luyện
B. Mô hình quá phức tạp và khớp quá chặt với dữ liệu huấn luyện, dẫn đến hiệu suất kém trên dữ liệu mới
C. Mô hình quá đơn giản và không thể nắm bắt được các mẫu trong dữ liệu
D. Mô hình không hội tụ trong quá trình huấn luyện

100. Phương pháp nào sau đây được sử dụng để ước tính mật độ xác suất của dữ liệu?

A. Hồi quy tuyến tính
B. Ước tính mật độ hạt nhân (Kernel Density Estimation)
C. Phân tích cụm
D. Phân tích phương sai (ANOVA)

101. Trong khai phá dữ liệu, thuật ngữ ‘data warehouse’ (kho dữ liệu) đề cập đến điều gì?

A. Một cơ sở dữ liệu được tối ưu hóa cho các giao dịch trực tuyến
B. Một hệ thống lưu trữ dữ liệu tích hợp từ nhiều nguồn khác nhau, được thiết kế để hỗ trợ phân tích và báo cáo
C. Một công cụ để trực quan hóa dữ liệu
D. Một thuật toán để làm sạch dữ liệu

102. Trong khai phá dữ liệu, ‘feature selection’ (lựa chọn đặc trưng) có nghĩa là gì?

A. Chọn ngẫu nhiên các mẫu từ tập dữ liệu
B. Chọn một tập hợp con các đặc trưng có liên quan nhất từ tập dữ liệu để xây dựng mô hình
C. Tạo ra các đặc trưng mới từ các đặc trưng hiện có
D. Loại bỏ các mẫu bị thiếu dữ liệu

103. Phương pháp nào sau đây là một kỹ thuật phân cụm (clustering) phổ biến trong khai phá dữ liệu?

A. Hồi quy tuyến tính
B. Cây quyết định
C. K-means
D. Mạng nơ-ron

104. Trong khai phá dữ liệu, thuật ngữ ‘ensemble learning’ (học ансамбль) đề cập đến điều gì?

A. Một phương pháp để làm sạch dữ liệu
B. Một kỹ thuật để giảm số lượng chiều dữ liệu
C. Một phương pháp kết hợp nhiều mô hình học máy để cải thiện hiệu suất tổng thể
D. Một thuật toán để phân cụm dữ liệu

105. Trong ngữ cảnh của Support Vector Machine (SVM), ‘kernel’ (hàm nhân) có vai trò gì?

A. Giảm số lượng chiều dữ liệu
B. Chuyển đổi dữ liệu sang một không gian chiều cao hơn để tìm một siêu phẳng phân tách tốt hơn
C. Tìm các luật kết hợp giữa các biến
D. Phân cụm dữ liệu thành các nhóm khác nhau

106. Trong ngữ cảnh của cây quyết định (decision tree), ‘entropy’ được sử dụng để đo lường điều gì?

A. Độ chính xác của cây
B. Độ phức tạp của cây
C. Độ không chắc chắn hoặc ngẫu nhiên của một tập hợp dữ liệu
D. Số lượng lá trong cây

107. Phương pháp nào sau đây thường được sử dụng để phát hiện gian lận (fraud detection) trong lĩnh vực tài chính?

A. Phân tích hồi quy
B. Phân tích cụm
C. Phân tích chuỗi thời gian
D. Phát hiện dị thường (Anomaly detection)

108. Trong khai phá dữ liệu, kỹ thuật ‘bagging’ và ‘boosting’ được sử dụng để làm gì?

A. Giảm số lượng chiều dữ liệu
B. Tăng cường độ chính xác của mô hình bằng cách kết hợp nhiều mô hình yếu
C. Phân cụm dữ liệu thành các nhóm khác nhau
D. Tìm các luật kết hợp giữa các biến

109. Phương pháp nào sau đây được sử dụng để đánh giá mức độ tương đồng giữa hai chuỗi văn bản?

A. Hồi quy tuyến tính
B. Khoảng cách Euclide
C. Khoảng cách Cosine
D. Phân tích phương sai (ANOVA)

110. Đâu là một thách thức khi làm việc với dữ liệu không cân bằng (imbalanced data) trong khai phá dữ liệu?

A. Khó khăn trong việc thu thập dữ liệu
B. Mô hình có xu hướng ưu tiên lớp chiếm đa số và bỏ qua lớp thiểu số
C. Dữ liệu không đủ lớn để huấn luyện mô hình
D. Chi phí tính toán quá cao

111. Trong khai phá dữ liệu, kỹ thuật ‘regularization’ (chính quy hóa) được sử dụng để làm gì?

A. Tăng kích thước của tập dữ liệu
B. Giảm độ phức tạp của mô hình và ngăn ngừa overfitting
C. Tìm các luật kết hợp giữa các biến
D. Phân cụm dữ liệu thành các nhóm khác nhau

112. Trong khai phá dữ liệu, kỹ thuật ‘association rule learning’ (khám phá luật kết hợp) thường được sử dụng để làm gì?

A. Dự đoán giá trị tương lai của một biến
B. Tìm các mối quan hệ hoặc sự phụ thuộc lẫn nhau giữa các biến trong một tập dữ liệu
C. Phân loại các đối tượng vào các nhóm khác nhau
D. Giảm số lượng chiều dữ liệu

113. Đâu là một thách thức lớn khi làm việc với dữ liệu lớn (big data) trong khai phá dữ liệu?

A. Dung lượng lưu trữ hạn chế
B. Khả năng tính toán và xử lý dữ liệu
C. Sự thiếu hụt các thuật toán khai phá dữ liệu
D. Chi phí phần mềm khai phá dữ liệu thấp

114. Kỹ thuật nào sau đây được sử dụng để xử lý dữ liệu bị thiếu (missing data) trong khai phá dữ liệu?

A. Feature scaling
B. Principal Component Analysis (PCA)
C. Imputation (Điền giá trị)
D. Data normalization

115. Kỹ thuật nào sau đây được sử dụng để tìm kiếm các mẫu tuần tự (sequential patterns) trong dữ liệu chuỗi thời gian?

A. Apriori algorithm
B. K-means clustering
C. Principal Component Analysis (PCA)
D. Sequence mining

116. Phương pháp nào sau đây thường được sử dụng để trực quan hóa dữ liệu (data visualization) trong khai phá dữ liệu?

A. Hồi quy tuyến tính
B. Cây quyết định
C. Biểu đồ phân tán (Scatter plot)
D. Máy vector hỗ trợ (Support Vector Machine)

117. Trong khai phá dữ liệu, ‘precision’ và ‘recall’ là các độ đo được sử dụng để đánh giá hiệu suất của mô hình nào?

A. Mô hình hồi quy
B. Mô hình phân loại
C. Mô hình phân cụm
D. Mô hình giảm chiều

118. Đâu là một ví dụ về ứng dụng của khai phá dữ liệu trong lĩnh vực y tế?

A. Dự đoán thời tiết
B. Phân tích thị trường chứng khoán
C. Phát hiện gian lận thẻ tín dụng
D. Dự đoán nguy cơ mắc bệnh dựa trên dữ liệu bệnh sử và các yếu tố nguy cơ

119. Phương pháp nào sau đây thường được sử dụng để giảm số lượng chiều dữ liệu trong khai phá dữ liệu?

A. Lượng tử hóa vector
B. Phân tích thành phần chính (PCA)
C. Phân tích hồi quy
D. Phân tích phương sai (ANOVA)

120. Trong khai phá dữ liệu, thuật ngữ ‘curse of dimensionality’ (lời nguyền chiều dữ liệu) đề cập đến điều gì?

A. Sự khó khăn trong việc thu thập dữ liệu
B. Sự gia tăng đáng kể về độ phức tạp tính toán và yêu cầu dữ liệu khi số lượng chiều (đặc trưng) tăng lên
C. Sự thiếu hụt các thuật toán khai phá dữ liệu phù hợp
D. Sự khó khăn trong việc trực quan hóa dữ liệu

121. Trong khai phá luật kết hợp, độ đo ‘support’ thể hiện điều gì?

A. Độ chính xác của luật
B. Tần suất xuất hiện của một tập hợp các mục trong cơ sở dữ liệu
C. Độ tin cậy của luật
D. Mức độ quan trọng của luật

122. Trong khai phá dữ liệu, mục tiêu của ‘association rule mining’ là gì?

A. Dự đoán giá trị của một biến mục tiêu
B. Tìm các mối quan hệ giữa các biến trong dữ liệu
C. Phân nhóm các đối tượng tương tự vào các cụm
D. Giảm số lượng chiều dữ liệu

123. Kỹ thuật nào sau đây được sử dụng để đánh giá hiệu suất của mô hình trên dữ liệu chưa được nhìn thấy trước đó?

A. Feature engineering
B. Cross-validation
C. Data cleaning
D. Data visualization

124. Trong khai phá dữ liệu, ‘bias-variance tradeoff’ đề cập đến sự cân bằng giữa điều gì?

A. Độ chính xác và độ tin cậy của mô hình
B. Sai số do giả định đơn giản hóa của mô hình (bias) và sai số do sự biến động của dữ liệu huấn luyện (variance)
C. Tốc độ huấn luyện và độ chính xác của mô hình
D. Số lượng features và số lượng mẫu trong tập dữ liệu

125. Trong ngữ cảnh của khai phá dữ liệu, ‘overfitting’ có nghĩa là gì?

A. Mô hình hoạt động kém trên dữ liệu huấn luyện
B. Mô hình hoạt động tốt trên dữ liệu kiểm tra nhưng kém trên dữ liệu huấn luyện
C. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra
D. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra

126. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán giảm chiều dữ liệu?

A. Principal Component Analysis (PCA)
B. Linear Discriminant Analysis (LDA)
C. K-means
D. t-distributed Stochastic Neighbor Embedding (t-SNE)

127. Thuật toán nào sau đây thường được sử dụng để phân loại văn bản?

A. K-means
B. DBSCAN
C. Naive Bayes
D. Apriori

128. Trong khai phá dữ liệu, ‘curse of dimensionality’ đề cập đến vấn đề gì?

A. Sự gia tăng độ phức tạp tính toán và giảm hiệu suất mô hình khi số lượng chiều dữ liệu tăng lên
B. Sự khó khăn trong việc thu thập dữ liệu
C. Sự thiếu hụt dữ liệu
D. Sự xuất hiện của các giá trị ngoại lệ trong dữ liệu

129. Trong khai phá dữ liệu, kỹ thuật ‘feature scaling’ được sử dụng để làm gì?

A. Giảm số lượng features trong tập dữ liệu
B. Chuẩn hóa phạm vi giá trị của các features
C. Tạo ra các features mới từ các features hiện có
D. Loại bỏ các features không liên quan

130. Trong khai phá luật kết hợp, độ đo ‘confidence’ thể hiện điều gì?

A. Xác suất một mục xuất hiện trong một giao dịch
B. Xác suất một luật là đúng
C. Xác suất một mục xuất hiện trong một giao dịch khi một mục khác đã xuất hiện
D. Tần suất một mục xuất hiện trong một giao dịch

131. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán phân cụm?

A. K-means
B. DBSCAN
C. Apriori
D. Hierarchical clustering

132. Thuật toán nào sau đây thường được sử dụng để dự đoán giá trị liên tục?

A. K-means
B. Logistic Regression
C. Linear Regression
D. Support Vector Machine (SVM) với kernel tuyến tính

133. Phương pháp nào sau đây KHÔNG phải là một phương pháp tiền xử lý dữ liệu?

A. Chuẩn hóa dữ liệu (Data normalization)
B. Rút gọn dữ liệu (Data reduction)
C. Phân tích dữ liệu (Data analysis)
D. Làm sạch dữ liệu (Data cleaning)

134. Kỹ thuật nào sau đây được sử dụng để giảm kích thước của tập dữ liệu bằng cách loại bỏ các bản ghi trùng lặp hoặc không quan trọng?

A. Feature engineering
B. Data reduction
C. Data cleaning
D. Data transformation

135. Kỹ thuật nào sau đây thường được sử dụng để tìm các giá trị ngoại lệ (outliers) trong dữ liệu?

A. Principal Component Analysis (PCA)
B. Linear Regression
C. Clustering
D. Decision Tree

136. Độ đo nào sau đây thường được sử dụng để đánh giá hiệu quả của thuật toán phân loại?

A. Mean Squared Error (MSE)
B. Root Mean Squared Error (RMSE)
C. Accuracy
D. R-squared

137. Độ đo nào sau đây thường được sử dụng để đánh giá hiệu quả của thuật toán phân loại nhị phân?

A. Mean Squared Error (MSE)
B. R-squared
C. F1-score
D. Root Mean Squared Error (RMSE)

138. Trong khai phá luật kết hợp, độ đo ‘lift’ thể hiện điều gì?

A. Độ chính xác của luật
B. Mức độ tin cậy của luật
C. Mức độ cải thiện về dự đoán khi sử dụng luật so với việc không sử dụng luật
D. Tần suất xuất hiện của các mục trong luật

139. Thuật toán nào sau đây thuộc nhóm thuật toán học có giám sát (supervised learning)?

A. K-means
B. DBSCAN
C. Decision Tree
D. Apriori

140. Trong khai phá dữ liệu, phương pháp nào sau đây được sử dụng để xử lý dữ liệu bị thiếu?

A. Feature engineering
B. Data imputation
C. Model selection
D. Cross-validation

141. Thuật toán nào sau đây KHÔNG phù hợp để xử lý dữ liệu phi cấu trúc (unstructured data) như văn bản?

A. Support Vector Machine (SVM)
B. Naive Bayes
C. K-means
D. Linear Regression

142. Trong khai phá dữ liệu, kỹ thuật ‘feature engineering’ được sử dụng để làm gì?

A. Giảm số lượng features trong tập dữ liệu
B. Chuẩn hóa phạm vi giá trị của các features
C. Tạo ra các features mới từ các features hiện có
D. Loại bỏ các features không liên quan

143. Độ đo nào sau đây thường được sử dụng để đánh giá hiệu quả của thuật toán hồi quy?

A. Accuracy
B. Precision
C. Recall
D. Mean Squared Error (MSE)

144. Trong khai phá dữ liệu, mục tiêu của Feature Selection là gì?

A. Tăng số lượng features trong tập dữ liệu
B. Chọn một tập con các features quan trọng nhất từ tập dữ liệu ban đầu
C. Giảm kích thước của tập dữ liệu bằng cách loại bỏ các bản ghi trùng lặp
D. Chuyển đổi các features sang một không gian mới

145. Trong khai phá dữ liệu, ‘ensemble learning’ là gì?

A. Một phương pháp tiền xử lý dữ liệu
B. Một kỹ thuật kết hợp nhiều mô hình học máy để cải thiện hiệu suất
C. Một thuật toán phân cụm
D. Một thuật toán phân loại

146. Trong khai phá dữ liệu, kỹ thuật ‘data discretization’ dùng để làm gì?

A. Chuyển đổi dữ liệu liên tục thành dữ liệu rời rạc
B. Chuyển đổi dữ liệu rời rạc thành dữ liệu liên tục
C. Chuẩn hóa dữ liệu
D. Làm sạch dữ liệu

147. Độ đo nào sau đây được sử dụng để đánh giá hiệu quả của thuật toán phân cụm?

A. Precision
B. Recall
C. Silhouette coefficient
D. F1-score

148. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để giảm số lượng chiều dữ liệu, giúp giảm độ phức tạp tính toán và tránh overfitting?

A. Phân tích phương sai (ANOVA)
B. Phân tích thành phần chính (PCA)
C. Hồi quy tuyến tính
D. Phân tích tương quan

149. Thuật toán nào sau đây thường được sử dụng để dự đoán chuỗi thời gian (time series forecasting)?

A. K-means
B. DBSCAN
C. ARIMA
D. Apriori

150. Trong khai phá dữ liệu, mục tiêu của ‘clustering’ là gì?

A. Dự đoán giá trị của một biến mục tiêu
B. Tìm các mối quan hệ giữa các biến trong dữ liệu
C. Phân nhóm các đối tượng tương tự vào các cụm
D. Giảm số lượng chiều dữ liệu

Số câu đã làm: 0/0
Thời gian còn lại: 00:00:00
  • Đã làm
  • Chưa làm
  • Cần kiểm tra lại
© 2026 Trending New 24h • Tạo ra với GeneratePress

Bạn ơi!!! Để xem được kết quả, bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

HƯỚNG DẪN TÌM MẬT KHẨU

Đang tải nhiệm vụ...

Bước 1: Mở tab mới và truy cập Google.com. Sau đó tìm kiếm chính xác từ khóa sau:

Bước 2: Tìm và click vào kết quả có trang web giống như hình ảnh dưới đây:

Hướng dẫn tìm kiếm

Bước 3: Kéo xuống cuối trang đó để tìm mật khẩu như hình ảnh hướng dẫn:

Hướng dẫn lấy mật khẩu

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác nhé.