Nếu bạn tham gia vào công nghệ và đang tìm kiếm một công việc liên quan đến khoa học dữ liệu, có thể bạn đã nghe về học máy (machine learning). Không phải ai cũng hiểu rõ về thuật ngữ này. Tuy nhiên, nếu bạn muốn trở thành kỹ sư AI hoặc nhà phát triển kinh doanh trí tuệ thông minh, có lẽ bạn đã biết machine learning là gì và mọi thứ xung quanh nó. Để có thể có được việc làm trong lĩnh vực này, ngoài việc học machine learning, bạn cần chuẩn bị tốt các câu hỏi phỏng vấn về học máy nữa.
Trong hướng dẫn này, chúng ta sẽ xem xét một số câu hỏi phỏng vấn phổ biến nhất về học máy. Từ khái niệm machine learning là gì, đến các câu hỏi liên quan đến machine learning cơ bản và sau đó là nâng cao. Hãy bắt đầu ngay!
Mục lục
- 1. Các khía cạnh chính của học máy
- 1.1. Câu hỏi 1: Giải thích về ‘machine learning’.
- 1.2. Câu hỏi 2: ‘deep learning’ là gì?
- 1.3. Câu hỏi 3: Sự khác nhau giữa lỗi ‘type 1’ và ‘type 2’?
- 1.4. Câu hỏi 4: ‘data augmentation’ là gì?
- 1.5. Câu hỏi 5: Tại sao ‘naive Bayes’ được gọi như vậy?
- 1.6. Câu hỏi 6: Cái nào tốt hơn – deep networks hay shallow networks?
- 1.7. Câu hỏi 7: ‘Fourier transform’ là gì?
- 1.8. Câu hỏi 8: ‘convolutional network’ là gì?
- 1.9. Câu hỏi 9: Chúng ta biết gì về mối tương quan giữa ‘True Positive Rate’ và ‘Recall’?
- 1.10. Câu hỏi 10: ‘backpropagation’ là gì?
- 1.11. Câu hỏi 11: Điều gì sẽ xảy ra nếu chúng ta chỉ sử dụng một ‘validation set’, mà không áp dụng ‘test set’?
- 1.12. Câu hỏi 12: Sự khác nhau giữa học máy suy diễn và quy nạp là gì?
- 1.13. Câu hỏi 13: Làm thế nào variance và bias xảy ra trong học máy?
- 1.14. Câu hỏi 14: Học có giám sát là gì và nó khác với không giám sát như thế nào?
- 1.15. Câu hỏi 15: Làm thế nào để bạn chọn một thuật toán cho một vấn đề phân loại?
- 2. Câu hỏi phỏng vấn học máy nâng cao
- 2.1. Câu hỏi 1: Sự khác nhau giữa mô hình ‘generative’ và ‘discriminative’ là gì?
- 2.2. Câu hỏi 2: Giải thích sự khác nhau giữa ‘cross-validation’ và ‘stratified cross-validation’.
- 2.3. Câu hỏi 3: Trong trường hợp nào bạn nên sử dụng hồi quy ‘Lasso’ và ‘Ridge’?
- 2.4. Câu hỏi 4: ‘F1’ là gì?
- 2.5. Câu hỏi 5: Trong hầu hết các trường hợp, cái nào trong hai cái sau có điểm cao hơn – mô hình quần thể hay mô hình cá nhân?
- 2.6. Câu hỏi 6: Sự khác nhau giữa ‘correlation’ và ‘covariance’?
- 2.7. Câu hỏi 7: Mô tả ‘imbalanced dataset’.
- 2.8. Câu hỏi 8: ‘data normalization’ là gì?
- 2.9. Câu hỏi 9: Bạn có thể nắm bắt mối tương quan giữa biến phân loại và biến liên tục không?
- 2.10. Câu hỏi 10: Chức năng kích hoạt được sử dụng để làm gì?
- 3. Kết luận
Các khía cạnh chính của học máy
Cách tốt nhất để biết về machine learning là bắt đầu từ các câu hỏi liên quan đến machine learning cơ bản. Bằng việc bắt đầu từ những câu hỏi cơ bản, nhà tuyển dụng muốn xem liệu bạn có tư duy phê phán và hình thành suy nghĩ gắn kết của riêng mình hay không. Đó là lý do tại sao rất nhiều câu hỏi này sẽ được dựa trên các định nghĩa, so sánh, giải thích như vậy.
Ưu đãi mới nhất đang hoạt động ngay bây giờ:
SAVE 50%
DataCamp End of Year Sale
Unlock a year of unlimited data and AI learning at half the price! This is your final call to save big on expertise for 2025. Act fast and secure your 50% discount with DataCamp's End of Year Sale – the clock is ticking!
Câu hỏi 1: Giải thích về ‘machine learning’.
Machine learning là gì hay hãy mô tả về machine learning có lẽ là câu hỏi đầu tiên liên quan. bởi:
Trước tiên, người phỏng vấn không thể hỏi bạn các câu hỏi khác về học máy mà chưa biết liệu bạn có hiểu machine learning là gì hay không. Hơn nữa, cách bạn trả lời sẽ cho thấy cách bạn nghĩ về một định nghĩa tốt đến mức nào - hay nói cách khác, bạn có thể giải thích một chủ đề khó một cách dễ hiểu hay không. Nếu bạn chỉ nói ra hơn hai lăm dòng mà bạn dành cả đêm để ghi nhớ từ một bài viết khoa học ngẫu nhiên nào đó, bạn sẽ ghi điểm ít hơn so với việc bạn giải thích thuật ngữ theo cách riêng của mình.
Vậy machine learning là gì?
Có lẽ cách dễ dàng và dễ hiểu nhất để mô tả học máy là gọi nó là một triết lý cụ thể về phát triển trí tuệ nhân tạo AI. Đây là một lĩnh vực khoa học liên quan đến cách chế tạo máy móc mà chúng sẽ học hỏi từ những thông tin được cung cấp cho chúng, mà không được lập trình để làm điều đó trước đó.
Câu hỏi 2: ‘deep learning’ là gì?
Vì deep learning liên kết chặt chẽ với machine learning, bạn thậm chí có thể được hỏi về các câu hỏi phỏng vấn chéo hay sâu hơn về hai lĩnh vực này. Cho nên nếu bạn đã học machine learning thì đây không phải là câu hỏi quá khó.
Deep learning là một nhánh của machine learning. Nhánh khoa học này liên quan đến việc làm cho mạng nơ ron của cỗ máy càng giống với bộ não của con người càng tốt.
Câu hỏi 3: Sự khác nhau giữa lỗi ‘type 1’ và ‘type 2’?
Lỗi loại 1 (type 1) cho rằng một cái gì đó đã xảy ra khi, trong thực tế, nó không thể xảy ra. Lỗi loại 2 (type) ngược lại - tuyên bố rằng không có gì xảy ra khi nó xảy ra.
Ví dụ: đây là một phương pháp tốt để giúp bạn nhớ sự khác biệt giữa hai loại lỗi: chỉ cần tưởng tượng rằng lỗi loại 1 là khi bạn nói với con chó của mình rằng nó là một con mèo, trong khi lỗi loại 2 là khi bạn nói với con chó nó là chó không thể sủa.
Câu hỏi 4: ‘data augmentation’ là gì?
Một trong những câu hỏi phỏng vấn học máy đơn giản hơn, data augmentation (tăng dữ liệu) là cách sửa đổi và tạo dữ liệu mới từ dữ liệu cũ. Cách thức này được thực hiện bằng cách rời khỏi mục tiêu hoặc đơn giản là thay đổi mục tiêu thành một cái gì đó đã được biết đến. Nếu bạn học machine learning, có lẽ bạn đã biết câu trả lời cho câu hỏi này.
Câu hỏi 5: Tại sao ‘naive Bayes’ được gọi như vậy?
Naive Bayes được gọi là naive theo cách nó nghĩ như vậy. Điều này giả định rằng mọi yếu tố trong một tập dữ liệu đều giống nhau khi nói về tầm quan trọng của chúng. Không cần phải nói, đó là trường hợp hiếm khi xảy ra trong một kịch bản hàng ngày.
Câu hỏi 6: Cái nào tốt hơn – deep networks hay shallow networks?
Đây có thể được coi là một trong những câu hỏi phỏng vấn so sánh khi bạn học machine learning để đánh giá bạn biết gì về hai mạng này và có thể so sánh chúng hay không.
Deep networks thường được coi là một sự thay thế tốt hơn. Điều này đơn giản là vì chúng bao gồm nhiều lớp hơn, phần lớn bị ẩn - điều này giúp các mạng deep networks trích xuất và xây dựng các tính năng tốt hơn.
Câu hỏi 7: ‘Fourier transform’ là gì?
Phương thức Fourier transform được sử dụng để chuyển đổi các hàm đơn giản, chung chung thành các siêu hàm. Nếu đây là một trong những câu hỏi phỏng vấn học máy mà bạn muốn mở rộng thêm một chút, bạn có thể so sánh nó với một tình huống mà bạn được cho một chiếc xe để tháo nó ra và xem tất cả các thành phần và bộ phận khác nhau mà nó được tạo ra từ đó.
Câu hỏi 8: ‘convolutional network’ là gì?
Các mạng thông thường, đơn giản sử dụng các lớp được kết nối để thực hiện các quy trình. Đổi lại, convolutional network (mạng chập) là các mạng, thay vì sử dụng các lớp được kết nối, sử dụng các mạng chập.
Lý do chính tại sao mọi người thích sử dụng các mạng chập hơn các mạng kết nối tiêu chuẩn, là các mạng chập có một lượng tham số nhỏ hơn nhiều được quy cho chúng.
Câu hỏi 9: Chúng ta biết gì về mối tương quan giữa ‘True Positive Rate’ và ‘Recall’?
Trong việc học machine learning, ban đầu câu hỏi này có vẻ mang tính nâng cao, nhưng câu trả lời khá đơn giản. Cả hai số liệu này đều giống nhau. Chúng ta có thể thấy điều này bằng cách nhìn vào công thức: TP/TP + FN.
Câu hỏi 10: ‘backpropagation’ là gì?
Trong học machine learning, backpropagation chỉ đơn giản là một phương pháp đào tạo các mạng lưới thần kinh nhiều lớp. Chúng ta huấn luyện mạng với phương pháp này bằng cách lấy ‘lỗi’ (error) từ điểm cuối của mạng và đặt nó vào bên trong mỗi trọng lượng trong mạng. Bằng cách này, máy có cơ hội áp dụng tính toán của nó một cách hiệu quả.
Câu hỏi 11: Điều gì sẽ xảy ra nếu chúng ta chỉ sử dụng một ‘validation set’, mà không áp dụng ‘test set’?
Trong học machine learning và các câu hỏi phỏng vấn, câu hỏi này khó hơn một chút.
Nếu bạn chỉ áp dụng một bộ xác thực (validation set), nó sẽ không cung cấp ước tính chính xác cho tất cả các phép đo cho mô hình bạn đang thử nghiệm. Điều này là do bộ kiểm tra (test set) được sử dụng để kiểm tra xem mô hình sẽ hoạt động như thế nào trên các ví dụ mà nó không gặp phải đến thời điểm đó. Do đó, nếu bạn loại bỏ test set, bạn sẽ tự động làm suy yếu các kết quả kiểm tra có thể hợp lệ, có thể nói như vậy.
Câu hỏi 12: Sự khác nhau giữa học máy suy diễn và quy nạp là gì?
Sự khác biệt chính là cách chúng bắt đầu. Học máy quy nạp bắt đầu với các ví dụ để từ đó đưa ra kết luận. Học máy suy diễn bắt đầu bằng kết luận, sau đó học bằng cách suy luận điều gì sai hoặc điều gì đúng về kết luận đó.
Câu hỏi 13: Làm thế nào variance và bias xảy ra trong học máy?
Cả hai đều là lỗi. Variance (Phương sai) là một lỗi là kết quả của sự phức tạp trong thuật toán học máy. Bias là một lỗi là do các giả định thiếu sót trong thuật toán học tập. Không được nhầm lẫn hai lỗi này vì bạn sẽ cần phải nhớ chúng trong các câu hỏi phỏng vấn học máy cũng như học machine learning.
Câu hỏi 14: Học có giám sát là gì và nó khác với không giám sát như thế nào?
Học máy có giám sát là một quá trình trong đó các đầu ra được đưa trở lại vào máy tính để phần mềm học hỏi và nhận được kết quả chính xác hơn vào lần tiếp theo. Học máy không giám sát có nghĩa là một máy tính sẽ học mà không cần đào tạo ban đầu, đó là một thay thế cho học máy có giám sát, trong đó ‘máy, nhận được đào tạo ban đầu để bắt đầu.
Câu hỏi 15: Làm thế nào để bạn chọn một thuật toán cho một vấn đề phân loại?
Trong trường hợp này, câu trả lời phụ thuộc vào mức độ chính xác cần thiết và quy mô của tập huấn luyện. Nếu tập huấn luyện nhỏ, nên chọn phân loại sai lệch thấp / sai lệch cao. Nếu tình huống ngược lại, tập huấn luyện lớn, thì bạn nên chọn phân loại sai lệch cao và sai lệch thấp.
Câu hỏi phỏng vấn học máy nâng cao
Nếu bạn học machine learning, bạn dễ dàng nhận ra chúng ta đã trải qua các câu hỏi machine learning cơ bản. Bây giờ hãy cùng tìm hiểu những câu hỏi phỏng vấn nâng cao.
Nhà tuyển dụng sẽ không yêu cầu bạn xây dựng một hệ thống AI đầy đủ hay viết một cuốn sách dài ba trăm trang về tất cả các cách khác nhau mà bạn có thể thực hiện deep learning. Trong bối cảnh này, ‘nâng cao’ đơn giản có nghĩa là các câu hỏi sẽ trở nên khó hơn một chút bạn có thể được yêu cầu cung cấp giải thích sâu hơn cho câu trả lời của bạn, đưa ra ví dụ, v.v…
Câu hỏi 1: Sự khác nhau giữa mô hình ‘generative’ và ‘discriminative’ là gì?
Với việc học machine learning, câu hỏi này nghe có vẻ là câu hỏi mẹo nhưng thực chất nhà tuyển dụng muốn biết cách các mô hình này xử lý dữ liệu.
Generative model (mô hình thế hệ), như tên gọi của nó, là nỗ lực tìm hiểu các loại dữ liệu khác nhau mà nó được cung cấp. Trái ngược với điều đó, discriminative model (mô hình phân biệt) sẽ chỉ nghiên cứu sự khác biệt giữa các loại dữ liệu khác nhau.
Các developer và kỹ sư thường thích sử dụng mô hình discriminative, vì nó có xu hướng xử lý các nhiệm vụ nhanh và hiệu quả hơn.
Câu hỏi 2: Giải thích sự khác nhau giữa ‘cross-validation’ và ‘stratified cross-validation’.
Cross-validation (Xác thực chéo) đơn giản được sử dụng để phân tách ngẫu nhiên dữ liệu giữa thời gian đào tạo và bộ xác thực. Stratified cross-validation (Xác thực chéo phân tầng) thực hiện điều tương tự, nhưng không có biến ngẫu nhiên - nó theo dõi và bảo toàn tỷ lệ đào tạo so với kiểm tra xác nhận. Đây là một trong những câu hỏi phỏng vấn học máy trong học machine learning mà bạn có thể bị nhầm lẫn nên hãy cẩn thận với câu hỏi này!
Câu hỏi 3: Trong trường hợp nào bạn nên sử dụng hồi quy ‘Lasso’ và ‘Ridge’?
Đây là một câu hỏi phỏng vấn machine learning nâng cao chủ yếu vì bạn cần một số kiến thức chuyên sâu liên quan đến cả hai loại hồi quy để cung cấp câu trả lời chính xác.
Hồi quy Lasso có thể thực hiện cả hai chức năng chọn biến và thu nhỏ tham số, trong khi hồi quy Ridge chỉ có thể được sử dụng để thu nhỏ hàm số mà thôi. Do vậy, bạn sẽ sử dụng hồi quy Lasso khi bạn chỉ có một vài biến và có ảnh hưởng lớn. Đổi lại, nên sử dụng hồi quy Ridge khi có nhiều biến nhỏ.
Đây là một ví dụ hay về những câu hỏi phỏng vấn học máy mà bạn có thể mở rộng dựa trên câu trả lời của mình, thay vì chỉ đưa ra một câu hỏi chung chung.
Câu hỏi 4: ‘F1’ là gì?
Không, đây không phải là một phím trên bàn phím để bạn đưa ra câu trả lời.
Điểm F1 score là một phép đo xem mô hình của bạn hoạt động tốt như thế nào. Bất cứ cái gì gần với ’1’ được coi là tốt, dưới mức ‘0,5’, nên được xử lý.
Câu hỏi 5: Trong hầu hết các trường hợp, cái nào trong hai cái sau có điểm cao hơn – mô hình quần thể hay mô hình cá nhân?
Quần thể (Ensembles) thường cung cấp số điểm lớn hơn. Bởi vì chúng đơn giản là sự kết hợp của nhiều mô hình khác nhau, được thực hiện để dự đoán một kết quả cụ thể. Càng nhiều mô hình, càng nhiều lỗi họ có thể lọc ra - điểm dự đoán cuối sẽ càng tốt.
Câu hỏi 6: Sự khác nhau giữa ‘correlation’ và ‘covariance’?
Đây sẽ là một trong những câu hỏi phỏng vấn học máy nâng cao chỉ khi bạn không biết hai cái này có tương quan như thế nào (không có việc chơi chữ ở đây).
Còn nếu bạn biết, câu trả lời khá đơn giản: covariance (hiệp phương sai) trở thành một correlation (hệ số tương quan) một khi nó được chuẩn hóa.
Câu hỏi 7: Mô tả ‘imbalanced dataset’.
Imbalanced dataset (Bộ dữ liệu không cân bằng) là một bộ mà sau khi thử nghiệm sẽ mang lại kết quả rằng hơn một nửa toàn bộ thông tin được đặt trong một lớp.
Làm thế nào để tránh điều này? Vâng, có một vài giải pháp đơn giản - hoặc thực hiện kiểm tra lại bằng thuật toán khác hoặc thử kiểm tra một lượng dữ liệu thậm chí còn lớn hơn để ra kết quả.
Câu hỏi 8: ‘data normalization’ là gì?
Bạn có nhớ khi chúng ta nói về ‘backpropagation’, trong các câu hỏi phỏng vấn học máy phía trên không? Vâng, data normalization (Chuẩn hóa dữ liệu) được sử dụng để giảm thiểu sự dư thừa dữ liệu trong quá trình backpropagation. Nó cho phép người dùng hủy bỏ các giá trị khác nhau khi anh ta thấy phù hợp, do đó loại bỏ các vấn đề dư thừa có thể xảy ra.
Câu hỏi 9: Bạn có thể nắm bắt mối tương quan giữa biến phân loại và biến liên tục không?
Bạn có thể nhưng sẽ phải sử dụng phương pháp Phân tích hiệp phương sai (ANCOVA - Analysis of Covariance). Sử dụng nó, bạn có thể nắm bắt được mối tương quan.
- Dễ sử dụng
- Cung cấp nội dung chất lượng
- Minh bạch giá cả
- Chứng chỉ miễn phí sau hoàn thành
- Tập trung vào các kỹ năng khoa học dữ liệu
- Thời gian học tập linh hoạt
- Thiết kế đơn giản (không có thông tin không cần thiết)
- Khóa học chất lượng cao (ngay cả khóa miễn phí)
- Đa dạng tính năng
- Chương trình nanodegree
- Phù hợp với doanh nghiệp
- Chứng chỉ hoàn thành trả phí
- Được tạo dựng tốt trong ngành
- Đa dạng các tính năng để lựa chọn
- Các khóa học trình độ đại học
- Các khóa học trình độ đại học
- Phù hợp với doanh nghiệp
- Trả phí cho chứng chỉ hoàn thành
Câu hỏi 10: Chức năng kích hoạt được sử dụng để làm gì?
Chức năng này cho phép bạn đa dạng hóa mạng lưới của mình bằng cách giới thiệu các phương pháp học phi tuyến tính. Nó sẽ giúp máy của bạn học cách xử lý các quy trình khó một cách dễ dàng hơn.
Bạn có biết?
Bạn đã bao giờ băn khoăn nền tảng học online nào tốt nhất cho sự nghiệp của bạn chưa?
Kết luận
Hướng dẫn học machine learning này đề cập các câu hỏi phỏng vấn từ cơ bản đến nâng cao về học máy. Từ machine learning là gì đến những khái niệm phức tạp hơn, tất cả đều cần thiết trong buổi phỏng vấn xin việc của bạn.
Cho dù bạn đang tìm kiếm vị trí chuyên gia CNTT hay chuyên gia AI, hãy cố gắng học machine learning một cách nghiêm túc và ghi nhớ những điều machine learning cơ bản. Bằng việc tham khảo hướng dẫn này, bạn sẽ tự tin trước mỗi kỳ phỏng vấn nào và nắm được cách thức câu hỏi chung cho lĩnh vực này.