Lộ trình học Data Science cho người mới bắt đầu

Lĩnh vực Data Science (khoa học dữ liệu) đang ngày càng mở rộng với sự xuất hiện của nhiều nhóm chuyên gia và các khung năng lực chuyên biệt. Vì thế, dù bạn là sinh viên mới tốt nghiệp hay có nhiều năm kinh nghiệm và muốn chuyển hướng nghề nghiệp, để xâm nhập lĩnh vực này, đều cần xác định một lộ trình phát triển rõ ràng. 

Trong bài viết này, PSO MBA sẽ cung cấp cái nhìn toàn cảnh ngành Khoa học dữ liệu, từ đó giúp bạn có thêm định hướng về kỹ năng nên học và phương pháp học tập phù hợp. 

Hiểu cơ bản về Data Science: Data Science là gì?

Bàn về khái niệm, Data Science là tập hợp các hoạt động nhằm giải quyết vấn đề thông qua việc sử dụng dữ liệu. Nói một cách đơn giản, nếu bạn thực hiện một truy vấn SQL trên cơ sở dữ liệu bán hàng để tìm ra doanh thu tháng trước, bạn có thể gọi mình là một chuyên gia phân tích dữ liệu!

Trên thực tế, các vấn đề cần sử dụng mô hình Data Science sẽ phức tạp hơn và yêu cầu người thực hiện đạt được khung kỹ năng chuyên biệt để có thể tương tác tốt với dữ liệu. 

Làm quen với vòng đời của một dự án Data Science

Dự án Data Science bắt buộc phải trải qua nhiều giai đoạn. Từng giai đoạn đòi hỏi người đảm trách có những kỹ năng chuyên biệt. Vì thế, bài viết sẽ tham chiếu dựa trên vòng đời của dự án để nhận diện rõ vai trò và kỹ năng đa dạng trong khoa học dữ liệu. 

Khởi động 

Mô hình Data Science sử dụng dữ liệu đầu vào để dự đoán kết quả. Ban đầu, đây có thể chỉ là một mô hình thử nghiệm, được huấn luyện, kiểm tra và xác thực qua phương pháp K-Fold Cross-Validation (kỹ thuật đánh giá mô hình trên tập dữ liệu không đủ lớn). Khi mô hình hoạt động tốt, nó sẽ được đưa vào sản xuất và tích hợp vào quy trình của hệ thống. Sau đó, hiệu suất của mô hình sẽ được giám sát liên tục và sẽ được huấn luyện lại khi cần. 

Chuyên gia phân tích dữ liệu thường sẽ là người đảm trách chính trong giai đoạn khởi động để đảm bảo các bước biến đổi dữ liệu, làm sạch dữ liệu, thống kê mô tả và thống kê suy diễn cơ bản sẽ được thực hiện đúng kỹ thuật và liên kết với kiến thức kinh doanh. 

Triển khai và đưa vào vận hành

Giai đoạn phát triển mô hình cần xây dựng các mô hình dự đoán. Những mô hình đơn giản như hồi quy, có thể được tạo ra bởi một chuyên gia phân tích dữ liệu. Tuy nhiên, đối với những mô hình phức tạp hơn cần có sự can thiệp của nhà khoa học dữ liệu để sử dụng các thuật toán có sẵn, hoặc một kỹ sư machine learning để phát triển những thuật toán mới.

Ở giai đoạn này, nhiệm vụ chính của kỹ sư Machine Learning là xây dựng quy trình giám sát mô hình dự đoán, nhằm đảm bảo rằng mô hình cung cấp kết quả chính xác. 

Yếu tố quan trọng trong suốt quá trình là “đúng vị trí” (right location), có nghĩa là tất cả dữ liệu phải được sắp xếp tại những vị trí chính xác, đi kèm với thông tin siêu dữ liệu phù hợp. Dữ liệu thu thập mới hay thông tin chuyển đổi từ dữ liệu có sẵn cũng phải đảm bảo yếu tố này. 

Tích hợp vai trò 

Giai đoạn đầu thường cần nhiều kiến thức kinh doanh hơn và ít kỹ thuật hơn. Ngược lại, ở các giai đoạn sau, yêu cầu về kiến thức kinh doanh sẽ giảm, trong khi kỹ thuật và khả năng tối ưu hóa thuật toán trở nên quan trọng hơn. 

Ví dụ, một nhà khoa học dữ liệu có thể chấp nhận hiệu suất tính toán chưa tối ưu để ưu tiên giá trị và hiệu suất của mô hình. Tuy nhiên, khi bắt đầu đưa các mô hình vào sản xuất, người phụ trách cần có khả năng tối ưu hóa quy trình bằng với các phép tính phức tạp để đảm bảo quy trình hoạt động hiệu quả về mặt chi phí.

Lộ trình học Data Science

Không phải lúc nào việc phân loại kỹ năng theo vai trò cũng phù hợp. Trên thực tế, các chuyên gia Data Science cần xem xét về mục tiêu dự án và hiệu suất tính toán trong các quyết định của mình. Một kỹ sư Machine Learning cũng có thể nhận biết một số phương pháp tạo tính năng có thể cải thiện hiệu suất mô hình.

Nói cách khác, tất cả các vị trí làm việc trong một dự án Data Science đều cần hiểu rõ vai trò của các vị trí còn lại. Điều này giúp đội ngũ được làm việc trong quy trình liền mạch, hỗ trợ lẫn nhau và đưa ra các đề xuất giải pháp dựa trên góc nhìn tổng thể của toàn đội ngũ.

Đi sâu vào phân tích và hiểu dữ liệu

Phân tích dữ liệu thăm dò (EDA – Exploratory Data Analysis)

Tất cả các dự án khoa học dữ liệu đều bắt đầu từ việc hiểu dữ liệu. Việc hiểu rõ dữ liệu đóng vai trò rất quan trọng để đánh giá tính khả thi của dự án. Khám phá dữ liệu bắt đầu với những câu hỏi cơ bản như “Có những biến nào? Mỗi biến có bao nhiêu quan sát? Và hướng đến giải quyết những vấn đề phức tạp hơn như “mối quan hệ giữa các biến là gì?

Tùy thuộc vào kỹ năng trực quan hóa dữ liệu, thông qua EDA, chuyên gia phân tích dữ liệu có thể trả lời các câu hỏi trên chỉ với những kỹ thuật phân tích cơ bản. 

Ví dụ, chỉ cần trả lời được câu hỏi: “Có bao nhiêu phân khúc người dùng truy cập vào Website?” thì bạn đã phân tích hoạt động website dưới góc nhìn của một chuyên gia khoa học dữ liệu. 

Trực quan hóa dữ liệu

Kỹ năng trực quan hóa dữ liệu sẽ hỗ trợ chuyên gia phân tích dữ liệu trong việc kiểm tra giả thuyết mô hình thông qua các biểu đồ phân tán, biểu đồ tần suất. Đặc biệt, khi cần trình bày kết quả cho các bộ phận ra quyết định, việc trực quan hóa dữ liệu sẽ làm cho bài thuyết trình trở nên hấp dẫn và dễ hiểu hơn. Nói cách khác, kết quả làm việc của bộ phận phân tích dữ liệu sẽ là “nguyên liệu đầu vào” cho các đơn vị ra quyết định. Vì thế, dữ liệu được trực quan hóa sẽ hỗ trợ tốt hơn cho việc đưa ra các quyết định chiến lược chính xác. 

Một số công cụ trực quan hóa dữ liệu chuyên dụng hiện nay mà bạn có thể tham khảo là PowerBI, Tableau hoặc Excel.

Trực quan hóa dữ liệu

Xây dựng nền tảng: toán học và xác suất thống kê

Thống kê mô tả và thống kê suy luận

“Trạm dừng” đầu tiên trong lộ trình khoa học dữ liệu là thống kê. Thống kê cơ bản là kiến thức thiết yếu đối với bất kỳ nhà khoa học dữ liệu nào.

Trong thống kê mô tả, bạn cần tự giải đáp một số câu hỏi quan trọng như:

  • Giá trị trung bình là gì?
  • Giá trị tối thiểu và tối đa là bao nhiêu?
  • Độ lệch chuẩn là gì?
  • Có những thước đo nào để đo độ phân tán?
  • Giá trị nào xuất hiện nhiều nhất?
  • Tần suất xuất hiện của các giá trị có giống nhau không?
  • Tần suất xuất hiện có phân bố đồng đều không?

Dựa trên thống kê mô tả, bạn cần thực hiện thống kê suy luận để xem xét mối quan hệ giữa các biến trong tập dữ liệu. Một số khía cạnh cần làm rõ của thống kê suy diễn là các giá trị phân loại và mối quan hệ giữa chúng, bao gồm:

  • Tương quan: Mối quan hệ giữa các giá trị số, chẳng hạn như “tuổi và thu nhập có mối liên hệ như thế nào?”
  • Mối quan hệ giữa phân loại và số: Để điều tra câu hỏi “Thu nhập của nam và nữ so sánh như thế nào?” (với giới tính là giá trị phân loại đầu vào và thu nhập là giá trị số đầu ra).
  • Lật ngược vấn đề: “Người lớn tuổi có xu hướng ly hôn nhiều hơn không?” (với tuổi là giá trị số đầu vào và ly hôn là giá trị phân loại đầu ra).
  • Mối quan hệ giữa các biến phân loại: “Nam có thường xuyên ly hôn hơn nữ không?”

Một số phương pháp kiểm tra thống kê khác nhau sẽ giúp bạn trả lời được các câu hỏi trên: từ T-test đơn giản nhất đến các phương pháp phức tạp hơn như hồi quy tuyến tính đa biến hoặc phân tích chuỗi thời gian.

Thống kê cơ bản là kiến thức và kỹ năng phải có ở một chuyên gia phân tích dữ liệu, và cần thiết cho chuyên gia Data Science hay kỹ sư Machine Learning trong một số trường hợp cần chuyên môn về thống kê. Trong khi đó, kiến trúc sư dữ liệu có thể bỏ quan phần kiến thức này. 

Toán học: đại số và giải tích

Data Science dựa vào số liệu và các phép tính, vì vậy toán học đóng vai trò vô cùng quan trọng. Đại số tuyến tính sẽ xuất hiện nhiều trong  phương pháp giảm chiều dữ liệu như PCA (Principal Components Analysis) và phân tích ma trận. Ngoài ra, kiến thức giải tích sẽ là nền tảng của nhiều thuật toán tối ưu hóa như gradient descent. 

Toán học là kiến thức cốt lõi trong khoa học dữ liệu, vì vậy tất cả các vai trò trong vòng đời dự án đều cần nắm vững lĩnh vực này, đặc biệt là kỹ sư Machine Learning. Những vai trò khác như chuyên gia Science Data vẫn có thể hoàn thành tốt nhiệm vụ của mình ngay cả khi không thành thạo đại số và giải tích. 

Khám phá các lĩnh vực nâng cao: Machine Learning, Deep Learning và AI

Machine Learning

Machine Learning là nghệ thuật tạo ra phần mềm tự học từ dữ liệu. Một sản phẩm của Machine Learning dễ thấy đó là phần mềm dự đoán doanh thu bán hàng dựa trên hàng tồn kho và giá cả. 

Để trở thành một nhà khoa học dữ liệu, bạn cần nắm vững khả năng huấn luyện và đánh giá mô hình. Nếu biết cách chủ động tìm học cách điều chỉnh các thuật toán có sẵn hoặc tự viết các thuật toán mới, bạn sẽ có được nền tảng của kỹ sư học máy.

Deep Learning và Trí tuệ nhân tạo

Phát biểu “Machine Learning là một dạng của AI” vẫn còn đang tạo ra tranh cãi. Mặc dù đôi khi hai lĩnh vực được sử dụng thay thế cho nhau, nhưng về bản chất, Machine Learning là tiền đề của AI. Tuy nhiên, AI không thể chỉ tạo ra dựa trên Machine Learning. 

Nếu AI là bộ não nhân tạo thì Deep Learning không khác gì nhiều so với mạng nơ-ron thần kinh. Deep Learning giúp AI phản hồi thế giới xung quanh bằng các dạng thông tin cụ thể mà con người có thể dễ dàng hiểu được như văn bản, hình ảnh, và giọng nói. Đây là những dạng thông tin có thể chạm tới cảm xúc con người và nâng cao trải nghiệm khách hàng. Vì thế, sở hữu chuyên môn về Deep Learning sẽ là một lợi thế rất lớn trong ngành Data Science. 

Data Science nâng cao: DL, ML và AI

Ứng dụng thực tế 

Đối với Data Science, tất cả những gì bạn cần là một tập dữ liệu, một câu hỏi sáng tạo và thử thách, sau đó trả lời câu hỏi đó bằng cách sử dụng dữ liệu. Khoa học dữ liệu không chỉ hỗ trợ doanh nghiệp trong các quyết định chiến lược, mà còn hỗ trợ các cá nhân trong một số công việc như quản lý tài chính, nâng cao năng suất làm việc, mua sắm thông minh,… bằng cách thu thập và sử dụng dữ liệu của riêng mình. 

Một bước quan trọng trong quá trình thực hành là bạn cần lưu trữ cẩn thận tất cả dự án. Vì rất có thể, một thuật toán bạn đã từng viết có thể trở nên hữu ích trong tương lai, hoặc dự án khoa học dữ liệu của bạn có thể chính là giải pháp cho những vấn đề mà người khác cũng đang gặp phải. Việc tổ chức và lưu trữ không chỉ giúp bạn tiết kiệm thời gian mà còn tạo điều kiện cho việc chia sẻ kiến thức và kinh nghiệm. 

Định hướng nghề nghiệp 

Theo thống kế, Data Science là ngành có tốc độ tăng trưởng cao nhất trong các ngành. Thế nên, nếu có đủ tầm nhìn và theo sát lộ trình phát triển, bạn sẽ có được cơ hội nghề nghiệp đa dạng.

  • Nhà khoa học dữ liệu: cần thành thạo nhiều thuật toán để áp dụng thuật toán phù hợp cho từng yêu cầu khác nhau. 
  • Kỹ sư Machine Learning: hiểu rõ các khái niệm toán học của thuật toán để viết lại hoặc tạo ra thuật toán mới. 
  • Chuyên viên phân tích dữ liệu: nắm vững kỹ năng trực quan hóa dữ liệu để cung cấp kết quả phân tích dữ liệu chính xác và dễ hiểu. 

Ứng Dụng Data Science

Tiếp tục học tập và trao dồi

Với sự ra đời của ChatGPT, AI tạo sinh đã trở thành một phần không thể thiếu trong cuộc sống. Một chuyên gia dữ liệu sẽ rất khó làm việc nếu không nắm vững các khái niệm về token embedding hay Mô hình Attention. Bên cạnh đó, MLOps xuất hiện đã hỗ trợ kỹ sư dữ liệu tự động hóa hoạt động kiểm tra hiệu suất mô hình. 

Trong bối cảnh nhiều xu hướng trỗi dậy, các khía cạnh về đạo đức và pháp lý trong AI ngày càng được coi trọng hơn. Điều này tạo ra một chuẩn mực đạo đức nghề nghiệp cho các cá nhân, tổ chức trong lĩnh vực Data Science trong quá trình phát triển công nghệ. 

Data Science là lĩnh vực đang có tốc độ phát triển hành đầu. Đi đôi với tốc độ phát triển nhanh, người làm trong lĩnh vực này buộc phải có khả năng nắm bắt xu hướng ngành một cách kịp thời.

Kết

Có nhiều hướng tiếp cận lĩnh vực Data Science khác nhau, tùy thuộc vào: 1) mức độ nhận thức của bạn về bối cảnh ngành và 2) điểm mạnh và điểm yếu của từng cá nhân và nguyện vọng nghề nghiệp. Đây là lộ trình học Data Science tham khảo cho người mới bắt đầu, giúp bạn có thêm định hướng và nhận diện được những kỹ năng trọng tâm trong quá trình học tập.