Lời nói đầu
Khoa học Dữ liệu cho Kinh doanh (Data Science for Business) dành cho nhiều đối tượng độc giả:
Những doanh nhân sẽ làm việc với các nhà khoa học dữ liệu, quản lý các dự án theo định hướng khoa học dữ liệu hoặc đầu tư vào các dự án khoa học dữ liệu.
Những nhà phát triển sẽ triển khai các giải pháp khoa học dữ liệu.
Những người khao khát trở thành nhà khoa học dữ liệu.
Đây không phải là một cuốn sách về thuật toán, cũng không phải là tài liệu thay thế cho một cuốn sách về thuật toán. Chúng tôi chủ đích tránh cách tiếp cận tập trung vào thuật toán. Chúng tôi tin rằng có một tập hợp tương đối nhỏ các khái niệm hoặc nguyên tắc cơ bản làm nền tảng cho các kỹ thuật trích xuất tri thức hữu ích từ dữ liệu. Những khái niệm này đóng vai trò là nền tảng cho nhiều thuật toán khai phá dữ liệu nổi tiếng. Hơn nữa, những khái niệm này là cơ sở cho việc phân tích các vấn đề kinh doanh tập trung vào dữ liệu, việc tạo ra và đánh giá các giải pháp khoa học dữ liệu, cũng như việc đánh giá các chiến lược và đề xuất khoa học dữ liệu nói chung. Theo đó, chúng tôi đã sắp xếp nội dung xoay quanh các nguyên tắc chung này thay vì các thuật toán cụ thể. Khi cần mô tả chi tiết về quy trình, chúng tôi sử dụng kết hợp văn bản và sơ đồ, mà chúng tôi cho rằng dễ tiếp cận hơn so với việc liệt kê các bước thuật toán chi tiết.
Cuốn sách không yêu cầu người đọc có nền tảng toán học phức tạp. Tuy nhiên, về bản chất, tài liệu này có phần kỹ thuật—mục tiêu là truyền đạt một sự hiểu biết sâu sắc về khoa học dữ liệu, chứ không chỉ đưa ra một cái nhìn tổng quan ở mức độ cao. Nhìn chung, chúng tôi đã cố gắng giảm thiểu toán học và trình bày nội dung một cách "khái niệm" nhất có thể.
Các đồng nghiệp trong ngành nhận xét rằng cuốn sách này vô giá trong việc giúp thống nhất sự hiểu biết giữa các nhóm kinh doanh, kỹ thuật/phát triển và khoa học dữ liệu. Nhận xét đó dựa trên một mẫu nhỏ, vì vậy chúng tôi tò mò muốn xem nó thực sự phổ biến đến mức nào (xem Chương 5!). Lý tưởng nhất, chúng tôi hình dung một cuốn sách mà bất kỳ nhà khoa học dữ liệu nào cũng sẽ đưa cho các cộng tác viên của mình từ các nhóm phát triển hoặc kinh doanh, và nói rằng: nếu bạn thực sự muốn thiết kế/triển khai các giải pháp khoa học dữ liệu hàng đầu cho các vấn đề kinh doanh, tất cả chúng ta cần có một sự hiểu biết chung về tài liệu này.
Các đồng nghiệp cũng cho chúng tôi biết rằng cuốn sách này đã hữu ích một cách bất ngờ: để chuẩn bị cho các cuộc phỏng vấn ứng viên khoa học dữ liệu. Nhu cầu tuyển dụng các nhà khoa học dữ liệu từ các doanh nghiệp đang rất lớn và ngày càng tăng. Để đáp ứng, ngày càng có nhiều người tìm việc tự giới thiệu mình là nhà khoa học dữ liệu. Mọi ứng viên cho vị trí khoa học dữ liệu nên hiểu các nguyên tắc cơ bản được trình bày trong cuốn sách này. (Các đồng nghiệp trong ngành của chúng tôi nói rằng họ ngạc nhiên về số lượng người không hiểu. Chúng tôi đã nửa đùa nửa thật thảo luận về một cuốn sách nhỏ tiếp theo có tên "Cliff’s Notes to Interviewing for Data Science Jobs.")
Cách tiếp cận dựa trên khái niệm của chúng tôi đối với Khoa học Dữ liệu
Trong cuốn sách này, chúng tôi giới thiệu một tập hợp các khái niệm cơ bản quan trọng nhất của khoa học dữ liệu. Một số khái niệm này là "tiêu đề" cho các chương, và những khái niệm khác được giới thiệu một cách tự nhiên hơn thông qua các cuộc thảo luận (và do đó chúng không nhất thiết được dán nhãn là các khái niệm cơ bản). Các khái niệm này trải dài từ quá trình hình dung vấn đề, đến việc áp dụng các kỹ thuật khoa học dữ liệu, đến việc triển khai kết quả để cải thiện việc ra quyết định. Các khái niệm này cũng củng cố một loạt lớn các phương pháp và kỹ thuật phân tích kinh doanh.
Các khái niệm được chia thành ba loại chung:
Các khái niệm tổng quát về vị trí của khoa học dữ liệu trong tổ chức và bối cảnh cạnh tranh, bao gồm các cách để thu hút, cấu trúc và nuôi dưỡng các nhóm khoa học dữ liệu; các cách suy nghĩ về cách khoa học dữ liệu dẫn đến lợi thế cạnh tranh; và các khái niệm chiến thuật để thực hiện tốt các dự án khoa học dữ liệu.
Các cách tổng quát để tư duy theo lối phân tích dữ liệu. Những điều này giúp xác định dữ liệu phù hợp và xem xét các phương pháp phù hợp. Các khái niệm bao gồm quy trình khai phá dữ liệu cũng như tập hợp các tác vụ khai phá dữ liệu mức cao khác nhau.
Các khái niệm tổng quát để thực sự trích xuất tri thức từ dữ liệu, làm nền tảng cho hàng loạt các tác vụ khoa học dữ liệu và các thuật toán của chúng.
Ví dụ, một khái niệm cơ bản là xác định sự tương đồng của hai thực thể được mô tả bằng dữ liệu. Khả năng này tạo cơ sở cho các tác vụ cụ thể khác nhau. Nó có thể được sử dụng trực tiếp để tìm những khách hàng tương tự như một khách hàng nhất định. Nó tạo thành cốt lõi của một số thuật toán dự đoán ước tính một giá trị mục tiêu như mức sử dụng tài nguyên dự kiến của khách hàng hoặc xác suất khách hàng phản hồi một ưu đãi. Nó cũng là cơ sở cho các kỹ thuật phân cụm, nhóm các thực thể theo các đặc điểm chung của chúng mà không có mục tiêu tập trung. Sự tương đồng tạo cơ sở cho việc truy xuất thông tin, trong đó các tài liệu hoặc trang web liên quan đến một truy vấn tìm kiếm được truy xuất. Cuối cùng, nó là nền tảng của một số thuật toán phổ biến để đề xuất. Một cuốn sách theo định hướng thuật toán truyền thống có thể trình bày mỗi tác vụ này trong một chương khác nhau, dưới các tên khác nhau, với các khía cạnh chung bị chôn vùi trong các chi tiết thuật toán hoặc các mệnh đề toán học. Thay vào đó, trong cuốn sách này, chúng tôi tập trung vào các khái niệm thống nhất, trình bày các tác vụ và thuật toán cụ thể như những biểu hiện tự nhiên của chúng.
Một ví dụ khác, trong việc đánh giá tính hữu dụng của một dạng thức (pattern), chúng ta thấy một khái niệm về lift—mức độ phổ biến của một dạng thức so với những gì được mong đợi một cách ngẫu nhiên—xuất hiện rộng rãi trong khoa học dữ liệu. Nó được sử dụng để đánh giá các loại dạng thức rất khác nhau trong các bối cảnh khác nhau. Các thuật toán nhắm mục tiêu quảng cáo được đánh giá bằng cách tính toán mức lift mà người ta nhận được cho đối tượng được nhắm mục tiêu. Lift được sử dụng để đánh giá sức nặng của bằng chứng ủng hộ hoặc chống lại một kết luận. Lift giúp xác định xem một sự đồng xuất hiện (một mối liên kết) trong dữ liệu có thú vị hay không, thay vì chỉ đơn giản là một hệ quả tự nhiên của sự phổ biến.
Chúng tôi tin rằng việc giải thích khoa học dữ liệu xoay quanh các khái niệm cơ bản như vậy không chỉ giúp ích cho người đọc mà còn tạo điều kiện thuận lợi cho việc giao tiếp giữa các bên liên quan trong kinh doanh và các nhà khoa học dữ liệu. Nó cung cấp một vốn từ vựng chung và cho phép cả hai bên hiểu nhau hơn. Các khái niệm chung dẫn đến các cuộc thảo luận sâu hơn có thể khám phá ra các vấn đề quan trọng mà nếu không sẽ bị bỏ lỡ.
Các kỹ năng và khái niệm khác
Có nhiều khái niệm và kỹ năng khác mà một nhà khoa học dữ liệu thực tế cần biết ngoài các nguyên tắc cơ bản của khoa học dữ liệu. Những kỹ năng và khái niệm này sẽ được thảo luận trong Chương 1 và Chương 2. Độc giả quan tâm được khuyến khích truy cập trang web của cuốn sách để tìm các tài liệu học tập về các kỹ năng và khái niệm bổ sung này (ví dụ: viết kịch bản bằng Python, xử lý dòng lệnh Unix, tệp dữ liệu, các định dạng dữ liệu phổ biến, cơ sở dữ liệu và truy vấn, kiến trúc và hệ thống dữ liệu lớn như MapReduce và Hadoop, trực quan hóa dữ liệu và các chủ đề liên quan khác).
Last updated