Phụ lục

Phụ lục A. Hướng dẫn đánh giá đề xuất

Tư duy phân tích dữ liệu hiệu quả sẽ cho phép bạn đánh giá các dự án khai phá dữ liệu tiềm năng một cách có hệ thống. Nội dung trong cuốn sách này cung cấp cho bạn nền tảng cần thiết để đánh giá các dự án khai phá dữ liệu được đề xuất và để phát hiện ra những thiếu sót tiềm ẩn trong các đề xuất. Kỹ năng này có thể được áp dụng cả trong việc tự đánh giá cho các đề xuất của chính bạn và như một công cụ hỗ trợ trong việc đánh giá các đề xuất từ các nhóm khoa học dữ liệu nội bộ hoặc các nhà tư vấn bên ngoài.

Sau đây là một tập hợp các câu hỏi mà mọi người nên ghi nhớ khi xem xét một dự án khai phá dữ liệu. Các câu hỏi được đóng khung bởi quy trình khai phá dữ liệu đã được thảo luận chi tiết trong Chương 2 và được sử dụng như một khuôn khổ khái niệm trong suốt cuốn sách. Sau khi đọc cuốn sách này, bạn sẽ có thể áp dụng chúng một cách khái niệm vào một vấn đề kinh doanh mới. Danh sách bên dưới không có nghĩa là đã đầy đủ tất cả (nói chung, cuốn sách này không có ý định bao quát tất cả mọi thứ). Tuy nhiên, danh sách này chứa đựng một số câu hỏi quan trọng nhất cần đặt ra.

Trong suốt cuốn sách, chúng tôi đã tập trung vào các dự án khoa học dữ liệu mà trọng tâm là khai phá các quy luật, dạng thức hoặc mô hình từ dữ liệu. Hướng dẫn đánh giá đề xuất phản ánh điều này. Có thể có các dự án khoa học dữ liệu trong một tổ chức mà các quy luật không được xác định một cách rõ ràng. Ví dụ, nhiều dự án trực quan hóa dữ liệu ban đầu không có các mục tiêu được xác định rõ ràng cho việc mô hình hóa. Dù vậy, quy trình khai phá dữ liệu vẫn giúp định hình tư duy phân tích dữ liệu cho những trường hợp này, bởi chúng mang tính chất gần với khai phá dữ liệu không có giám sát hơn là khai phá dữ liệu có giám sát.

Hiểu nghiệp vụ kinh doanh và dữ liệu

  • Vấn đề kinh doanh cần giải quyết chính xác là gì?

  • Giải pháp khoa học dữ liệu có được xây dựng phù hợp để giải quyết vấn đề kinh doanh này không? Lưu ý: đôi khi chúng ta phải đưa ra những phỏng đoán hợp lý.

  • Một instance/example tương ứng với thực thể kinh doanh (business entity) nào?

  • Vấn đề này là một vấn đề có giám sát hay không giám sát? Nếu là có giám sát:

    • Biến mục tiêu đã được định nghĩa chưa?

    • Nếu có, nó đã được định nghĩa chính xác chưa?

    • Hãy suy nghĩ về các giá trị mà nó có thể nhận.

  • Các thuộc tính đã được định nghĩa chính xác chưa?

    • Hãy suy nghĩ về các giá trị mà chúng có thể nhận.

  • Đối với các vấn đề có giám sát: việc mô hình hóa biến mục tiêu này có cải thiện được vấn đề kinh doanh đã nêu không? Một vấn đề phụ quan trọng? Nếu là vấn đề phụ, phần còn lại của vấn đề kinh doanh có được giải quyết không?

  • Việc đóng khung vấn đề theo giá trị kỳ vọng có giúp cấu trúc các tác vụ phụ cần được giải quyết không?

  • Nếu là không giám sát, có một con đường “phân tích dữ liệu khám phá” được xác định rõ ràng không? (Tức là, phân tích sẽ đi về đâu?)

Chuẩn bị dữ liệu

  • Việc thu thập giá trị cho các thuộc tính, tạo các vector đặc trưng và đặt chúng vào một bảng đơn có thực sự khả thi hay không?

  • Nếu không, có một định dạng dữ liệu thay thế được định nghĩa rõ ràng và chính xác không? Điều này có được tính đến trong các giai đoạn sau của dự án không? (Nhiều phương pháp/kỹ thuật giả định tập dữ liệu ở định dạng vector đặc trưng.)

  • Nếu việc mô hình hóa là có giám sát, biến mục tiêu có được định nghĩa rõ ràng không? Có rõ ràng cách thu thập giá trị cho biến mục tiêu (để huấn luyện và kiểm nghiệm) và đặt chúng vào bảng không?

  • Chính xác thì các giá trị cho biến mục tiêu sẽ được thu thập như thế nào? Có chi phí nào liên quan không? Nếu có, các chi phí đó có được tính đến trong đề xuất không?

  • Dữ liệu có được thu thập từ cùng một nhóm đối tượng mà mô hình sẽ áp dụng hay không? Nếu tồn tại sự khác biệt, liệu những sai lệch trong quá trình lựa chọn dữ liệu (selection biases) đã được ghi nhận rõ ràng và có kế hoạch cụ thể để khắc phục chúng hay chưa?

Mô hình hóa

  • Việc lựa chọn mô hình có phù hợp với việc lựa chọn biến mục tiêu không?

    • Phân loại, ước tính xác suất lớp, xếp hạng, hồi quy, phân cụm, v.v.

  • Mô hình/kỹ thuật mô hình hóa có đáp ứng các yêu cầu khác của tác vụ không?

    • Hiệu quả tổng quát hóa, khả năng diễn giải, tốc độ học, tốc độ áp dụng, lượng dữ liệu yêu cầu, loại dữ liệu, các giá trị bị khuyết?

    • Việc lựa chọn kỹ thuật mô hình hóa có tương thích với kiến thức nền tảng về vấn đề hay không (ví dụ: một mô hình tuyến tính có đang được đề xuất cho một vấn đề chắc chắn là phi tuyến tính không)?

  • Có nên thử và so sánh nhiều mô hình khác nhau (trong phần đánh giá) không?

  • Đối với phân cụm, độ tương tự đã được định nghĩa hay chưa? Độ đo đó có phản ánh đúng đặc điểm của vấn đề kinh doanh hay không?

Đánh giá và triển khai

  • Có kế hoạch nào cho việc xác thực dựa trên kiến thức chuyên môn không?

    • Các chuyên gia lĩnh vực hoặc các bên liên quan có muốn kiểm tra mô hình trước khi triển khai không? Nếu có, mô hình có ở dạng mà họ có thể hiểu được không?

  • Thiết lập và thước đo đánh giá có phù hợp với tác vụ kinh doanh không? Hãy nhớ lại công thức ban đầu.

    • Các chi phí và lợi ích kinh doanh có được tính đến không?

    • Đối với phân loại, ngưỡng phân loại được chọn như thế nào?

    • Các ước lượng xác suất có được sử dụng trực tiếp không?

    • Việc xếp hạng có phù hợp hơn không (ví dụ: đối với một ngân sách cố định)?

    • Đối với hồi quy, bạn sẽ đánh giá chất lượng của các dự đoán dạng số như thế nào? Tại sao đây là cách đúng trong bối cảnh của vấn đề?

  • Việc xác thực có sử dụng dữ liệu giữ lại (holdout) không?

    • Xác thực chéo là một kỹ thuật.

  • Kết quả sẽ được so sánh với các đường cơ sở (baseline) nào?

    • Tại sao những điều này lại có ý nghĩa trong bối cảnh của vấn đề thực tế cần giải quyết?

    • Có kế hoạch nào để đánh giá các phương pháp cơ sở một cách khách quan không?

  • Đối với phân cụm, việc phân cụm sẽ được hiểu như thế nào?

  • Việc triển khai như kế hoạch có thực sự giải quyết (tốt nhất) vấn đề kinh doanh đã nêu không?

  • Nếu cần thuyết phục các bên liên quan về chi phí dự án, kế hoạch cụ thể để đánh giá tác động kinh doanh sau khi dự án được triển khai là gì?

Phụ lục B. Một ví dụ đề xuất khác

Phụ lục A đã trình bày một bộ hướng dẫn và câu hỏi hữu ích để đánh giá các đề xuất khoa học dữ liệu. Chương 13 chứa một đề xuất mẫu (Ví dụ về đề xuất khai phá dữ liệu) cho một chiến dịch “di dời khách hàng” và một bài phê bình về những điểm yếu của nó (Những thiếu sót trong đề xuất của Big Red).

Chúng tôi đã sử dụng vấn đề khách hàng rời bỏ trong ngành viễn thông làm một ví dụ xuyên suốt cuốn sách này. Ở đây chúng tôi trình bày một đề xuất mẫu và bài phê bình thứ hai, lần này dựa trên vấn đề khách hàng rời bỏ.

Tình huống và đề xuất

Bạn đã có một công việc tuyệt vời tại Green Giant Consulting (GGC), quản lý một nhóm phân tích đang trong quá trình xây dựng bộ kỹ năng khoa học dữ liệu của mình. GGC đang đề xuất một dự án khoa học dữ liệu với TelCo, nhà cung cấp dịch vụ viễn thông không dây lớn thứ hai quốc gia, để giúp giải quyết vấn đề khách hàng rời bỏ của họ. Nhóm phân tích của bạn đã đưa ra đề xuất sau đây, và bạn đang xem xét nó trước khi trình bày kế hoạch đề xuất cho TelCo. Bạn có tìm thấy bất kỳ thiếu sót nào trong kế hoạch không? Bạn có bất kỳ đề xuất nào để cải thiện nó không?

Giảm tỷ lệ rời bỏ thông qua ưu đãi có mục tiêu—Được đề xuất bởi GGC

Chúng tôi đề xuất rằng TelCo kiểm tra khả năng kiểm soát tỷ lệ khách hàng rời bỏ của mình thông qua một phân tích dự đoán rời bỏ. Ý tưởng chính là TelCo có thể sử dụng dữ liệu về hành vi của khách hàng để dự đoán khi nào khách hàng sẽ rời đi, và sau đó có thể nhắm mục tiêu những khách hàng này bằng các ưu đãi đặc biệt để họ ở lại với TelCo. Chúng tôi đề xuất bài toán mô hình hóa sau đây, có thể được thực hiện bằng cách sử dụng dữ liệu đã có trong tay của TelCo.

Chúng tôi sẽ mô hình hóa xác suất một khách hàng sẽ (hoặc sẽ không) rời đi trong vòng 90 ngày kể từ ngày hết hạn hợp đồng, với lưu ý rằng vấn đề duy trì khách hàng tiếp tục sử dụng dịch vụ theo tháng, lâu sau khi hợp đồng kết thúc, là một bài toán riêng biệt. Chúng tôi tin rằng việc dự đoán rời bỏ trong khoảng thời gian 90 ngày này là một điểm khởi đầu phù hợp, đồng thời những bài học thu được có thể áp dụng cho các trường hợp dự đoán rời bỏ khác. Mô hình sẽ được xây dựng dựa trên cơ sở dữ liệu lịch sử các trường hợp khách hàng đã rời công ty. Xác suất rời bỏ sẽ được dự đoán dựa trên dữ liệu thu thập 45 ngày trước khi hết hạn hợp đồng, để TelCo có đủ thời gian tác động đến hành vi của khách hàng thông qua một lời đề nghị ưu đãi. Chúng tôi sẽ mô hình hóa xác suất rời bỏ bằng cách xây dựng một mô hình tổ hợp cây (rừng ngẫu nhiên - random forest), vốn được công nhận về độ chính xác cao trong nhiều bài toán ước lượng đa dạng.

Chúng tôi ước tính rằng chúng tôi sẽ có thể nhận diện được 70% khách hàng sẽ rời đi trong khoảng thời gian 90 ngày. Chúng tôi sẽ xác minh điều này bằng cách chạy mô hình trên cơ sở dữ liệu để xác nhận rằng mô hình thực sự có thể đạt được mức độ chính xác này. Thông qua các cuộc trao đổi với các bên liên quan của TelCo, chúng tôi hiểu rằng việc Phó chủ tịch phụ trách Giữ chân Khách hàng phê duyệt bất kỳ quy trình giữ chân khách hàng mới nào là vô cùng quan trọng. Bà ấy cho biết sẽ dựa trên đánh giá cá nhân về tính hợp lý của quy trình nhận diện khách hàng và ý kiến từ những chuyên gia uy tín trong lĩnh vực giữ chân khách hàng của công ty để đưa ra quyết định. Do đó, chúng tôi sẽ cấp cho Phó chủ tịch và các chuyên gia quyền truy cập vào mô hình, để họ có thể xác minh rằng nó sẽ hoạt động hiệu quả và phù hợp. Chúng tôi đề xuất rằng mỗi tuần, mô hình sẽ được chạy để ước lượng xác suất rời bỏ của những khách hàng có hợp đồng hết hạn trong 45 ngày tới (sai số một tuần). Các khách hàng sẽ được xếp hạng dựa trên các xác suất này, và N người đứng đầu sẽ được chọn để nhận ưu đãi hiện tại, với N dựa trên chi phí của ưu đãi và ngân sách giữ chân khách hàng hàng tuần.

Những thiếu sót trong đề xuất của GGC

Chúng ta có thể sử dụng sự hiểu biết của mình về các nguyên tắc cơ bản và các khái niệm cơ bản khác của khoa học dữ liệu để xác định những thiếu sót trong đề xuất. Phụ lục A cung cấp một hướng dẫn ban đầu để xem xét các đề xuất như vậy, với một số câu hỏi chính cần đặt ra. Tuy nhiên, toàn bộ cuốn sách này thực sự có thể được xem như một hướng dẫn xem xét đề xuất. Dưới đây là một số thiếu sót nghiêm trọng nhất trong đề xuất của Green Giant:

  1. Đề xuất hiện tại chỉ đề cập đến việc mô hình hóa dựa trên “những khách hàng đã rời công ty”. Để huấn luyện (và kiểm nghiệm), chúng ta cũng sẽ muốn có những khách hàng không rời công ty, để mô hình có thể tìm thấy thông tin có tính phân biệt. (Chương 2, Chương 3, Chương 4, Chương 7)

  2. Tại sao lại xếp hạng khách hàng theo xác suất rời bỏ cao nhất? Tại sao không xếp hạng họ theo tổn thất kỳ vọng, sử dụng một phép tính giá trị kỳ vọng tiêu chuẩn? (Chương 7, Chương 11)

  3. Tốt hơn nữa, chúng ta có nên cố gắng mô hình hóa những khách hàng có khả năng bị ảnh hưởng (một cách tích cực) bởi ưu đãi nhất không? (Chương 11, Chương 12)

  4. Nếu chúng ta định tiến hành như trong (3), chúng ta sẽ gặp vấn đề là không có dữ liệu huấn luyện cần thiết. Chúng ta sẽ phải đầu tư để có được dữ liệu huấn luyện. (Chương 3, Chương 11)

Lưu ý rằng đề xuất hiện tại rất có thể chỉ là một bước đầu tiên hướng tới mục tiêu kinh doanh, nhưng điều này cần được nêu rõ ràng: xem liệu chúng ta có thể ước tính xác suất tốt không. Nếu có thể, thì việc tiếp tục là hợp lý. Nếu không, chúng ta có thể cần phải suy nghĩ lại về việc đầu tư vào dự án này.

  1. Đề xuất không nói gì về việc đánh giá hiệu quả tổng quát hóa (tức là, thực hiện đánh giá trên dữ liệu giữ lại). Có vẻ như họ sẽ kiểm tra trên tập huấn luyện (“...chạy mô hình trên cơ sở dữ liệu...”). (Chương 5)

  2. Đề xuất không định nghĩa (thậm chí không đề cập đến) những thuộc tính nào sẽ được sử dụng! Đây chỉ là một sự thiếu sót? Có phải vì nhóm thậm chí chưa nghĩ về nó? Kế hoạch là gì? (Chương 2, Chương 3)

  3. Làm thế nào mà nhóm ước tính rằng mô hình sẽ có thể nhận diện được 70% khách hàng sẽ rời đi? Không có đề cập nào về việc một nghiên cứu thí điểm đã được tiến hành, cũng như các đường cong học tập đã được tạo ra trên các mẫu dữ liệu, hay bất kỳ sự hỗ trợ nào khác cho tuyên bố này. Nó có vẻ như là một phỏng đoán. (Chương 2, Chương 5, Chương 7)

  4. Hơn nữa, không thảo luận về tỷ lệ lỗi (error rate) hoặc khái niệm về dương tính giả (false positives) và âm tính giả (false negatives), không rõ “nhận diện 70% khách hàng sẽ rời đi” thực sự có nghĩa là gì. Nếu tôi không nói gì về tỷ lệ dương tính giả, tôi có thể xác định 100% trong số họ đơn giản bằng cách nói rằng tất cả mọi người sẽ rời đi. Vì vậy, nói về tỷ lệ dương tính thật chỉ có ý nghĩa nếu bạn cũng nói về tỷ lệ dương tính giả. (Chương 7, Chương 8)

  5. Tại sao lại chọn một mô hình cụ thể? Với các bộ công cụ hiện đại, chúng ta có thể dễ dàng so sánh nhiều mô hình khác nhau trên cùng một bộ dữ liệu. (Chương 4, Chương 7, Chương 8)

  6. Phó chủ tịch phụ trách Giữ chân Khách hàng phải phê duyệt quy trình, và đã chỉ ra rằng bà sẽ kiểm tra quy trình để xem nó có hợp lý không (xác thực dựa trên kiến thức chuyên môn). Tuy nhiên, các mô hình tổ hợp cây là các mô hình hộp đen. Đề xuất không nói gì về cách bà sẽ hiểu quy trình đang đưa ra quyết định như thế nào. Với mong muốn của bà, sẽ tốt hơn nếu hy sinh một chút độ chính xác để xây dựng một mô hình dễ hiểu hơn. Một khi bà đã “đồng ý”, có thể sử dụng các kỹ thuật ít dễ hiểu hơn để đạt được độ chính xác cao hơn. (Chương 3, Chương 7, Chương 12)

Last updated