Chương 13. Khoa học dữ liệu và chiến lược kinh doanh
Các khái niệm cơ bản: Các nguyên tắc của chúng ta là nền tảng cho sự thành công của doanh nghiệp dựa trên dữ liệu; Giành và duy trì lợi thế cạnh tranh thông qua khoa học dữ liệu; Tầm quan trọng của việc tuyển chọn và phát triển năng lực khoa học dữ liệu một cách thận trọng.
Trong chương này, chúng ta thảo luận về sự tương tác giữa khoa học dữ liệu và chiến lược kinh doanh, bao gồm một góc nhìn tổng quan về việc lựa chọn các vấn đề cần giải quyết bằng khoa học dữ liệu. Chúng ta nhận thấy rằng các khái niệm cơ bản của khoa học dữ liệu giúp ta suy nghĩ rõ ràng hơn về các vấn đề chiến lược. Đồng thời, tổng thể các khái niệm này còn hữu ích trong việc cân nhắc các quyết định kinh doanh mang tính chiến thuật, chẳng hạn như đánh giá các đề xuất dự án khoa học dữ liệu từ các nhà tư vấn hoặc đội khoa học dữ liệu nội bộ. Chúng ta cũng thảo luận chi tiết về việc xây dựng và duy trì năng lực khoa học dữ liệu.
Chúng ta ngày càng thấy nhiều câu chuyện trên báo chí về việc một khía cạnh khác của kinh doanh đã được giải quyết bằng một giải pháp dựa trên khoa học dữ liệu. Như chúng ta đã thảo luận trong Chương 1, sự hội tụ của nhiều yếu tố đã khiến các doanh nghiệp đương đại trở nên giàu có về dữ liệu một cách đáng kinh ngạc so với các doanh nghiệp tiền nhiệm. Nhưng chỉ có dữ liệu thôi thì không đảm bảo việc ra quyết định dựa trên dữ liệu thành công. Làm thế nào một doanh nghiệp đảm bảo rằng họ tận dụng tối đa sự giàu có của dữ liệu? Câu trả lời tất nhiên là đa dạng, nhưng có hai yếu tố quan trọng là: (i) ban quản lý của công ty phải suy nghĩ theo hướng phân tích dữ liệu (tư duy phân tích dữ liệu), và (ii) ban quản lý phải tạo ra một văn hóa nơi khoa học dữ liệu và các nhà khoa học dữ liệu sẽ phát triển mạnh.
Nhìn lại tư duy phân tích dữ liệu
Tiêu chí (i) không có nghĩa là các nhà quản lý phải là nhà khoa học dữ liệu. Tuy nhiên, các nhà quản lý phải hiểu đủ rõ các nguyên tắc cơ bản để hình dung và/hoặc đánh giá cao các cơ hội khoa học dữ liệu, để cung cấp các nguồn lực phù hợp cho các nhóm khoa học dữ liệu, và sẵn sàng đầu tư vào dữ liệu và thử nghiệm. Hơn nữa, trừ khi công ty có trong ban quản lý một nhà khoa học dữ liệu dày dạn kinh nghiệm và thực tế, ban quản lý thường phải chỉ đạo nhóm khoa học dữ liệu một cách cẩn thận để đảm bảo rằng nhóm đi đúng hướng tới một giải pháp kinh doanh hữu ích cuối cùng. Điều này rất khó nếu các nhà quản lý không thực sự hiểu các nguyên tắc. Các nhà quản lý cần có khả năng đặt các câu hỏi thăm dò đối với một nhà khoa học dữ liệu, người thường có thể bị lạc trong các chi tiết kỹ thuật. Chúng ta cần chấp nhận rằng mỗi người trong chúng ta đều có điểm mạnh và điểm yếu, và vì các dự án khoa học dữ liệu bao trùm rất nhiều lĩnh vực của một doanh nghiệp, một đội ngũ đa dạng là điều cần thiết. Cũng như chúng ta không thể mong đợi một nhà quản lý nhất thiết phải có chuyên môn sâu về khoa học dữ liệu, chúng ta cũng không thể mong đợi một nhà khoa học dữ liệu nhất thiết phải có chuyên môn sâu về các giải pháp kinh doanh.
Tuy nhiên, một ngũ khoa học dữ liệu hiệu quả đòi hỏi sự hợp tác giữa hai bên, và mỗi bên cần có một sự hiểu biết nhất định về các nguyên tắc cơ bản trong lĩnh vực trách nhiệm của người kia. Giống như việc quản lý một đội khoa học dữ liệu mà thành viên không nắm được các khái niệm cơ bản của kinh doanh là một nhiệm vụ vô cùng khó khăn, thì việc các nhà khoa học dữ liệu phải vật lộn dưới một ban quản lý không hiểu các nguyên tắc cơ bản của khoa học dữ liệu cũng vô cùng bức bối, và thường là một sự lãng phí to lớn.
Chẳng hạn, không hiếm trường hợp các nhà khoa học dữ liệu gặp khó khăn khi làm việc dưới sự quản lý chỉ dừng lại ở mức độ mơ hồ trong việc nhận thức tiềm năng của mô hình dự đoán, nhưng lại thiếu sự trân trọng đủ để đầu tư vào dữ liệu huấn luyện đúng chuẩn hay quy trình đánh giá nghiêm ngặt. Một công ty như vậy có thể “thành công” trong việc xây dựng một mô hình đủ khả năng dự đoán để tạo ra sản phẩm hoặc dịch vụ có giá trị, song sẽ chịu thiệt thòi lớn trước đối thủ biết đầu tư bài bản vào khoa học dữ liệu.
Một nền tảng vững chắc về các nguyên tắc cơ bản của khoa học dữ liệu có những ý nghĩa chiến lược sâu rộng hơn nhiều. Mặc dù chưa thấy có nghiên cứu khoa học hệ thống nào, nhưng kinh nghiệm thực tiễn cho thấy khi các giám đốc điều hành, nhà quản lý và nhà đầu tư tăng cường tiếp xúc với các dự án khoa học dữ liệu, họ lại càng thấy nhiều cơ hội hơn. Chúng ta có thể thấy rõ điều này ở những công ty như Google và Amazon, nơi khoa học dữ liệu thấm đẫm trong các dịch vụ tìm kiếm web và hệ thống đề xuất sản phẩm của Amazon cùng các dịch vụ khác. Cả hai tập đoàn này sau đó đã phát triển các sản phẩm mới cung cấp dịch vụ liên quan đến “big data” và khoa học dữ liệu cho các doanh nghiệp khác. Phần lớn các startup hướng tới khoa học dữ liệu hiện nay đều sử dụng dịch vụ lưu trữ và xử lý điện toán đám mây của Amazon cho một số nhiệm vụ. Google cũng đang nâng cao tính phức tạp và khả năng ứng dụng của “Prediction API” (mức độ sử dụng rộng rãi của dịch vụ này thì chúng tôi chưa nắm được).
Đó là những trường hợp cực đoan, nhưng mô hình cơ bản này tồn tại trong hầu hết các doanh nghiệp giàu dữ liệu. Khi năng lực khoa học dữ liệu được phát triển cho một ứng dụng, các ứng dụng khác trong toàn bộ doanh nghiệp trở nên rõ ràng. Louis Pasteur đã viết một câu nổi tiếng, “May mắn chỉ đến với những người có sự chuẩn bị (Fortune favors the prepared mind).” Tư duy hiện đại về sáng tạo nhấn mạnh vào việc kết hợp cách suy nghĩ mới với một tâm trí đã thấm nhuần sâu sắc vấn đề đang được giải quyết. Việc nghiên cứu các tình huống điển hình (cả trên lý thuyết và thực tế) về các ứng dụng khoa học dữ liệu giúp chuẩn bị cho tâm trí để nhìn thấy các cơ hội và kết nối với các vấn đề mới có thể hưởng lợi từ khoa học dữ liệu.
Chẳng hạn, vào cuối những năm 1980 và đầu những năm 1990, một trong những công ty viễn thông lớn nhất đã áp dụng mô hình dự đoán—sử dụng các kỹ thuật đã được mô tả trong cuốn sách này—để giải quyết vấn đề giảm chi phí sửa chữa mạng điện thoại và thiết kế hệ thống nhận dạng giọng nói. Với sự hiểu biết ngày càng sâu sắc về việc ứng dụng khoa học dữ liệu trong giải quyết các bài toán kinh doanh, công ty này sau đó đã áp dụng những ý tưởng tương tự cho việc quyết định phân bổ khoản đầu tư vốn khổng lồ nhằm nâng cấp mạng lưới hiệu quả nhất, cũng như giảm thiểu gian lận trong lĩnh vực kinh doanh viễn thông di động đang phát triển mạnh mẽ. Quá trình này tiếp tục phát triển. Các dự án khoa học dữ liệu nhằm giảm gian lận đã phát hiện ra rằng việc đưa vào các đặc trưng dựa trên kết nối mạng xã hội (từ dữ liệu ai gọi cho ai) trong mô hình dự đoán gian lận đã nâng cao đáng kể khả năng phát hiện gian lận. Vào đầu những năm 2000, các công ty viễn thông đã tạo ra những giải pháp đầu tiên sử dụng các kết nối xã hội như vậy để cải thiện hoạt động tiếp thị—và hiệu quả tiếp thị thực sự được nâng lên rõ rệt, vượt xa các phương pháp tiếp thị truyền thống dựa trên dữ liệu nhân khẩu học, địa lý và lịch sử mua hàng. Tiếp theo, trong ngành viễn thông, các đặc trưng xã hội này được tích hợp vào mô hình dự đoán tình trạng rời bỏ khách hàng, đem lại kết quả tích cực tương tự. Những ý tưởng này đã lan tỏa sang ngành quảng cáo trực tuyến, tạo nên một làn sóng phát triển mạnh mẽ các phương pháp quảng cáo dựa trên dữ liệu kết nối xã hội trực tuyến (tại Facebook và các công ty khác trong hệ sinh thái quảng cáo trực tuyến).
Sự tiến triển này không chỉ dựa vào những nhà khoa học dữ liệu dày dặn kinh nghiệm chuyển giao giữa các bài toán kinh doanh, mà còn bởi các nhà quản lý và doanh nhân tinh thông khoa học dữ liệu, những người đã nhìn thấy những cơ hội mới từ những tiến bộ trong nghiên cứu học thuật và thực tiễn kinh doanh.
Đạt được lợi thế cạnh tranh với khoa học dữ liệu
Các công ty ngày càng xem xét liệu họ có thể và làm thế nào để có được lợi thế cạnh tranh từ dữ liệu và/hoặc từ năng lực khoa học dữ liệu của mình. Đây là một tư duy chiến lược quan trọng không nên hời hợt, vì vậy hãy dành thời gian để tìm hiểu sâu hơn về nó.
Dữ liệu và năng lực khoa học dữ liệu là các tài sản chiến lược (bổ sung cho nhau). Dưới những điều kiện nào một công ty có thể đạt được lợi thế cạnh tranh từ một tài sản như vậy? Trước hết, tài sản đó phải có giá trị đối với công ty. Điều này có vẻ hiển nhiên, nhưng lưu ý rằng giá trị của một tài sản đối với một công ty phụ thuộc vào các quyết định chiến lược khác mà công ty đã đưa ra. Ngoài bối cảnh khoa học dữ liệu, trong ngành công nghiệp máy tính cá nhân vào những năm 1990, Dell đã nổi tiếng khi sớm có được lợi thế cạnh tranh đáng kể so với người dẫn đầu ngành là Compaq bằng cách sử dụng các hệ thống dựa trên web để cho phép khách hàng cấu hình máy tính theo nhu cầu và sở thích cá nhân của họ. Compaq không thể có được giá trị tương tự từ các hệ thống dựa trên web. Một lý do chính là Dell và Compaq đã thực hiện các chiến lược khác nhau: Dell đã là một nhà bán lẻ máy tính trực tiếp đến khách hàng, bán hàng qua catalog; các hệ thống dựa trên web có giá trị to lớn với chiến lược này. Compaq bán máy tính chủ yếu qua các cửa hàng bán lẻ; các hệ thống dựa trên web gần như không có giá trị với chiến lược này. Khi Compaq cố gắng sao chép chiến lược dựa trên web của Dell, họ đã phải đối mặt với một phản ứng dữ dội từ các nhà bán lẻ của mình. Điểm mấu chốt là giá trị của tài sản mới (hệ thống dựa trên web) phụ thuộc mật thiết vào các quyết định chiến lược khác của mỗi công ty.
Bài học là chúng ta cần suy nghĩ cẩn thận trong giai đoạn hiểu biết kinh doanh về cách dữ liệu và khoa học dữ liệu có thể cung cấp giá trị trong bối cảnh chiến lược kinh doanh của chúng ta, và liệu nó có làm điều tương tự trong bối cảnh chiến lược của đối thủ cạnh tranh hay không. Điều này có thể xác định cả cơ hội và mối đe dọa có thể xảy ra. Một ví dụ trực tiếp về khoa học dữ liệu tương tự ví dụ Dell-Compaq là cuộc cạnh tranh giữa Amazon và Borders. Ngay từ rất sớm, dữ liệu về lịch sử mua sách của khách hàng đã cho phép Amazon cá nhân hóa các đề xuất sách khi khách hàng đang mua sắm trực tuyến. Dù Borders có thể khai thác dữ liệu về người mua sách, chiến lược bán lẻ truyền thống tại cửa hàng vật lý của họ không thể cung cấp trải nghiệm gợi ý dựa trên khoa học dữ liệu một cách liền mạch như Amazon.
Do đó, điều kiện tiên quyết để tạo lợi thế cạnh tranh là tài sản phải có giá trị trong bối cảnh chiến lược của chúng ta. Chúng ta đã bắt đầu bàn đến tiêu chí thứ hai: để đạt được lợi thế cạnh tranh, đối thủ hoặc không sở hữu tài sản đó, hoặc không thể khai thác nó hiệu quả như chúng ta. Cần xem xét cả tài sản dữ liệu và năng lực khoa học dữ liệu. Chúng ta có một tài sản dữ liệu độc quyền không? Nếu không, liệu tài sản đó có phù hợp với chiến lược của chúng ta hơn so với chiến lược của đối thủ? Hay chúng ta có khả năng tận dụng tài sản đó tốt hơn nhờ năng lực khoa học dữ liệu vượt trội?
Mặt trái của việc tìm kiếm lợi thế cạnh tranh dựa trên dữ liệu và khoa học dữ liệu là tự hỏi liệu chúng ta có đang ở thế bất lợi hay không. Có thể câu trả lời cho những câu hỏi trên lại đúng với đối thủ mà không phải với chúng ta. Trong phần tiếp theo, chúng ta sẽ giả định rằng chúng ta đang tìm cách đạt được lợi thế cạnh tranh, nhưng các lập luận này cũng áp dụng đối xứng nếu chúng ta đang cố gắng đạt được sự ngang bằng với một đối thủ cạnh tranh am hiểu về dữ liệu.
Duy trì lợi thế cạnh tranh với khoa học dữ liệu
Câu hỏi tiếp theo là: ngay cả khi chúng ta có thể đạt được lợi thế cạnh tranh, liệu chúng ta có thể duy trì nó không? Nếu đối thủ cạnh tranh của chúng ta có thể dễ dàng sao chép tài sản và năng lực của chúng ta, lợi thế của chúng ta có thể chỉ là ngắn hạn. Đây là một câu hỏi đặc biệt quan trọng nếu đối thủ cạnh tranh của chúng ta có nguồn lực lớn hơn chúng ta: bằng cách áp dụng chiến lược của chúng ta, họ có thể vượt qua chúng ta nếu họ có nguồn lực lớn hơn.
Một chiến lược để cạnh tranh dựa trên khoa học dữ liệu là lên kế hoạch để luôn đi trước đối thủ một bước: luôn đầu tư vào các tài sản dữ liệu mới, và luôn phát triển các kỹ thuật và năng lực mới. Một chiến lược như vậy có thể tạo ra một doanh nghiệp thú vị và có thể phát triển nhanh chóng, nhưng nói chung rất ít công ty có thể thực hiện được. Chẳng hạn, bạn phải tin tưởng rằng đội ngũ khoa học dữ liệu của mình thuộc hàng xuất sắc nhất, bởi hiệu quả làm việc của các nhà khoa học dữ liệu rất khác biệt, với những người giỏi nhất vượt trội hơn đáng kể so với trung bình. Nếu bạn có một đội ngũ tuyệt vời, bạn có thể sẵn sàng đặt cược rằng bạn có thể đi trước đối thủ cạnh tranh. Chúng ta sẽ thảo luận thêm về các đội ngũ khoa học dữ liệu dưới đây.
Giải pháp thay thế cho việc luôn đi trước đối thủ một bước là đạt được lợi thế cạnh tranh bền vững do đối thủ không thể sao chép, hoặc chi phí sao chép tài sản dữ liệu hoặc năng lực khoa học dữ liệu của họ cao hơn. Có một số con đường để đạt được sự bền vững như vậy.
Lợi thế lịch sử đáng gờm
Các hoàn cảnh lịch sử có thể đã đặt công ty của chúng ta vào một vị trí thuận lợi, và có thể quá tốn kém để các đối thủ cạnh tranh đạt được vị trí tương tự. Amazon một lần nữa cung cấp một ví dụ nổi bật. Trong "Cơn sốt Dotcom" của những năm 1990, Amazon đã có thể bán sách dưới giá vốn, và các nhà đầu tư vẫn tiếp tục tưởng thưởng cho công ty. Điều này cho phép Amazon tích lũy các tài sản dữ liệu khổng lồ (chẳng hạn như dữ liệu khổng lồ về sở thích mua hàng của người tiêu dùng trực tuyến và các bài đánh giá sản phẩm trực tuyến), sau đó cho phép họ tạo ra các sản phẩm dựa trên dữ liệu có giá trị (chẳng hạn như đề xuất và xếp hạng sản phẩm). Những hoàn cảnh lịch sử này đã qua đi: ngày nay không chắc các nhà đầu tư sẽ cung cấp mức hỗ trợ tương tự cho một đối thủ cạnh tranh đang cố gắng sao chép tài sản dữ liệu của Amazon bằng cách bán sách dưới giá vốn trong nhiều năm liền (chưa kể đến việc Amazon đã vượt xa lĩnh vực sách).
Ví dụ này cũng minh họa rằng bản thân các sản phẩm dữ liệu có thể làm tăng chi phí cho các đối thủ cạnh tranh trong việc sao chép tài sản dữ liệu. Người tiêu dùng đánh giá cao các đề xuất và đánh giá/xếp hạng sản phẩm dựa trên dữ liệu mà Amazon cung cấp. Điều này tạo ra chi phí chuyển đổi: các đối thủ cạnh tranh sẽ phải cung cấp thêm giá trị cho khách hàng của Amazon để lôi kéo họ mua sắm ở nơi khác—hoặc bằng giá thấp hơn hoặc bằng một sản phẩm hoặc dịch vụ có giá trị khác mà Amazon không cung cấp. Do đó, khi việc thu thập dữ liệu được gắn trực tiếp với giá trị được cung cấp bởi dữ liệu, vòng lặp tích cực (virtuous cycle) tạo ra một tình thế tiến thoái lưỡng nan (catch-22) cho các đối thủ cạnh tranh: đối thủ cần khách hàng để thu thập dữ liệu cần thiết, nhưng họ cần dữ liệu để cung cấp dịch vụ tương đương nhằm thu hút khách hàng.
Các doanh nhân và nhà đầu tư có thể nhìn nhận vấn đề chiến lược này theo hướng ngược lại: những hoàn cảnh lịch sử nào hiện đang tồn tại mà có thể không tiếp tục vô thời hạn, và có thể cho phép tôi tiếp cận hoặc xây dựng một tài sản dữ liệu rẻ hơn so với khả năng trong tương lai? Hoặc sẽ cho phép tôi xây dựng một đội ngũ khoa học dữ liệu mà sẽ tốn kém hơn (hoặc không thể) để xây dựng trong tương lai?
Sở hữu trí tuệ độc nhất
Công ty của chúng ta có thể có sở hữu trí tuệ độc nhất. Sở hữu trí tuệ trong khoa học dữ liệu có thể bao gồm các kỹ thuật mới để khai phá dữ liệu hoặc sử dụng kết quả. Chúng có thể được cấp bằng sáng chế, hoặc chúng có thể chỉ là bí mật thương mại. Trong trường hợp đầu tiên, một đối thủ cạnh tranh hoặc sẽ không thể (hợp pháp) sao chép giải pháp, hoặc sẽ phải chịu chi phí tăng lên để làm như vậy, bằng cách cấp phép công nghệ của chúng ta hoặc bằng cách phát triển công nghệ mới để tránh vi phạm bằng sáng chế. Trong trường hợp bí mật thương mại, có thể đối thủ cạnh tranh đơn giản là không biết chúng ta đã triển khai giải pháp của mình như thế nào. Với các giải pháp khoa học dữ liệu, cơ chế thực tế thường bị che giấu; chỉ có kết quả là có thể nhìn thấy được.
Tài sản bảo đảm vô hình độc đáo
Đối thủ cạnh tranh của chúng ta có thể không tìm ra cách đưa giải pháp của chúng ta vào thực tế. Với các giải pháp khoa học dữ liệu thành công, nguồn gốc thực sự của hiệu suất tốt (ví dụ với mô hình dự đoán hiệu quả) có thể không rõ ràng. Hiệu quả của một giải pháp mô hình dự đoán có thể phụ thuộc rất nhiều vào kỹ thuật xử lý vấn đề, các thuộc tính được tạo ra, việc kết hợp các mô hình khác nhau, v.v. Thường thì đối thủ cạnh tranh không rõ hiệu suất được đạt được trong thực tế như thế nào. Ngay cả khi các thuật toán của chúng ta được công bố chi tiết, nhiều chi tiết triển khai có thể rất quan trọng để đưa một giải pháp hoạt động trong phòng thí nghiệm vào hoạt động sản xuất.
Hơn nữa, thành công có thể dựa trên các tài sản vô hình như văn hóa công ty đặc biệt phù hợp với việc triển khai các giải pháp khoa học dữ liệu. Ví dụ, một văn hóa chấp nhận thử nghiệm kinh doanh và việc hỗ trợ (một cách nghiêm ngặt) các tuyên bố bằng dữ liệu sẽ tự nhiên là một nơi dễ dàng hơn để các giải pháp khoa học dữ liệu thành công. Hoặc, nếu các nhà phát triển được khuyến khích hiểu về khoa học dữ liệu, họ sẽ ít có khả năng làm hỏng một giải pháp chất lượng hàng đầu. Hãy nhớ lại câu châm ngôn của chúng ta: Mô hình của bạn không phải là thứ mà các nhà khoa học dữ liệu của bạn thiết kế, mà là thứ mà các kỹ sư của bạn triển khai.
Các nhà khoa học dữ liệu vượt trội
Có thể các nhà khoa học dữ liệu của chúng ta đơn giản là giỏi hơn nhiều so với đối thủ cạnh tranh. Có một sự chênh lệch rất lớn về chất lượng và khả năng của các nhà khoa học dữ liệu. Ngay cả trong số các nhà khoa học dữ liệu được đào tạo bài bản, cộng đồng khoa học dữ liệu cũng thừa nhận rằng một số cá nhân có sự kết hợp giữa sự sáng tạo bẩm sinh, sự nhạy bén trong phân tích, óc kinh doanh và sự kiên trì cho phép họ tạo ra các giải pháp tốt hơn đáng kể so với các đồng nghiệp của họ.
Sự khác biệt cực đoan về khả năng này được minh họa bằng kết quả hàng năm trong cuộc thi khai phá dữ liệu KDD Cup. Hàng năm, hiệp hội chuyên nghiệp hàng đầu của các nhà khoa học dữ liệu, ACM SIGKDD, tổ chức hội nghị thường niên (Hội nghị Quốc tế ACM SIGKDD về Khám phá Tri thức và Khai phá Dữ liệu). Mỗi năm, hội nghị tổ chức một cuộc thi khai phá dữ liệu. Một số nhà khoa học dữ liệu thích cạnh tranh và có rất nhiều cuộc thi. Cuộc thi Netflix, được thảo luận trong Chương 12, là một trong những cuộc thi nổi tiếng nhất và các cuộc thi như vậy thậm chí đã được biến thành một doanh nghiệp gọi vốn cộng đồng (xem Kaggle). KDD Cup là cuộc thi khai phá dữ liệu lâu đời nhất và đã được tổ chức hàng năm kể từ năm 1997. Tại sao điều này lại liên quan? Một số nhà khoa học dữ liệu giỏi nhất thế giới tham gia vào các cuộc thi này. Tùy thuộc vào năm và nhiệm vụ, hàng trăm hoặc hàng nghìn đối thủ cạnh tranh thử sức mình trong việc giải quyết vấn đề. Nếu tài năng khoa học dữ liệu được phân bổ đều, người ta sẽ nghĩ rằng không có khả năng thấy cùng một cá nhân liên tục chiến thắng các cuộc thi. Nhưng đó chính xác là những gì chúng ta thấy. Có những cá nhân đã ở trong các đội chiến thắng nhiều lần, đôi khi nhiều năm liên tiếp và cho nhiều nhiệm vụ mỗi năm (đôi khi cuộc thi có nhiều hơn một nhiệm vụ)[1]. Điểm mấu chốt là có sự thay đổi đáng kể về khả năng ngay cả của những nhà khoa học dữ liệu giỏi nhất, và điều này được minh họa bằng kết quả "khách quan" của các cuộc thi KDD Cup. Kết quả là do sự chênh lệch lớn về khả năng, các nhà khoa học dữ liệu giỏi nhất có thể lựa chọn các cơ hội việc làm phù hợp với mong muốn của họ về mức lương, văn hóa, cơ hội thăng tiến, v.v.
Sự thay đổi về chất lượng của các nhà khoa học dữ liệu còn được khuếch đại bởi một thực tế đơn giản là các nhà khoa học dữ liệu hàng đầu đang có nhu cầu rất cao. Bất kỳ ai cũng có thể tự gọi mình là nhà khoa học dữ liệu, và rất ít công ty có thể thực sự đánh giá tốt các nhà khoa học dữ liệu như những ứng viên tiềm năng. Điều này dẫn đến một tình thế khó khăn khác: bạn cần ít nhất một nhà khoa học dữ liệu hàng đầu để thực sự đánh giá chất lượng của các ứng viên tiềm năng. Do đó, nếu công ty của chúng ta đã xây dựng được một năng lực khoa học dữ liệu mạnh mẽ, chúng ta có một lợi thế đáng kể và bền vững so với các đối thủ cạnh tranh đang gặp khó khăn trong việc tuyển dụng các nhà khoa học dữ liệu. Hơn nữa, các nhà khoa học dữ liệu hàng đầu thích làm việc với các nhà khoa học dữ liệu hàng đầu khác, điều này càng làm tăng thêm lợi thế của chúng ta.
Chúng ta cũng phải chấp nhận một thực tế rằng khoa học dữ liệu phần nào là một nghề thủ công (craft). Chuyên môn phân tích cần thời gian để có được, và tất cả những cuốn sách hay và bài giảng video tuyệt vời cũng không thể biến ai đó thành một bậc thầy. Nghề này được học hỏi qua kinh nghiệm. Con đường học tập hiệu quả nhất giống như trong các ngành nghề cổ điển: các nhà khoa học dữ liệu đầy tham vọng làm việc như những người học việc cho các bậc thầy. Điều này có thể diễn ra trong một chương trình sau đại học với một giáo sư hàng đầu định hướng ứng dụng, trong một chương trình sau tiến sĩ, hoặc trong ngành công nghiệp làm việc với một trong những nhà khoa học dữ liệu công nghiệp giỏi nhất. Tại một thời điểm nào đó, người học việc đủ kỹ năng để trở thành một "thợ lành nghề" (journeyman), và sau đó sẽ làm việc độc lập hơn trong một nhóm hoặc thậm chí dẫn dắt các dự án của riêng mình. Nhiều nhà khoa học dữ liệu chất lượng cao vui vẻ làm việc ở vị trí này trong suốt sự nghiệp của họ. Một nhóm nhỏ trở thành bậc thầy, do sự kết hợp giữa tài năng của họ trong việc nhận ra tiềm năng của các cơ hội khoa học dữ liệu mới (sẽ nói thêm về điều này sau) và sự thành thạo về lý thuyết và kỹ thuật của họ. Một số người trong số này sau đó nhận người học việc. Hiểu được con đường học tập này có thể giúp tập trung vào các nỗ lực tuyển dụng, tìm kiếm các nhà khoa học dữ liệu đã học việc với các bậc thầy hàng đầu. Nó cũng có thể được sử dụng một cách chiến thuật theo một cách ít rõ ràng hơn: nếu bạn có thể thuê một nhà khoa học dữ liệu bậc thầy, các nhà khoa học dữ liệu đầy tham vọng hàng đầu có thể đến để học việc với người đó.
Ngoài tất cả những điều này, một nhà khoa học dữ liệu hàng đầu cần có một mạng lưới chuyên nghiệp mạnh mẽ. Chúng tôi không có ý nói đến một mạng lưới theo nghĩa mà người ta có thể tìm thấy trong một hệ thống mạng lưới chuyên nghiệp trực tuyến; một nhà khoa học dữ liệu hiệu quả cần có các kết nối sâu sắc với các nhà khoa học dữ liệu khác trong cộng đồng khoa học dữ liệu. Lý do đơn giản là lĩnh vực khoa học dữ liệu rất rộng lớn và có quá nhiều chủ đề đa dạng để bất kỳ cá nhân nào có thể thành thạo. Một nhà khoa học dữ liệu hàng đầu là một bậc thầy về một lĩnh vực chuyên môn kỹ thuật nào đó, và quen thuộc với nhiều lĩnh vực khác. (Hãy cẩn thận với kiểu "biết tuốt nhưng không giỏi gì cả".) Tuy nhiên, chúng ta không muốn sự thành thạo của nhà khoa học dữ liệu về một lĩnh vực chuyên môn kỹ thuật nào đó biến thành câu chuyện ngụ ngôn về cây búa mà mọi vấn đề đều là cái đinh. Một nhà khoa học dữ liệu hàng đầu sẽ huy động chuyên môn cần thiết cho vấn đề đang giải quyết. Điều này được tạo điều kiện thuận lợi rất nhiều bởi các mối quan hệ chuyên nghiệp mạnh mẽ và sâu sắc. Các nhà khoa học dữ liệu gọi nhau để giúp định hướng họ đến các giải pháp phù hợp. Một mạng lưới chuyên nghiệp càng tốt, giải pháp sẽ càng tốt. Và, các nhà khoa học dữ liệu giỏi nhất có các kết nối tốt nhất.
Quản lý khoa học dữ liệu vượt trội
Có lẽ còn quan trọng hơn đối với sự thành công của khoa học dữ liệu trong kinh doanh là có sự quản lý tốt đội ngũ khoa học dữ liệu. Các nhà quản lý khoa học dữ liệu giỏi đặc biệt khó tìm. Họ cần hiểu rõ các nguyên tắc cơ bản của khoa học dữ liệu, thậm chí có thể là những nhà khoa học dữ liệu có năng lực. Các nhà quản lý khoa học dữ liệu giỏi cũng phải sở hữu một bộ các khả năng khác hiếm có ở một cá nhân:
Họ cần thực sự hiểu và đánh giá đúng nhu cầu của doanh nghiệp. Hơn nữa, họ nên có khả năng dự đoán nhu cầu của doanh nghiệp, để họ có thể tương tác với các đối tác của mình trong các lĩnh vực chức năng khác để phát triển ý tưởng cho các sản phẩm và dịch vụ khoa học dữ liệu mới.
Họ cần có khả năng giao tiếp tốt và được tôn trọng bởi cả "dân kỹ thuật" (techies) và "dân kinh doanh" (suits); điều này thường có nghĩa là dịch các thuật ngữ chuyên ngành khoa học dữ liệu (mà chúng tôi đã cố gắng giảm thiểu trong cuốn sách này) sang thuật ngữ kinh doanh, và ngược lại.
Họ cần điều phối các hoạt động phức tạp về mặt kỹ thuật, chẳng hạn như tích hợp nhiều mô hình hoặc quy trình với các ràng buộc và chi phí kinh doanh. Họ thường cần hiểu các kiến trúc kỹ thuật của doanh nghiệp, chẳng hạn như hệ thống dữ liệu hoặc hệ thống phần mềm sản xuất, để đảm bảo rằng các giải pháp mà nhóm tạo ra thực sự hữu ích trong thực tế.
Họ cần có khả năng dự đoán kết quả của các dự án khoa học dữ liệu. Như chúng ta đã thảo luận, khoa học dữ liệu giống với R&D hơn bất kỳ hoạt động kinh doanh nào khác. Liệu một dự án khoa học dữ liệu cụ thể có mang lại kết quả tích cực hay không là rất không chắc chắn khi bắt đầu, và có thể ngay cả khi đã đi sâu vào dự án. Ở những nơi khác, chúng tôi thảo luận về tầm quan trọng của việc nhanh chóng tạo ra các nghiên cứu chứng minh khái niệm (proof-of-concept), nhưng cả kết quả tích cực và tiêu cực của các nghiên cứu như vậy đều không có khả năng dự đoán cao về sự thành công hay thất bại của dự án lớn hơn. Chúng chỉ đưa ra hướng dẫn cho các khoản đầu tư trong chu kỳ tiếp theo của quy trình khai phá dữ liệu (nhớ lại Chương 2). Nếu chúng ta tìm kiếm manh mối về quản lý khoa học dữ liệu từ quản lý R&D, chúng ta thấy rằng chỉ có một yếu tố dự báo đáng tin cậy về sự thành công của một dự án nghiên cứu, và nó có khả năng dự báo rất cao: đó là thành công trước đó của nhà nghiên cứu. Chúng ta thấy một tình huống tương tự với các dự án khoa học dữ liệu. Có những cá nhân dường như có một cảm giác trực quan về việc dự án nào sẽ mang lại lợi nhuận. Chúng tôi không biết về một phân tích cẩn thận nào về lý do tại sao lại như vậy, nhưng kinh nghiệm cho thấy điều đó là đúng. Giống như các cuộc thi khoa học dữ liệu, nơi chúng ta thấy những màn trình diễn lặp lại đáng chú ý của cùng một cá nhân, chúng ta cũng thấy các cá nhân liên tục hình dung ra các cơ hội khoa học dữ liệu mới và quản lý chúng để đạt được thành công lớn—và điều này đặc biệt ấn tượng vì nhiều nhà quản lý khoa học dữ liệu thậm chí chưa bao giờ đưa một dự án nào đến thành công lớn.
Họ cần làm tất cả những điều này trong văn hóa của một công ty cụ thể.
Cuối cùng, năng lực khoa học dữ liệu của chúng ta có thể khó hoặc tốn kém để đối thủ cạnh tranh sao chép vì chúng ta có thể tuyển dụng các nhà khoa học dữ liệu và nhà quản lý khoa học dữ liệu tốt hơn. Điều này có thể là do danh tiếng và sức hấp dẫn thương hiệu của chúng ta đối với các nhà khoa học dữ liệu—một nhà khoa học dữ liệu có thể thích làm việc cho một công ty được biết đến là thân thiện với khoa học dữ liệu và các nhà khoa học dữ liệu. Hoặc công ty của chúng ta có thể có một sức hấp dẫn tinh tế hơn. Vì vậy, hãy xem xét chi tiết hơn những gì cần thiết để thu hút các nhà khoa học dữ liệu hàng đầu.
Thu hút và nuôi dưỡng các nhà khoa học dữ liệu và đội ngũ của họ
Ở đầu chương, chúng tôi đã lưu ý rằng hai yếu tố quan trọng nhất để đảm bảo công ty của chúng ta tận dụng tối đa tài sản dữ liệu của mình là: (i) ban quản lý của công ty phải suy nghĩ theo hướng phân tích dữ liệu, và (ii) ban quản lý của công ty phải tạo ra một văn hóa nơi khoa học dữ liệu và các nhà khoa học dữ liệu sẽ phát triển mạnh. Như chúng tôi đã đề cập ở trên, có thể có một sự khác biệt rất lớn giữa hiệu quả của một nhà khoa học dữ liệu giỏi và một nhà khoa học dữ liệu trung bình, và giữa một đội ngũ khoa học dữ liệu tuyệt vời và một nhà khoa học dữ liệu giỏi cá nhân. Nhưng làm thế nào người ta có thể tự tin tuyển dụng được các nhà khoa học dữ liệu hàng đầu? Làm thế nào chúng ta có thể tạo ra những đội ngũ tuyệt vời?
Đây là một câu hỏi rất khó trả lời trong thực tế. Tại thời điểm viết bài này (2013), nguồn cung các nhà khoa học dữ liệu hàng đầu khá mỏng, dẫn đến một thị trường rất cạnh tranh cho họ. Các công ty giỏi nhất trong việc tuyển dụng các nhà khoa học dữ liệu là những công ty như IBM, Microsoft và Google, những công ty thể hiện rõ giá trị mà họ đặt vào khoa học dữ liệu thông qua lương thưởng, phúc lợi và/hoặc các yếu tố vô hình, chẳng hạn như một yếu tố đặc biệt không thể xem nhẹ: các nhà khoa học dữ liệu thích ở gần các nhà khoa học dữ liệu hàng đầu khác. Người ta có thể cho rằng họ cần ở gần các nhà khoa học dữ liệu hàng đầu khác, không chỉ để tận hưởng công việc hàng ngày của họ, mà còn vì lĩnh vực này rất rộng lớn và trí tuệ tập thể của một nhóm các nhà khoa học dữ liệu có thể mang lại một loạt các kỹ thuật giải quyết cụ thể rộng hơn nhiều.
Tuy nhiên, chỉ vì thị trường khó khăn không có nghĩa là tất cả đã mất. Nhiều nhà khoa học dữ liệu muốn có ảnh hưởng cá nhân nhiều hơn so với khi họ ở một tập đoàn khổng lồ. Nhiều người muốn có nhiều trách nhiệm hơn (và kinh nghiệm đi kèm) với quy trình rộng lớn hơn để tạo ra một giải pháp khoa học dữ liệu. Một số có tầm nhìn trở thành Giám đốc Khoa học (Chief Scientist) cho một công ty, và hiểu rằng con đường đến vị trí Giám đốc Khoa học có thể được lát tốt hơn bằng các dự án ở các công ty nhỏ hơn và đa dạng hơn. Một số có tầm nhìn trở thành doanh nhân, và hiểu rằng việc trở thành một nhà khoa học dữ liệu sớm cho một công ty khởi nghiệp có thể mang lại cho họ kinh nghiệm vô giá. Và một số chỉ đơn giản là sẽ tận hưởng cảm giác hồi hộp khi tham gia vào một liên doanh phát triển nhanh: làm việc trong một công ty tăng trưởng 20% hoặc 50% một năm khác nhiều so với làm việc trong một công ty tăng trưởng 5% hoặc 10% một năm (hoặc không tăng trưởng chút nào).
Trong tất cả các trường hợp này, các công ty có lợi thế trong việc tuyển dụng là những công ty tạo ra một môi trường để nuôi dưỡng khoa học dữ liệu và các nhà khoa học dữ liệu. Nếu bạn không có đủ số lượng các nhà khoa học dữ liệu, hãy sáng tạo. Khuyến khích các nhà khoa học dữ liệu của bạn trở thành một phần của cộng đồng kỹ thuật khoa học dữ liệu địa phương và cộng đồng học thuật khoa học dữ liệu toàn cầu.
LƯU Ý VỀ VIỆC CÔNG BỐ
Khoa học là một hoạt động mang tính xã hội, và các nhà khoa học dữ liệu giỏi nhất thường mong muốn duy trì sự gắn kết với cộng đồng bằng cách công bố những tiến bộ của mình. Các công ty đôi khi gặp khó khăn với ý tưởng này, cảm thấy rằng họ đang "cho đi bí mật" hoặc tiết lộ cho đối thủ cạnh tranh những gì họ đang làm. Mặt khác, nếu họ không cho công bố, họ có thể không thể tuyển dụng hoặc giữ chân những người giỏi nhất. Việc công bố cũng có một số lợi thế cho công ty, chẳng hạn như tăng cường quảng bá, tiếp xúc, xác nhận ý tưởng từ bên ngoài, v.v. Không có câu trả lời rõ ràng, nhưng vấn đề này cần được xem xét cẩn thận. Một số công ty tích cực nộp đơn xin cấp bằng sáng chế cho các ý tưởng khoa học dữ liệu của họ, sau đó việc công bố học thuật là điều tự nhiên nếu ý tưởng đó thực sự mới lạ và quan trọng.
Sự hiện diện của khoa học dữ liệu trong một công ty có thể được củng cố bằng cách thu hút các nhà khoa học dữ liệu học thuật. Có một số cách để làm điều này. Đối với những học giả quan tâm đến các ứng dụng thực tế của công việc của họ, có thể tài trợ cho các chương trình nghiên cứu của họ. Cả hai tác giả của sách này, khi làm việc trong ngành, đều từng tài trợ các chương trình học thuật, qua đó mở rộng đội ngũ khoa học dữ liệu tập trung vào các vấn đề cụ thể và có sự tương tác chặt chẽ. Theo kinh nghiệm của chúng tôi, sự phối hợp hài hòa giữa dữ liệu, nguồn vốn và bài toán kinh doanh hấp dẫn là điều kiện tối ưu; nếu dự án trở thành một phần luận án tiến sĩ của sinh viên ở chương trình đào tạo danh tiếng, lợi ích cho doanh nghiệp sẽ vượt xa chi phí bỏ ra. Chi phí tài trợ một nghiên cứu sinh tiến sĩ ước tính khoảng 50.000 USD mỗi năm, chỉ là một phần nhỏ so với chi phí toàn diện của một chuyên gia khoa học dữ liệu hàng đầu. Điều then chốt là phải có đủ hiểu biết về khoa học dữ liệu để lựa chọn đúng giáo sư—người sở hữu chuyên môn phù hợp với vấn đề đang giải quyết.
Một chiến thuật khác có thể rất hiệu quả về chi phí là mời một hoặc nhiều nhà khoa học dữ liệu hàng đầu làm cố vấn khoa học. Nếu mối quan hệ được xây dựng sao cho các cố vấn thực sự tham gia vào việc giải quyết vấn đề, những công ty không đủ tiềm lực hoặc uy tín để tuyển dụng những nhà khoa học dữ liệu xuất sắc nhất vẫn có thể nâng cao đáng kể chất lượng giải pháp cuối cùng. Các cố vấn như vậy có thể là các nhà khoa học dữ liệu tại các công ty đối tác, các nhà khoa học dữ liệu từ các công ty có chung nhà đầu tư hoặc thành viên hội đồng quản trị, hoặc các học giả có thời gian tư vấn.
Một hướng đi hoàn toàn khác là thuê một bên thứ ba để thực hiện khoa học dữ liệu. Có nhiều nhà cung cấp dịch vụ khoa học dữ liệu bên thứ ba khác nhau, từ các công ty lớn chuyên về phân tích kinh doanh (như IBM), đến các công ty tư vấn chuyên về khoa học dữ liệu (như Elder Research), đến các công ty khoa học dữ liệu nhỏ (boutique) chỉ nhận một số lượng rất nhỏ khách hàng để giúp họ phát triển năng lực khoa học dữ liệu của mình (như Data Scientists, LLC). Bạn có thể tìm thấy một danh sách lớn các công ty dịch vụ khoa học dữ liệu, cũng như nhiều nguồn tài nguyên khoa học dữ liệu khác, tại KDnuggets. Một lưu ý khi hợp tác với các công ty tư vấn khoa học dữ liệu là lợi ích của họ không phải lúc nào cũng phù hợp với lợi ích của khách hàng; điều này là hiển nhiên đối với những người dùng tư vấn dày dạn kinh nghiệm, nhưng không phải ai cũng vậy.
Các nhà quản lý thông thái sử dụng tất cả các nguồn lực này một cách chiến thuật. Một giám đốc khoa học hoặc một nhà quản lý được trao quyền thường có thể tập hợp cho một dự án một đội ngũ mạnh mẽ và đa dạng hơn đáng kể so với hầu hết các công ty có thể thuê.
Nghiên cứu các tình huống khoa học dữ liệu điển hình
Ngoài việc xây dựng một đội ngũ khoa học dữ liệu vững chắc, làm thế nào một nhà quản lý có thể đảm bảo rằng công ty của mình được định vị tốt nhất để tận dụng các cơ hội áp dụng khoa học dữ liệu? Hãy đảm bảo rằng có sự hiểu biết và đánh giá cao các nguyên tắc cơ bản của khoa học dữ liệu. Khi nhân viên ở các bộ phận khác nhau được trao quyền và có kiến thức về khoa học dữ liệu, họ sẽ dễ dàng phát hiện và tận dụng những cơ hội mới để ứng dụng hiệu quả.
Sau khi nắm vững các nguyên tắc cơ bản của khoa học dữ liệu, cách tốt nhất để định vị bản thân để thành công là nghiên cứu nhiều ví dụ về việc áp dụng khoa học dữ liệu vào các vấn đề kinh doanh. Đọc các nghiên cứu tình huống thực sự đi qua quy trình khai phá dữ liệu. Tự xây dựng các nghiên cứu tình huống của riêng bạn. Việc thực sự khai phá dữ liệu là hữu ích, nhưng quan trọng hơn nữa là nghiên cứu mối liên hệ giữa vấn đề kinh doanh và các giải pháp khoa học dữ liệu có thể có. Càng nghiên cứu nhiều vấn đề đa dạng, bạn càng trở nên thành thạo trong việc nhận diện và tận dụng các cơ hội để khai thác thông tin cùng tri thức “lưu giữ” trong dữ liệu—thường thì cùng một cách tiếp cận vấn đề ở trường hợp này có thể được áp dụng tương tự cho trường hợp khác, chỉ với một vài điều chỉnh nhỏ.
Điều quan trọng cần ghi nhớ là các ví dụ chúng tôi đã trình bày trong cuốn sách này được chọn hoặc thiết kế để minh họa. Trong thực tế, đội ngũ kinh doanh và khoa học dữ liệu nên chuẩn bị cho mọi tình huống lộn xộn và ràng buộc, và phải linh hoạt trong việc đối phó với chúng. Đôi khi có rất nhiều dữ liệu và kỹ thuật khoa học dữ liệu có sẵn để áp dụng. Những lúc khác, tình hình có vẻ giống như cảnh quan trọng trong bộ phim Apollo 13. Trong phim, một sự cố và vụ nổ trong khoang chỉ huy khiến các phi hành gia bị mắc kẹt cách trái đất một phần tư triệu dặm, với mức CO2 tăng quá nhanh để họ có thể sống sót trở về. Nói tóm lại, do những hạn chế bởi những gì các phi hành gia có trong tay, các kỹ sư phải tìm ra cách sử dụng một bộ lọc hình khối lớn thay cho một bộ lọc hình trụ hẹp hơn (theo đúng nghĩa đen là "đút một cái chốt vuông vào một cái lỗ tròn"). Trong cảnh quan trọng, kỹ sư trưởng đổ tất cả "đồ đạc" có trong khoang chỉ huy ra bàn và nói với đội của mình: "OK, mọi người... chúng ta phải tìm cách làm cho cái này vừa với cái lỗ cho cái này, chỉ sử dụng những thứ đó." Các vấn đề khoa học dữ liệu thực tế thường giống với tình huống Apollo 13 hơn là một tình huống trong sách giáo khoa.
Trong nghiên cứu của Perlich và cộng sự (2013), họ đưa ra một giải pháp hiệu quả để giải quyết vấn đề thiếu dữ liệu huấn luyện lý tưởng cho việc nhắm mục tiêu người tiêu dùng qua quảng cáo trực tuyến. Vì việc thu thập dữ liệu chính xác từ phân phối mong muốn rất tốn kém, nhóm nghiên cứu đã tận dụng các bộ dữ liệu khác với chi phí thấp hơn, mặc dù thuộc các phân phối khác và có biến mục tiêu khác biệt. Bằng cách kết hợp các mô hình xây dựng từ những dữ liệu thay thế này, họ đã chuyển giao và áp dụng được cho nhiệm vụ chính, nhờ đó giảm thiểu đáng kể chi phí đầu tư cho dữ liệu gốc đắt tiền.
Sẵn sàng chấp nhận ý tưởng sáng tạo từ mọi nguồn
Khi các bên liên quan hiểu rõ các nguyên tắc cơ bản của khoa học dữ liệu, ý tưởng sáng tạo cho các giải pháp mới có thể phát sinh từ nhiều phía—từ các lãnh đạo cân nhắc các hướng kinh doanh tiềm năng, từ các giám đốc chịu trách nhiệm về lợi nhuận và thua lỗ, từ các quản lý nhìn nhận nghiêm túc quy trình kinh doanh, cho đến nhân viên trực tiếp với kiến thức chi tiết về cách thức vận hành cụ thể của quy trình đó. Các nhà khoa học dữ liệu nên được khuyến khích tương tác với mọi cấp nhân viên trong doanh nghiệp, đồng thời một phần đánh giá hiệu suất của họ cần dựa trên khả năng phát triển ý tưởng cải thiện hoạt động kinh doanh thông qua khoa học dữ liệu. Thực tế, việc này còn mang lại lợi ích ngoài mong đợi: các kỹ năng xử lý dữ liệu mà các nhà khoa học dữ liệu sở hữu thường được áp dụng theo cách không quá phức tạp nhưng vẫn giúp đỡ hiệu quả cho những nhân viên không có kỹ năng này. Nhiều khi nhà quản lý không biết rằng có những dữ liệu cụ thể có thể thu thập và sử dụng để hỗ trợ công việc một cách trực tiếp mà không cần đến kỹ thuật phân tích dữ liệu phức tạp.
Sẵn sàng đánh giá các đề xuất cho các dự án khoa học dữ liệu
Ý tưởng cải thiện các quyết định kinh doanh thông qua khoa học dữ liệu có thể đến từ bất kỳ phía nào. Các nhà quản lý, nhà đầu tư và nhân viên nên có khả năng hình thành các ý tưởng như vậy một cách rõ ràng, và những người ra quyết định nên chuẩn bị để đánh giá chúng. Về cơ bản, chúng ta cần có khả năng xây dựng các đề xuất vững chắc và đánh giá các đề xuất.
Quy trình khai phá dữ liệu, được mô tả trong Chương 2, cung cấp một khuôn khổ để định hướng điều này. Mỗi giai đoạn trong quy trình đều bộc lộ những câu hỏi cần được đặt ra cả trong việc xây dựng đề xuất cho các dự án và trong việc đánh giá chúng:
Vấn đề kinh doanh có được xác định rõ ràng không? Giải pháp khoa học dữ liệu có giải quyết được vấn đề không?
Chúng ta đã rõ phương pháp đánh giá một giải pháp như thế nào chưa?
Chúng ta có thể thấy bằng chứng về sự thành công trước khi đầu tư lớn vào việc triển khai không?
Công ty đã sở hữu đầy đủ dữ liệu cần thiết chưa? Ví dụ, đối với mô hình hóa có giám sát, có dữ liệu huấn luyện đã được gán nhãn hay chưa? Công ty có sẵn sàng đầu tư vào các tài sản chưa có hay không?
Phụ lục A cung cấp một danh sách các câu hỏi ban đầu để đánh giá các đề xuất khoa học dữ liệu, được sắp xếp theo quy trình khai phá dữ liệu. Hãy cùng xem qua một ví dụ minh họa. (Trong Phụ lục B, bạn sẽ tìm thấy một ví dụ đề xuất khác để đánh giá, tập trung vào vấn đề khách hàng rời bỏ của chúng ta.)
Ví dụ về đề xuất khai phá dữ liệu
Công ty bạn hiện có 900.000 người dùng đang sử dụng phiên bản Whiz-bang® hiện tại. Giờ đây, bạn đã phát triển Whiz-bang® 2.0 với chi phí vận hành thấp hơn đáng kể so với phiên bản cũ. Lý tưởng nhất, bạn muốn chuyển đổi (“di dời”) toàn bộ người dùng sang phiên bản 2.0; tuy nhiên, để sử dụng 2.0, khách hàng phải làm quen với giao diện hoàn toàn mới, và điều này tiềm ẩn rủi ro khiến họ cảm thấy khó chịu, không chuyển đổi, giảm sự hài lòng với công ty hoặc trong trường hợp xấu nhất là chuyển sang đối thủ cạnh tranh với sản phẩm Boppo® nổi tiếng. Phòng tiếp thị đã thiết kế một chương trình khuyến khích di dời hoàn toàn mới (brand-new migration incentive plan), có chi phí 250 đô la cho mỗi khách hàng được chọn. Tuy nhiên, không có đảm bảo rằng khách hàng sẽ chấp nhận di dời ngay cả khi nhận được ưu đãi này.
Một công ty bên ngoài, Big Red Consulting, đề xuất một kế hoạch nhắm mục tiêu khách hàng một cách thận trọng cho Whiz-bang® 2.0, và với kiến thức vững chắc về nguyên tắc khoa học dữ liệu, bạn được mời tham gia đánh giá đề xuất của Big Red. Liệu các lựa chọn của Big Red có hợp lý không?
Di dời khách hàng Whiz-bang có mục tiêu—được chuẩn bị bởi Big Red Consulting, Inc.
Chúng tôi sẽ phát triển một mô hình dự đoán sử dụng công nghệ khai phá dữ liệu hiện đại. Như đã thảo luận trong cuộc họp trước, chúng tôi dự kiến ngân sách 5,000,000 đô la cho giai đoạn di dời khách hàng này; việc điều chỉnh kế hoạch cho các ngân sách khác là đơn giản. Theo đó, chúng tôi có thể nhắm tới 20,000 khách hàng trong phạm vi ngân sách này. Cách thức lựa chọn khách hàng cụ thể như sau:
Chúng tôi sẽ sử dụng dữ liệu để xây dựng mô hình dự đoán khách hàng có di dời hay không khi nhận được ưu đãi. Tập dữ liệu sẽ bao gồm các thuộc tính của khách hàng, như số lượng và loại hình tương tác dịch vụ khách hàng trước đây, mức độ sử dụng sản phẩm, vị trí địa lý, ước tính về trình độ kỹ thuật, thời gian gắn bó với công ty, cùng các chỉ số về lòng trung thành khác như số lượng sản phẩm và dịch vụ khác của công ty đang được sử dụng. Biến mục tiêu là khách hàng có chuyển sang sử dụng sản phẩm mới hay không nếu nhận được ưu đãi. Từ dữ liệu này, chúng tôi sẽ xây dựng mô hình hồi quy tuyến tính để ước lượng biến mục tiêu. Mô hình sẽ được đánh giá dựa trên độ chính xác của nó trên dữ liệu này; đặc biệt chúng tôi muốn đảm bảo rằng độ chính xác này cao hơn đáng kể so với việc chúng tôi nhắm mục tiêu ngẫu nhiên.
Để sử dụng mô hình: với mỗi khách hàng, chúng tôi sẽ áp dụng mô hình hồi quy để ước lượng biến mục tiêu. Nếu giá trị ước lượng lớn hơn 0.5, chúng tôi sẽ dự đoán rằng khách hàng sẽ di dời; ngược lại, chúng tôi sẽ nói rằng khách hàng sẽ không di dời. Sau đó, chúng tôi sẽ chọn ngẫu nhiên 20,000 khách hàng trong tập khách hàng được dự đoán sẽ di dời để đề xuất làm nhóm mục tiêu.
Những thiếu sót trong đề xuất của Big Red
Chúng ta có thể sử dụng sự hiểu biết của mình về các nguyên tắc cơ bản và các khái niệm cơ bản khác của khoa học dữ liệu để xác định những thiếu sót trong đề xuất. Phụ lục A cung cấp một hướng dẫn ban đầu để xem xét các đề xuất như vậy, với một số câu hỏi chính cần đặt ra. Tuy nhiên, toàn bộ cuốn sách này thực sự có thể được xem như một hướng dẫn xem xét đề xuất. Dưới đây là một số thiếu sót nghiêm trọng nhất trong đề xuất của Big Red:
Hiểu nghiệp vụ kinh doanh
Định nghĩa biến mục tiêu chưa chính xác. Chẳng hạn, việc di dời phải xảy ra trong khoảng thời gian nào? (Chương 3)
Việc hình thành bài toán khai phá dữ liệu có thể được căn chỉnh phù hợp hơn với vấn đề kinh doanh. Chẳng hạn, điều gì sẽ xảy ra nếu một số khách hàng nhất định (hoặc toàn bộ) vốn dĩ đã có xu hướng di dời mà không cần đến ưu đãi? Khi đó, chúng ta sẽ lãng phí chi phí của ưu đãi khi nhắm mục tiêu họ. (Chương 2, Chương 11)
Hiểu/Chuẩn bị Dữ liệu
Hiện tại chưa có dữ liệu huấn luyện được gán nhãn vì đây là một chương trình ưu đãi hoàn toàn mới. Chúng ta nên đầu tư một phần ngân sách của mình để có được nhãn cho một số đối tượng. Điều này có thể được thực hiện bằng cách nhắm mục tiêu một tập hợp con khách hàng được chọn (ngẫu nhiên) với ưu đãi. Ngoài ra, cũng có thể cân nhắc sử dụng một cách tiếp cận phức tạp hơn (Chương 2, Chương 3, Chương 11).
Nếu chúng ta lo lắng về việc lãng phí ưu đãi cho những khách hàng có xu hướng di dời mà không cần ưu đãi, chúng ta cũng nên quan sát một "nhóm đối chứng" trong khoảng thời gian chúng ta thu thập dữ liệu huấn luyện. Điều này sẽ dễ dàng, vì mọi người chúng ta không nhắm mục tiêu để thu thập nhãn sẽ là một đối tượng "đối chứng". Chúng ta có thể xây dựng một mô hình riêng cho việc di dời hay không nếu không có ưu đãi, và kết hợp các mô hình này trong khung giá trị kỳ vọng. (Chương 11)
Mô hình hóa
Hồi quy tuyến tính không phải là một lựa chọn tốt để mô hình hóa một biến mục tiêu dạng phân loại. Thay vào đó, nên sử dụng một phương pháp phân loại, chẳng hạn như cây hồi quy, hồi quy logistic, k-NN, v.v. Tốt hơn nữa, tại sao không thử một loạt các phương pháp và đánh giá chúng một cách thực nghiệm để xem phương pháp nào hoạt động tốt nhất? (Chương 2, Chương 3, Chương 4, Chương 5, Chương 6, Chương 7, Chương 8)
Đánh giá
Việc đánh giá không nên được thực hiện trên dữ liệu huấn luyện. Nên áp dụng cách tiếp cận giữ lại (holdout) (ví dụ: xác thực chéo và/hoặc một cách tiếp cận theo giai đoạn như vừa thảo luận ở trên). (Chương 5)
Liệu có tiến hành xác thực mô hình dựa trên kiến thức chuyên môn trong lĩnh vực hay không? Điều gì xảy ra nếu mô hình phản ánh những bất thường trong quá trình thu thập dữ liệu? (Chương 7, Chương 11, Chương 14)
Triển khai
Ý tưởng chọn ngẫu nhiên các khách hàng có điểm hồi quy lớn hơn 0.5 chưa được xem xét kỹ lưỡng. Thứ nhất, không rõ rằng điểm hồi quy 0.5 thực sự tương ứng với xác suất di dời là 0.5 hay không. Thứ hai, ngưỡng 0,5 vốn dĩ khá tùy tiện. Thứ ba, vì mô hình của chúng ta cung cấp thứ hạng (ví dụ: theo khả năng di dời hoặc theo giá trị kỳ vọng nếu chúng ta sử dụng công thức phức tạp hơn), chúng ta nên dựa vào thứ hạng này để lựa chọn mục tiêu: chọn các ứng viên được xếp hạng cao nhất, tùy theo ngân sách cho phép. (Chương 2, Chương 3, Chương 7, Chương 8, Chương 11)
Dĩ nhiên, đây chỉ là một ví dụ minh họa với một số điểm thiếu sót nhất định. Đối với những đề xuất khác có những khía cạnh sai sót khác, có thể cần phải áp dụng những khái niệm khác để phân tích.
Mức độ trưởng thành về khoa học dữ liệu của một công ty
Để một công ty có thể lên kế hoạch thực tế cho các hoạt động khoa học dữ liệu, trước hết cần tự đánh giá một cách thẳng thắn và khách quan về mức độ trưởng thành (maturity) trong năng lực khoa học dữ liệu của chính mình. Mặc dù việc hướng dẫn tự đánh giá nằm ngoài phạm vi của cuốn sách này, nhưng một vài lời về chủ đề này là cần thiết.
Các công ty có năng lực khoa học dữ liệu khác nhau trên nhiều phương diện. Một khía cạnh đặc biệt quan trọng trong hoạch định chiến lược là “mức độ trưởng thành” của công ty, cụ thể là các quy trình được sử dụng để hướng dẫn các dự án khoa học dữ liệu của công ty có hệ thống và có cơ sở tốt như thế nào.
Ở một đầu của phổ trưởng thành, các quy trình khoa học dữ liệu của công ty hoàn toàn là đặc thù (ad hoc). Tại nhiều công ty, nhân sự tham gia các hoạt động khoa học dữ liệu và phân tích kinh doanh không được đào tạo chính quy trong các lĩnh vực này và các nhà quản lý có ít hiểu biết về các nguyên tắc cơ bản của khoa học dữ liệu và tư duy phân tích dữ liệu.
LƯU Ý VỀ CÁC CÔNG TY “CHƯA TRƯỞNG THÀNH”
Việc “chưa trưởng thành” không có nghĩa là công ty sẽ thất bại. Nó có nghĩa là sự thành công rất biến động và phụ thuộc nhiều vào may mắn hơn là ở một công ty trưởng thành. Thành công của dự án sẽ phụ thuộc vào những nỗ lực anh dũng của các cá nhân tình cờ có năng khiếu tự nhiên về tư duy phân tích dữ liệu. Một công ty chưa trưởng thành có thể triển khai các giải pháp khoa học dữ liệu không quá phức tạp ở quy mô lớn hoặc có thể triển khai các giải pháp phức tạp ở quy mô nhỏ. Tuy nhiên, hiếm khi một công ty chưa trưởng thành sẽ triển khai các giải pháp khoa học dữ liệu phức tạp ở quy mô lớn.
Một công ty có mức độ trưởng thành trung bình sử dụng các nhà khoa học dữ liệu được đào tạo bài bản, cũng như các nhà quản lý kinh doanh và các bên liên quan khác có hiểu biết về các nguyên tắc cơ bản của khoa học dữ liệu. Cả hai bên đều có thể suy nghĩ rõ ràng về cách giải quyết các vấn đề kinh doanh bằng khoa học dữ liệu và cả hai bên đều tham gia vào việc thiết kế và triển khai các giải pháp giải quyết trực tiếp các vấn đề của doanh nghiệp.
Ở đầu cao của phổ trưởng thành là các công ty liên tục làm việc để cải thiện các quy trình khoa học dữ liệu của họ (chứ không chỉ các giải pháp). Các giám đốc điều hành tại các công ty như vậy liên tục thách thức đội ngũ khoa học dữ liệu để thiết lập các quy trình sẽ căn chỉnh các giải pháp của họ tốt hơn với các vấn đề kinh doanh. Đồng thời, họ nhận ra rằng những sự đánh đổi thực dụng có thể ủng hộ việc lựa chọn một giải pháp không tối ưu nhưng có thể được thực hiện ngay hôm nay hơn là một giải pháp tốt hơn nhiều về mặt lý thuyết nhưng sẽ không sẵn sàng cho đến năm sau. Các nhà khoa học dữ liệu tại một công ty như vậy nên có sự tự tin rằng khi họ đề xuất một khoản đầu tư để cải thiện các quy trình khoa học dữ liệu, các đề xuất của họ sẽ được đón nhận với những bộ óc cởi mở và hiểu biết. Điều đó không có nghĩa là mọi yêu cầu như vậy sẽ được chấp thuận, mà là đề xuất sẽ được đánh giá dựa trên giá trị riêng của nó trong bối cảnh của doanh nghiệp.
LƯU Ý: KHOA HỌC DỮ LIỆU KHÔNG PHẢI LÀ VẬN HÀNH, CŨNG KHÔNG PHẢI LÀ KỸ THUẬT.
Có một nguy hiểm khi so sánh với mô hình trưởng thành năng lực (Capability Maturity Model) trong kỹ thuật phần mềm—đó là sự tương đồng này sẽ bị hiểu một cách quá máy móc. Việc áp dụng những quy trình tương tự như trong kỹ thuật phần mềm, hoặc tệ hơn là trong sản xuất hay vận hành, sẽ không thành công đối với khoa học dữ liệu. Hơn nữa, những nỗ lực sai lầm như vậy có thể khiến những nhà khoa học dữ liệu xuất sắc rời bỏ doanh nghiệp mà ban lãnh đạo còn chưa kịp nhận ra điều gì đã xảy ra. Điểm mấu chốt là phải thấu hiểu quy trình khoa học dữ liệu và cách thực thi hiệu quả, từ đó xây dựng sự nhất quán và hỗ trợ bền vững. Hãy nhớ rằng khoa học dữ liệu giống như nghiên cứu và phát triển (R&D) nhiều hơn là kỹ thuật hay sản xuất. Cụ thể, ban quản lý nên liên tục cung cấp nguồn lực cần thiết để đánh giá một cách bài bản các dự án khoa học dữ liệu ngay từ sớm và xuyên suốt. Điều này đôi khi liên quan đến việc đầu tư vào những dữ liệu mà trước đó chưa từng được thu thập. Điều này thường liên quan đến việc phân bổ các nguồn lực kỹ thuật để hỗ trợ đội ngũ khoa học dữ liệu. Đổi lại, nhóm khoa học dữ liệu phải nỗ lực cung cấp những đánh giá sát thực nhất với các vấn đề kinh doanh thực tế cho ban lãnh đạo.
Lấy một ví dụ cụ thể, hãy xem lại vấn đề khách hàng rời bỏ của chúng ta và cách các công ty có mức độ trưởng thành khác nhau có thể giải quyết nó:
Một công ty chưa trưởng thành sẽ có các nhân viên (hy vọng là) có năng khiếu phân tích, triển khai các giải pháp đặc thù dựa trên trực giác của họ về cách quản lý khách hàng rời bỏ. Những giải pháp này có thể hoạt động tốt hoặc không. Trong một công ty chưa trưởng thành, ban quản lý sẽ khó đánh giá các lựa chọn này so với các lựa chọn thay thế, hoặc xác định khi nào họ đã triển khai đến một giải pháp gần như tối ưu.
Một công ty có mức độ trưởng thành trung bình sẽ xây dựng một khuôn khổ rõ ràng để đánh giá các giải pháp thay thế khác nhau. Họ sẽ tiến hành thử nghiệm trong môi trường gần giống với thực tế kinh doanh, chẳng hạn như sử dụng dữ liệu sản xuất mới nhất trên nền tảng thử nghiệm, từ đó so sánh hiệu quả của các phương pháp khác nhau và xem xét cẩn thận các chi phí và lợi ích liên quan.
Một tổ chức rất trưởng thành có thể đã áp dụng các phương pháp tương tự như các công ty có mức độ trưởng thành trung bình để xác định những khách hàng có xác suất rời bỏ cao nhất hoặc mang lại tổn thất kỳ vọng lớn nhất nếu họ rời bỏ. Đồng thời, họ cũng đang xây dựng quy trình và thu thập dữ liệu cần thiết nhằm đánh giá tác động của các ưu đãi, từ đó tìm ra những khách hàng mà việc cung cấp ưu đãi sẽ tạo ra sự gia tăng giá trị kỳ vọng lớn nhất (so với việc không đưa ra ưu đãi). Bên cạnh đó, tổ chức này có thể đang tích hợp quy trình trên vào một khuôn khổ thử nghiệm và/hoặc tối ưu hóa để đánh giá các ưu đãi khác nhau, cũng như các thông số liên quan như mức chiết khấu trong từng ưu đãi cụ thể.
Một sự tự đánh giá thẳng thắn về mức độ trưởng thành của khoa học dữ liệu là khó khăn, nhưng đó là điều cần thiết để tận dụng các năng lực hiện tại của mình cũng như để cải thiện các năng lực của mình.
[1] Điều này không có nghĩa là người ta nên xem những người chiến thắng KDD Cup nhất thiết là những người khai phá dữ liệu giỏi nhất thế giới. Nhiều nhà khoa học dữ liệu hàng đầu chưa bao giờ tham gia một cuộc thi như vậy; một số tham gia một lần và sau đó tập trung nỗ lực vào những việc khác.
Last updated