Chương 14. Kết luận
Thực hành khoa học dữ liệu có thể được mô tả là sự kết hợp giữa kỹ nghệ phân tích (analytical engineering) và thăm dò (exploration). Doanh nghiệp đưa ra một vấn đề mà chúng ta muốn giải quyết. Hiếm khi vấn đề kinh doanh lại trực tiếp là một trong những tác vụ khai phá dữ liệu cơ bản của chúng ta. Chúng ta phân tách vấn đề thành các tác vụ con mà chúng ta nghĩ rằng mình có thể giải quyết được, thường bắt đầu bằng các công cụ hiện có. Đối với một số tác vụ, chúng ta có thể không biết mình có thể giải quyết chúng tốt đến mức nào, vì vậy chúng ta phải khai phá dữ liệu và tiến hành đánh giá để xem xét. Nếu điều đó không thành công, chúng ta có thể cần phải thử một cái gì đó hoàn toàn khác. Trong quá trình đó, chúng ta có thể phát hiện ra kiến thức sẽ giúp chúng ta giải quyết vấn đề mà chúng ta đã đặt ra, hoặc chúng ta có thể phát hiện ra điều gì đó bất ngờ dẫn chúng ta đến những thành công quan trọng khác.
Cả kỹ nghệ phân tích và thăm dò đều không nên bị bỏ qua khi xem xét việc áp dụng các phương pháp khoa học dữ liệu để giải quyết một vấn đề kinh doanh. Bỏ qua khía cạnh kỹ nghệ thường làm cho kết quả của việc khai phá dữ liệu ít có khả năng thực sự giải quyết được vấn đề kinh doanh. Bỏ qua việc hiểu quy trình như một quá trình thăm dò và phát hiện (exploration and discovery) thường khiến tổ chức không áp dụng các biện pháp quản lý, khuyến khích và đầu tư phù hợp để dự án thành công.
Các khái niệm cơ bản của khoa học dữ liệu
Cả kỹ nghệ phân tích lẫn việc thăm dò và phát hiện đều được thực hiện một cách có hệ thống hơn và do đó có nhiều khả năng thành công hơn nhờ vào việc hiểu và nắm bắt các khái niệm cơ bản của khoa học dữ liệu. Trong quyển sách này, chúng tôi đã giới thiệu một tập hợp các khái niệm cơ bản quan trọng nhất. Một số khái niệm chúng tôi đã đặt làm tiêu đề cho các chương và một số khác được giới thiệu một cách tự nhiên hơn qua các cuộc thảo luận (không nhất thiết được gán nhãn là khái niệm cơ bản). Những khái niệm này bao quát toàn bộ quy trình từ việc hình dung cách khoa học dữ liệu có thể cải thiện các quyết định kinh doanh, đến việc áp dụng các kỹ thuật khoa học dữ liệu và triển khai kết quả để cải thiện việc ra quyết định. Các khái niệm này cũng là nền tảng cho hàng loạt các phương pháp phân tích kinh doanh (business analytics).
Chúng ta có thể nhóm các khái niệm cơ bản thành ba loại chính:
Các khái niệm tổng quát về vị trí của khoa học dữ liệu trong tổ chức và bối cảnh cạnh tranh, bao gồm cách thu hút, tổ chức và nuôi dưỡng đội ngũ khoa học dữ liệu, cách suy ngẫm về việc khoa học dữ liệu tạo ra lợi thế cạnh tranh như thế nào, cách duy trì lợi thế đó, cùng các nguyên tắc chiến thuật để thực hiện tốt các dự án khoa học dữ liệu.
Các cách tổng quát để tư duy theo lối phân tích dữ liệu, giúp chúng ta thu thập dữ liệu phù hợp và xem xét các phương pháp phù hợp. Các khái niệm này bao gồm quy trình khai phá dữ liệu (data mining process), tập hợp các tác vụ khoa học dữ liệu mức cao (high-level data science tasks), cũng như các nguyên tắc sau:
Dữ liệu nên được coi là một tài sản, và do đó chúng ta nên suy nghĩ cẩn thận về những khoản đầu tư nào chúng ta nên thực hiện để tận dụng tốt nhất tài sản của mình.
Khung giá trị kỳ vọng (expected value framework) có thể giúp chúng ta cấu trúc các vấn đề kinh doanh để thấy các vấn đề khai phá dữ liệu thành phần cũng như mối liên kết giữa chi phí, lợi ích và các ràng buộc do môi trường kinh doanh áp đặt.
Khái quát hóa (generalization) và quá khớp (overfitting): nếu chúng ta xem xét dữ liệu quá kỹ, chúng ta sẽ tìm thấy các dạng thức (patterns); chúng ta mong muốn các dạng thức có thể khái quát hóa cho dữ liệu mà chúng ta chưa nhìn thấy.
Áp dụng khoa học dữ liệu vào một vấn đề có cấu trúc tốt (well-structured problem) so với khai phá dữ liệu thăm dò (exploratory data mining) đòi hỏi các mức độ nỗ lực khác nhau trong các giai đoạn khác nhau của quy trình khai phá dữ liệu.
Các khái niệm tổng quát để thực sự trích xuất tri thức từ dữ liệu, làm nền tảng cho hàng loạt các kỹ thuật khoa học dữ liệu. Các khái niệm này bao gồm:
Nhận diện các thuộc tính mang thông tin—những thuộc tính tương quan với hoặc cung cấp cho chúng ta thông tin về một đại lượng chưa biết (mà chúng ta quan tâm).
Khớp một mô hình hàm số với dữ liệu bằng cách chọn một mục tiêu và tìm một bộ tham số dựa trên mục tiêu đó.
Kiểm soát độ phức tạp là cần thiết để tìm ra sự cân bằng tốt giữa khái quát hóa và quá khớp.
Xác định độ tương tự giữa các đối tượng được mô tả bởi dữ liệu.
Một khi chúng ta nghĩ về khoa học dữ liệu dưới góc độ các khái niệm cơ bản của nó, chúng ta sẽ thấy cùng một khái niệm làm nền tảng cho nhiều chiến lược, tác vụ, giải thuật và quy trình khoa học dữ liệu khác nhau. Như chúng tôi đã minh họa trong suốt quyển sách, những nguyên tắc này không chỉ cho phép chúng ta hiểu lý thuyết và thực hành khoa học dữ liệu một cách sâu hơn, mà còn cho phép chúng ta hiểu các phương pháp và kỹ thuật của khoa học dữ liệu một cách rất rộng, bởi vì các phương pháp và kỹ thuật này thường chỉ đơn giản là những biểu hiện cụ thể của một hoặc nhiều nguyên tắc cơ bản.
Ở cấp độ cao, chúng ta đã thấy cách cấu trúc các vấn đề kinh doanh bằng khung giá trị kỳ vọng cho phép chúng ta phân tách các vấn đề thành các tác vụ khoa học dữ liệu mà chúng ta biết rõ cách giải quyết và điều này áp dụng cho nhiều loại vấn đề kinh doanh khác nhau.
Để trích xuất tri thức từ dữ liệu, chúng ta đã thấy rằng khái niệm cơ bản về “xác định độ tương tự giữa các đối tượng được mô tả bởi dữ liệu” được sử dụng trực tiếp, chẳng hạn như để tìm những khách hàng tương tự với những khách hàng tốt nhất. Nó được sử dụng để phân loại và hồi quy, thông qua các phương pháp láng giềng gần nhất. Nó là cơ sở cho việc phân cụm (clustering), tức là nhóm các đối tượng dữ liệu một cách không giám sát. Nó là cơ sở để tìm các tài liệu liên quan nhất đến một truy vấn tìm kiếm. Và nó là cơ sở cho nhiều phương pháp phổ biến để đưa ra các đề xuất, chẳng hạn như đặt cả khách hàng và phim vào cùng một “không gian sở thích (taste space)”, sau đó tìm những bộ phim tương tự nhất với một khách hàng cụ thể.
Khi nói đến đo lường, chúng ta thấy khái niệm về độ nâng (lift)—xác định mức độ một dạng thức có khả năng xảy ra cao hơn so với kỳ vọng ngẫu nhiên—xuất hiện rộng rãi trong khoa học dữ liệu, khi đánh giá các loại dạng thức rất khác nhau. Người ta đánh giá hiệu quả của các giải thuật nhắm mục tiêu quảng cáo bằng cách tính độ nâng đối với nhóm đối tượng được nhắm tới. Độ nâng được sử dụng để định lượng sức nặng của bằng chứng ủng hộ hoặc phản đối một kết luận. Ngoài ra, độ nâng còn giúp đánh giá xem một sự đồng xuất hiện lặp đi lặp lại có thực sự thú vị hay chỉ đơn thuần là hệ quả tất yếu của mức độ phổ biến.
Hiểu các khái niệm cơ bản cũng tạo điều kiện thuận lợi cho việc giao tiếp giữa các bên liên quan trong kinh doanh và các nhà khoa học dữ liệu, không chỉ vì vốn từ vựng chung, mà còn vì cả hai bên thực sự hiểu rõ hơn. Thay vì bỏ lỡ hoàn toàn các khía cạnh quan trọng của một cuộc thảo luận, chúng ta có thể đào sâu và đặt ra những câu hỏi giúp tiết lộ những khía cạnh quan trọng mà nếu không hỏi thì sẽ không được khám phá.
Ví dụ, giả sử công ty đầu tư mạo hiểm của bạn đang xem xét đầu tư vào một công ty dựa trên khoa học dữ liệu, cung cấp dịch vụ tin tức trực tuyến được cá nhân hóa. Bạn hỏi họ đang cá nhân hóa tin tức như thế nào. Họ nói họ sử dụng máy vectơ hỗ trợ (support vector machines). Hãy giả vờ rằng chúng ta chưa từng nói về máy vectơ hỗ trợ trong quyển sách này. Bây giờ bạn nên cảm thấy đủ tự tin vào kiến thức của mình về khoa học dữ liệu để không chỉ đơn giản nói “Ồ, được rồi.” Bạn sẽ có thể tự tin hỏi: “Chính xác thì đó là gì?” Nếu họ thực sự biết mình đang nói gì, họ sẽ giải thích cho bạn dựa trên các nguyên tắc cơ bản (như chúng ta đã làm trong Chương 4). Bây giờ bạn cũng đã sẵn sàng để hỏi: “Chính xác thì dữ liệu huấn luyện mà các bạn định sử dụng là gì?” Điều đó không chỉ có thể gây ấn tượng với các nhà khoa học dữ liệu trong nhóm của họ, mà thực sự đó là một câu hỏi quan trọng cần được đặt ra để xem họ có đang làm điều gì đó đáng tin cậy hay chỉ đang sử dụng “khoa học dữ liệu” như một lớp vỏ bọc để che giấu. Bạn có thể tiếp tục suy nghĩ xem: liệu bạn có thực sự tin rằng việc xây dựng bất kỳ mô hình dự đoán nào từ những dữ liệu này—bất kể đó là loại mô hình nào—có khả năng giải quyết vấn đề kinh doanh mà họ đang nhắm tới hay không. Bạn nên chuẩn bị để đặt câu hỏi: liệu bạn có thực sự nghĩ rằng họ sẽ có các nhãn huấn luyện đáng tin cậy cho tác vụ như thế hay không. Và cứ tiếp tục như thế.
Áp dụng các khái niệm cơ bản vào một vấn đề mới: Khai phá dữ liệu thiết bị di động
Như chúng ta đã nhiều lần nhấn mạnh, khi nhìn nhận khoa học dữ liệu như một tập hợp các khái niệm, nguyên tắc và phương pháp tổng quát, chúng ta sẽ dễ dàng nắm bắt toàn diện các hoạt động khoa học dữ liệu cũng như áp dụng hiệu quả khoa học dữ liệu vào những bài toán kinh doanh mới. Hãy cùng xem xét một ví dụ mới.
Gần đây (tại thời điểm viết bài này), đã có một sự thay đổi rõ rệt trong hoạt động trực tuyến của người tiêu dùng từ máy tính truyền thống sang một loạt các thiết bị di động. Nhiều công ty vẫn đang nỗ lực tìm hiểu cách tiếp cận người tiêu dùng qua máy tính để bàn, giờ đây lại phải vật lộn để tìm hiểu cách tiếp cận người tiêu dùng qua các thiết bị di động (điện thoại thông minh, máy tính bảng và máy tính di động) vì việc truy cập WiFi trở nên phổ biến ở khắp mọi nơi. Chúng ta sẽ không bàn về phần lớn những phức tạp của vấn đề này, nhưng từ góc nhìn của một người có tư duy phân tích dữ liệu, có thể nhận thấy rằng các thiết bị di động mang đến một loại dữ liệu mới mà vẫn chưa được khai thác triệt để. Cụ thể, các thiết bị di động được liên kết với dữ liệu về vị trí của chúng.
Ví dụ, trong hệ sinh thái quảng cáo di động, tùy thuộc vào cài đặt quyền riêng tư của tôi, thiết bị di động của tôi có thể phát đi vị trí GPS của tôi cho những đơn vị muốn nhắm mục tiêu tôi bằng các quảng cáo, các ưu đãi hàng ngày và các lời mời chào khác. Hình 14-1 cho thấy biểu đồ phân tán của một mẫu nhỏ các vị trí mà một nhà quảng cáo tiềm năng có thể thấy, được lấy mẫu từ hệ sinh thái quảng cáo di động. Ngay cả khi tôi không phát đi vị trí GPS của mình, thiết bị của tôi cũng phát đi địa chỉ IP của mạng đang sử dụng, vốn thường gợi nhắc thông tin về vị trí.
Hình 14-1. Biểu đồ phân tán của một mẫu các vị trí GPS được thu thập từ các thiết bị di động.
Ghi chú
Một điểm phụ thú vị là: đây chỉ là một biểu đồ phân tán của vĩ độ và kinh độ được phát đi bởi các thiết bị di động, không có bản đồ nào cả! Nó cho thấy một bức tranh ấn tượng về mật độ dân số trên toàn thế giới. Và nó khiến chúng ta tự hỏi điều gì đang xảy ra với các thiết bị di động ở Nam Cực.
Chúng ta có thể sử dụng những dữ liệu như vậy như thế nào? Hãy áp dụng các khái niệm cơ bản của chúng ta. Nếu chúng ta muốn vượt ra ngoài phạm vi phân tích dữ liệu thăm dò (như chúng ta đã bắt đầu với việc trực quan hóa trong Hình 14-1), chúng ta cần phải suy nghĩ dưới góc độ một vấn đề kinh doanh cụ thể nào đó. Một công ty cụ thể có thể có những vấn đề nhất định cần giải quyết và tập trung vào một hoặc hai vấn đề. Một nhà khởi nghiệp hoặc nhà đầu tư có thể lướt qua các vấn đề khả dĩ khác nhau mà họ thấy các doanh nghiệp hoặc người tiêu dùng hiện đang gặp phải. Hãy chọn một vấn đề có liên quan đến những dữ liệu này.
Các nhà quảng cáo phải đối mặt với vấn đề là trong thế giới mới này, có nhiều loại thiết bị khác nhau và hành vi của một người tiêu dùng cụ thể có thể bị phân mảnh trên nhiều thiết bị. Trong thế giới máy tính để bàn, một khi các nhà quảng cáo xác định được một khách hàng tiềm năng tốt, có lẽ thông qua một cookie trong trình duyệt của một người tiêu dùng cụ thể hoặc một ID thiết bị, họ có thể bắt đầu hành động tương ứng, chẳng hạn như hiển thị các quảng cáo được nhắm mục tiêu. Trong hệ sinh thái di động, hoạt động của người tiêu dùng này bị phân mảnh trên nhiều thiết bị. Ngay cả khi đã tìm được một khách hàng tiềm năng tốt trên một thiết bị, làm thế nào để có thể nhắm mục tiêu trên các thiết bị khác của người đó?
Một khả năng là sử dụng dữ liệu vị trí để thu hẹp phạm vi các thiết bị khác có thể thuộc về khách hàng tiềm năng này. Hình 14-1 gợi ý rằng một phần lớn không gian các lựa chọn khả dĩ sẽ bị loại bỏ nếu ta có thể phân tích hành vi ghé thăm vị trí của một thiết bị di động. Có thể giả định rằng thói quen vị trí của tôi trên điện thoại thông minh sẽ tương đối giống với thói quen trên laptop, đặc biệt khi xét đến các vị trí WiFi mà tôi sử dụng. Do đó, tôi có thể dựa vào kiến thức về đánh giá độ tương tự giữa các mục dữ liệu để phân tích (Chương 6).
Khi thực hiện giai đoạn hiểu dữ liệu, chúng ta cần quyết định chính xác cách chúng ta sẽ biểu diễn các thiết bị và vị trí của chúng. Một khi chúng ta bỏ qua những chi tiết về giải thuật và ứng dụng để tập trung vào những nguyên tắc cơ bản, chúng ta có thể nhận thấy rằng các ý tưởng được thảo luận trong ví dụ về định hình vấn đề cho khai phá văn bản (Chương 10) hoàn toàn có thể áp dụng ở đây—mặc dù ví dụ này không liên quan gì đến văn bản. Khi khai phá dữ liệu trên các tài liệu, chúng ta thường bỏ qua phần lớn cấu trúc của văn bản, chẳng hạn như trình tự của nó. Đối với nhiều vấn đề, chúng ta có thể chỉ cần coi mỗi tài liệu như một tập hợp các từ (word) từ một kho từ vựng lớn. Cách nghĩ tương tự cũng sẽ được áp dụng ở đây. Rõ ràng là có một cấu trúc nhất định đối với các vị trí mà một người ghé thăm, chẳng hạn như trình tự mà chúng được ghé thăm, nhưng đối với khai phá dữ liệu, chiến lược đơn giản nhất đầu tiên (simplest-first strategy) thường là tốt nhất. Hãy chỉ coi mỗi thiết bị là một “túi vị trí (bag of locations)”, tương tự như cách biểu diễn “túi từ (bag of words)” đã được thảo luận trong Chương 10.
Nếu chúng ta đang cố gắng tìm các phiên bản khác của cùng một người dùng, chúng ta có thể áp dụng các ý tưởng của TFIDF trong xử lý văn bản vào các vị trí của chúng ta. Các vị trí WiFi phổ biến (như Starbucks ở góc công viên Washington Square) thường không mang nhiều thông tin trong việc đo độ tương tự nhằm xác định cùng một người dùng trên các thiết bị khác nhau. Một vị trí như vậy sẽ nhận được điểm IDF thấp (hãy nghĩ “D” là viết tắt của “Device” thay vì “Document”). Ngược lại, các mạng WiFi tại nhà riêng thường ít thiết bị kết nối, do đó tính phân biệt cao. TFIDF sẽ khuếch đại tầm quan trọng của các vị trí này khi tính độ tương tự. Ở khoảng giữa, mạng WiFi văn phòng có thể nhận điểm IDF trung bình, phản ánh mức độ phân biệt vừa phải.
Bây giờ, nếu hồ sơ thiết bị của chúng ta là một biểu diễn TFIDF dựa trên túi vị trí, tương tự như việc sử dụng độ tương tự cho truy vấn tìm kiếm trong ví dụ về nhạc sĩ nhạc jazz ở Chương 10, chúng ta có thể tìm các thiết bị có độ tương tự cao nhất với thiết bị được xác định là một khách hàng tiềm năng tốt. Giả sử chiếc laptop của tôi là thiết bị được nhận diện là một khách hàng tiềm năng tốt. Laptop của tôi xuất hiện trên mạng WiFi tại nhà riêng và nơi làm việc. Các thiết bị khác được ghi nhận ở những nơi này gồm điện thoại và máy tính bảng của tôi, cùng với các thiết bị di động của vợ tôi và một vài người bạn và đồng nghiệp (nhưng lưu ý rằng các thiết bị này sẽ có điểm TF thấp tại một trong hai vị trí so với các thiết bị của tôi). Do đó, điện thoại và máy tính bảng của tôi có khả năng rất cao sẽ là những thiết bị tương tự nhất với thiết bị được xác định là khách hàng tiềm năng. Nếu nhà quảng cáo đã xác định laptop của tôi là đối tượng tiềm năng để hiển thị một quảng cáo cụ thể thì cách tiếp cận này cũng sẽ xác định điện thoại và máy tính bảng của tôi là những đối tượng phù hợp cho quảng cáo đó.
Ví dụ này không có ý nghĩa là một giải pháp dứt điểm cho vấn đề tìm kiếm người dùng tương ứng trên các thiết bị di động khác nhau, mà nó cho thấy việc có một bộ công cụ khái niệm sẽ hữu ích như thế nào trong việc suy nghĩ về một vấn đề hoàn toàn mới. Một khi những ý tưởng này được khái niệm hóa, các nhà khoa học dữ liệu sẽ đi sâu vào để tìm ra những gì thực sự hiệu quả và làm thế nào để cụ thể hóa và mở rộng các ý tưởng này, áp dụng nhiều khái niệm mà chúng ta đã thảo luận (chẳng hạn như làm thế nào để đánh giá các phương án triển khai).
(còn tiếp!)
Last updated