Phân tích dữ liệu

Bách khoa toàn thư mở Wikipedia
Bước tới: menu, tìm kiếm

Phân tích dữ liệu (tiếng Anh: analytics) là quá trình phát hiện, giải thích và truyền đạt các mô hình có ý nghĩa trong dữ liệu. Đặc biệt có giá trị trong các lĩnh vực có nhiều thông tin được ghi lại, phân tích dựa vào sự ứng dụng đồng thời của số liệu thống kê, lập trình máy tính và nghiên cứu hoạt động để định lượng hiệu suất.

Các tổ chức có thể áp dụng phân tích dữ liệu kinh doanh để mô tả, dự đoán và cải thiện hiệu suất kinh doanh. Cụ thể, các khu vực trong phân tích bao gồm phân tích dự đoán, phân tích theo quy tắc, quản lý quyết định doanh nghiệp, phân tích mô tả, phân tích nhận thức, phân tích bán lẻ, phân loại cửa hàng và tối ưu hoá lưu trữ đơn vị hàng hóa tồn kho, tối ưu hoá tiếp thị và các mô hình tiếp thị kết hợp, phân tích web, phân tích cuộc gọi, phân tích giọng nói, nhân lực bán hàng và tối ưu hoá, mô hình định giá bán và khuyến mãi, khoa học dự đoán, phân tích rủi ro tín dụng và phân tích gian lận. Vì phân tích có thể yêu cầu tính toán rộng (xem dữ liệu lớn), các thuật toánphần mềm được sử dụng cho phân tích khai thác các phương pháp hiện đại nhất trong khoa học máy tính, thống kêtoán học.[1]

Phân tích dữ liệu khác với Phân tích nói chung[sửa | sửa mã nguồn]

Phân tích dữ liệu (Analytics) mang tính đa ngành. Các phương pháp toán học, thống kê, kỹ thuật mô tả và mô hình dự báo được sử dụng rộng rãi nhằm thu thập những hiểu biết có giá trị từ dữ liệu. Những hiểu biết sâu sắc từ dữ liệu được sử dụng để đề xuất hành động hoặc hướng dẫn ra quyết định trong bối cảnh kinh doanh. Vì vậy, phân tích dữ liệu (analytics) không quá tập trung vào các bước phân tích đơn lẻ nói chung (analysis) mà tập trung vào toàn bộ phương pháp.

Hiện đang có một thiên hướng sử dụng thuật ngữ 'analytics' trong môi trường kinh doanh, ví dụ như 'text analytics' (phân tích văn bản) khác với 'text mining' (khai thác văn bản) để nhấn mạnh góc độ rộng hơn này. Thuật ngữ 'phân tích nâng cao' cũng được sử dụng ngày càng rộng rãi, điển hình là trong các khía cạnh kỹ thuật của phân tích dữ liệu, đặc biệt trong các lĩnh vực mới nổi, chẳng hạn ứng dụng kỹ thuật 'máy học' như mạng lưới thần kinh (neural networks) cho việc làm mô hình dự báo.

Ứng dụng của Phân tích dữ liệu[sửa | sửa mã nguồn]

Tối ưu hóa marketing[sửa | sửa mã nguồn]

Marketing đã tiến hóa từ một quy trình sáng tạo thành một quy trình phụ thuộc chặt chẽ với dữ liệu. Các tổ chức marketing sử dụng phân tích dữ liệu nhằm xác định kết quả của các chiến dịch và nỗ lực marketing and hướng dẫn quyết định đầu tư cũng như định vị mục tiêu khách hàng. Nghiên cứu nhân khẩu học, xác định phân khúc khách hàng, phân tích kết hợp và các kỹ thuật khác cho phép người làm marketing sử dụng những khối lượng dữ liệu lớn về mua hàng tiêu dùng, khảo sát và nhóm để hiểu và truyền đạt chiến lược marketing.

Phân tích web cho phép những người làm marketing thu thập thông tin về phiên truy cập và tương tác trên các trang web. Google Analytics là một ví dụ điển hình của công cụ miễn phí và phổ thông của mục đích này. Các tương tác này cung cấp cho hệ thống phân tích dữ liệu web những thông tin cần thiết để theo dõi nguồn giới thiệu, tìm kiếm từ khóa, xác định địa chỉ IP, theo dõi hoạt động của khách tới thăm. Với những thông tin này, người làm marketing có thể cải thiện các chiến dịch marketing, nội dung sáng tạo trên website và kiến trúc thông tin của trang web.

Các kỹ thuật phân tích thường sử dụng trong marketing bao gồm mô hình marketing hỗn hợp, phân tích định giá và chiết khấu, tối ưu hóa lực lượng bán hàng và phân tích khách hàng (như xác định phân khúc). Phân tích web và tối ưu hóa trang web và các chiến dịch trực tuyến ngày nay thường kết hợp chặt chẽ với các kỹ thuật phân tích marketing truyền thống. Ảnh hưởng của truyền thông kỹ thuật số cũng tạo ra một số thay đổi về các thuật ngữ, do đó mô hình marketing hỗn hợp cũng thường được tham chiếu tới mô hình phân phối trong ngữ cảnh kỹ thuật số hoặc marketing hỗn hợp.

Các công cụ và kỹ thuật này hỗ trợ cả về các quyết định chiến lược marketing (như dành tổng cộng bao nhiêu ngân sách cho marketing, phân bố ngân sách cho các nhãn hàng và marketing hỗn hợp như thế nào) và về các chiến thuật để định vị khách hàng tiềm năng nhất với thông điệp tối ưu, bằng phương pháp hiệu quả chi phí nhất trong một thời gian lý tưởng.

Phân tích dữ liệu con người[sửa | sửa mã nguồn]

Ứng dụng này của phân tích dữ liệu hỗ trợ các công ty quản lý về mặt nhân sự, với mục tiêu là lựa chọn những nhân viên nào để tuyển dụng, khen thưởng hoặc thăng cấp, giao nhiệm vụ gì và các vấn đề nhân sự khác. Ví dụ, một phân tích có thể cho thấy rằng những cá nhân với một kiểu lý lịch nhất định sẽ có nhiều khả năng thành công ở một vị trí cụ thể nào đó, do đó họ là những người phù hợp nhất nên được tuyển dụng. Phân tích nhân sự đang trở nên ngày càng quan trọng để hiểu rõ những hồ sơ với kiểu hành vi nào sẽ thành công hay thất bại. Trong khi phân tích con người được áp dụng cho các nhân viên trong một tổ chức, các kỹ thuật xác định phân khúc khách hàng lại được sử dụng để nghiên cứu hồ sơ khách hàng và phát hiện những khách hàng tiềm năng nhất của thị trường.

Phân tích dữ liệu danh mục[sửa | sửa mã nguồn]

Một ứng dụng phổ biến của phân tích dữ liệu kinh doanh là phân tích danh mục. Trong đó, một ngân hàng hoặc tổ chức cho vay có một tập hợp các tài khoản khách hàng với nhiều biến số về giá trị và rủi ro. Các khách hàng này có thể khác nhau về địa vị xã hội (giàu có, trung lưu hoặc nghèo, v.v...), vị trí địa lý, giá trị ròng và các yếu tố khác. Người cho vay phải cân bằng giữa lợi nhuận thu được trên khoản vay với rủi ro vỡ nợ cho từng khoản vay. Câu hỏi đặt ra là làm thế nào để đánh giá được danh mục một cách tổng thể.

Khoản vay ít rủi ro nhất có thể là cho những đối tượng rất giàu có, nhưng có rất ít đối tượng thuộc loại này. Mặt khác, có rất nhiều người nghèo có thể cho vay, tất nhiên là với rủi ro lớn hơn. Một vài số dư cần phải giới hạn nhằm tối ưu hóa lợi nhuận và tối thiểu hóa rủi ro. Giải pháp phân tích dữ liệu có thể kết hợp phân tích chuỗi thời gian với nhiều vấn đề khác để đưa ra quyết định về việc khi nào nên cho vay với từng nhóm phân khúc khách hàng, hoặc quyết định về mức lãi suất cho từng đối tượng trong phân khúc danh mục để bù đắp tổn thất từ toàn thể đối tượng trong danh mục đó.

Phân tích dữ liệu rủi ro[sửa | sửa mã nguồn]

Các mô hình dự báo trong ngành ngân hàng được phát triển nhằm đưa ra sự chắc chắn cho chỉ số rủi ro của từng khách hàng riêng lẻ. Chỉ số tín dụng được xây dựng để dự báo hành vi phạm pháp của các cá nhân và được sử dụng rộng rãi để đánh giá mức tín dụng xứng đáng của người nộp hồ sơ vay vốn.

Bên cạnh đó, phân tích rủi ro được thực hiện trong khoa học và lĩnh vực bảo hiểm. Nó cũng được dùng rộng rãi trong các tổ chức tài chính như các công ty về cổng thanh toán trực tuyến để phân tích xem một giao dịch là có thực hay gian lận bằng việc sử dụng lịch sử giao dịch của khách hàng. Ứng dụng này được dùng rộng rãi hơn trong mua hàng thanh toán bằng thẻ tín dụng, ví dụ khi có sự tăng đột biến trong khối lượng giao dịch của một khách hàng, khách hàng đó sẽ nhận được cuộc gọi để xác nhận giao dịch đó có phải được khởi tạo bởi họ hay không. Ứng dụng này sẽ giúp giảm thiểu tổn thất trong những trường hợp kể trên.

Phân tích dữ liệu kỹ thuật số[sửa | sửa mã nguồn]

Phân tích dữ liệu kỹ thuật số là một nhóm các hoạt động kinh doanh và kỹ thuật nhằm xác định, khởi tạo, thu thập, xác minh hay chuyển đổi dữ liệu kỹ thuật số thành báo cáo, nghiên cứu, phân tích, đề xuất, tối ưu hóa, dự báo hoặc tự động hóa. Ứng dụng này cũng bao gồm SEO (Search Engine Optimization - Tối ưu hóa công cụ tìm kiếm) trong đó các tìm kiếm từ khóa được theo dõi và trở thành dữ liệu được sử dụng cho mục đích marketing. Thậm chí các banner quảng cáo và lần nhấp chuột cũng thuộc phân tích dữ liệu kỹ thuật số. Ngày càng có nhiều công ty về marketing và thương hiệu phụ thuộc vào phân tích dữ liệu kỹ thuật số cho công việc marketing kỹ thuật số của họ, trong đó MROI (Marketing Return On Investment - lợi nhuận marketing từ đầu tư) là một chỉ số hoạt động quan trọng.

Phân tích dữ liệu an ninh[sửa | sửa mã nguồn]

Phân tích dữ liệu an ninh có liên quan đến công nghệ thông tin, nhằm thu thập và phân tích các sự kiện an ninh để tìm ra những yếu tố nào mang tới rủi ro lớn nhất. Sản phẩm trong lĩnh vực này bao gồm quản lý bảo mật thông tin - sự kiện và phân tích dữ liệu hành vi người dùng.

Phân tích dữ liệu phần mềm[sửa | sửa mã nguồn]

Phân tích dữ liệu phần mềm là quá trình thu thập và phân tích thông tin về cách thức một phần mềm được sản xuất và sử dụng như thế nào.

Thách thức[sửa | sửa mã nguồn]

Trong lĩnh vực phần mềm phân tích dữ liệu thương mại, một sự nhấn mạnh đang dấy lên về vấn đề giải quyết những thách thức trong phân tích những tập dữ liệu cực lớn và phức tạp, thường khi dữ liệu này ở trong trạng thái thay đổi liên tục. Những tập dữ liệu như thế thường được đề cập đến dưới dạng dữ liệu lớn. Trong khi trước đây những vấn đề phát sinh bởi dữ liệu lớn chỉ xuất hiện trong cộng đồng khoa học, dữ liệu lớn ngày nay đã trở thành một vấn đề cho nhiều doanh nghiệp vận hành hệ thống giao dịch trực tuyến sản sinh ra khối lượng dữ liệu lớn một cách nhanh chóng.

Phân tích các loại dữ liệu phi cấu trúc là một thách thức khác đang thu hút sự chú ý. Dữ liệu phi cấu trúc khác với dữ liệu có cấu trúc ở chỗ định dạng của nó biến đổi đa dạng và không thể lưu trữ được trong các cơ sở dữ liệu quan hệ thông thường nếu không có sự nỗ lực lớn trong việc chuyển hóa dữ liệu. Các nguồn dữ liệu phi cấu trúc, như thư điện tử, nội dung văn bản, PDFs, không gian địa lý dữ liệu, ... đang trở thành nguồn phù hợp cho phân tích kinh doanh (business intelligence) của các doanh nghiệp, chính phủ và trường đại học. Ví dụ, ở Anh một phát hiện ra một công ty buôn bán trái phép ghi chú gian lận của bác sĩ để tiếp tay cho nhân viên gian lận với chủ doanh nghiệp và công ty bảo hiểm của họ đã giúp các công ty bảo hiểm nâng cao cảnh giác cho việc phân tích dữ liệu phi cấu trúc. Viện nghiên cứu toàn cầu của McKinsey ước tính việc phân tích dữ liệu lớn có thể giúp hệ thống y tế của nước Mỹ tiết kiệm được khoảng 300 tỷ USD mỗi năm và khu vực công châu Âu khoảng 250 tỷ Euro mỗi năm.

Những thách thức đang là động lực cho việc đổi mởi hệ thống thông tin phân tích dữ liệu hiện đại, cho ra đời nhiều khái niệm phân tích máy mới như xử lý sự kiện phức tạp (complex event processing), tìm kiếm và phân tích văn bản toàn bộ, và nhiều ý tưởng mới về cách thức trình bày. Một trong những đổi mới đó là mở đầu của kiến trúc dạng lưới trong phân tích máy, cho phép tăng tốc độ khả năng xử lý song song ồ ạt bằng cách phân phối khối lượng công việc cho nhiều máy tính với quyền truy cập bình đẳng tới toàn bộ tập dữ liệu.

Phân tích dữ liệu đang được sử dụng ngày càng nhiều trong giáo dục, đặc biệt ở các văn phòng cấp huyện và trung ương. Mặc dù vậy, mức độ phức tạp trong việc theo dõi kết quả của học sinh đưa ra những thách thức khi các nhà giáo dục cố gắng hiểu và sử dụng phân tích dữ liệu để phân biệt các kiểu mẫu kết quả, dự báo khả năng tốt nghiệp, nâng khả năng thành công của học sinh...Ví dụ, trong một nghiên cứu của các quận mạnh về sử dụng dữ liệu, 48% giáo viên gặp phải khó khăn trong việc đưa ra câu hỏi được thúc đẩy bằng dữ liệu, 36% không hiểu dữ liệu được cung cấp, và 52% hiểu và dịch sai về dữ liệu. Để đối phó với vấn đề này, một vài công cụ phân tích dữ liệu cho các nhà giáo dục tuân theo định dạng dữ liệu trực tiếp (nhúng nhãn, tài liệu ghi chép bổ sung, và một hệ thống trợ giúp, tạo ra hiện thị và các quyết định nội dung quan trọng) để cải thiện hiểu biết và khả năng sử dụng công cụ phân tích được hiển thị của các nhà giáo dục.

Thêm một thách thức đang phát sinh đó là nhu cầu quản lý năng động. Ví dụ, trong ngành ngân hàng, Basel III và các yêu cầu đảm bảo vốn trong tương lai nhiều khả năng sẽ khiến các ngân hàng nhỏ hơn phải sử dụng các mô hình rủi ro nội bộ. Trong những trường hợp đó, điện toán đám mây và ngôn ngữ lập trình mã nguồn mở R có thể giúp các ngân hàng nhỏ đưa vào sử dụng phân tích dữ liệu rủi ro và hỗ trợ cấp chi nhánh quản lý bằng việc áp dụng phân tích dữ liệu dự báo.

Các rủi ro[sửa | sửa mã nguồn]

Rủi ro chính cho con người là sự phân biệt đối xử, như phân biệt giá và phân biệt thống kê (Tham khảo đánh giá sách "Weapons of math destruction" của Hiệp hội khoa học Mỹ)

Ngoài ra còn có rủi ro là một nhà phát triển có thể hưởng lợi từ ý tưởng và kết quả làm việc từ người dùng, ví dụ như: Người dùng có thể viết các ý tưởng mới trong một ứng dụng ghi chép, dữ liệu này sau đó có thể được gửi đi dưới dạng sự kiện tùy chỉnh, nhờ đó các nhà phát triển có thể biết và hưởng lợi từ những ý tưởng này. Việc này xảy ra bởi quyền sở hữu nội dung thường không rõ ràng theo luật.

Nếu nhận dạng của một người dùng không được bảo vệ, sẽ có những rủi ro khác, ví dụ thông tin cá nhân của người dùng có thể bị công khai lên mạng internet.

Trường hợp cực đoan nhất, có thể có rủi ro chính phủ có thể tthu thập quá nhiều thông tin riêng tư của các cá nhân và tự cho mình quyền truy cập vào thông tin của công dân.

Tham khảo[sửa | sửa mã nguồn]

  1. ^ Kohavi, Rothleder and Simoudis (2002). “Emerging Trends in Business Analytics”. Communications of the ACM 45 (8): 45–48. doi:10.1145/545151.545177.