Khám Phá Thuật Toán K-Means Clustering: Phân Tích và Ứng Dụng Thực Tế

27/06/2025    29    5/5 trong 2 lượt 
Khám Phá Thuật Toán K-Means Clustering: Phân Tích và Ứng Dụng Thực Tế
K-Means Clustering là một kỹ thuật phổ biến trong học máy để phân cụm dữ liệu. Bài viết này sẽ khám phá định nghĩa, cách hoạt động, cách chọn số cụm, cũng như phân tích các ưu nhược điểm của K-Means. Chúng ta cũng sẽ xem xét sự khác biệt so với các phương pháp khác như DBSCAN và ứng dụng K-Means trong thực tế, đặc biệt với Python.

K-Means Clustering là gì

K-Means Clustering là một trong những thuật toán phân cụm phổ biến nhất trong phân tích dữ liệuhọc máy. Nhiệm vụ chính của nó là phân chia một tập dữ liệu gồm n quan sát thành k cụm, sao cho mỗi quan sát thuộc về cụm có trung tâm (centroid) gần nhất. Trung tâm này đại diện bằng giá trị trung bình của tất cả các điểm trong cụm và được tối ưu hóa liên tục để giảm thiểu sự khác biệt giữa các điểm trong cùng cụm.

Thẩm định K-Means Clustering trong số các phương pháp phân cụm khác, ta có thể nhận thấy sự đơn giản, mạnh mẽ và khả năng mở rộng của nó. Các ứng dụng thực tế của K-means rất phong phú, từ phân đoạn hình ảnh cho đến nhận dạng mẫu. Không chỉ vậy, thuật toán này còn rất phổ biến trong ngành tiếp thị để phân loại khách hàng thành các phân khúc khác nhau dựa trên dữ liệu hành vi của họ.

Việc lựa chọn số lượng cụm k là một yếu tố quan trọng trong quá trình phân cụm. Một trong những phương pháp phổ biến để xác định giá trị tối ưu của kElbow Method. Phương pháp này liên quan đến việc thực hiện K-means với nhiều giá trị k khác nhau và tính toán tổng bình phương sai sót trong cụm. Dựa trên kết quả, ta có thể tìm ra điểm uốn (elbow point), nơi mà tăng thêm cụm không làm giảm đáng kể sai số, và đó là số cụm tối ưu.

Trong môi trường Python, thư viện sklearn cung cấp một triển khai dễ sử dụng của K-Means Clustering. Đây là công cụ đắc lực cho những người mới học cũng như các chuyên gia muốn nhanh chóng triển khai và thử nghiệm thuật toán trên các bộ dữ liệu lớn. Điểm mạnh của K-Means là khả năng thực hiện phân cụm không giám sát, nghĩa là không cần bất kỳ dữ liệu nào được gán nhãn trước, và điều này mở ra khả năng áp dụng cho nhiều loại dữ liệu thực tế không đồng nhất.

Ưu điểm lớn của K-Means là tính toán không đòi hỏi tài nguyên lớn và dễ dàng mở rộng lên dữ liệu lớn. Tuy nhiên, nó cũng có những hạn chế, như dễ bị ảnh hưởng bởi giá trị ban đầu của các cụm và không hoạt động tốt với các dữ liệu hình dạng phức tạp. So với phương pháp DBSCAN, K-Means dễ hiểu và thực hiện hơn nhưng không linh hoạt trong việc xử lý các cụm có hình dạng tự do và khác nhau về mật độ.

Nguyên lý hoạt động của K-Means

Nguyên lý cơ bản của K-Means là tối thiểu hóa khoảng cách bình phương giữa từng điểm dữ liệu và trung tâm cụm tương ứng. Để hiểu rõ hơn về quá trình này, chúng ta sẽ xem xét từng bước cụ thể trong thuật toán. Đầu tiên, k trung tâm được chọn ngẫu nhiên từ các điểm dữ liệu. Sau đó, mỗi điểm dữ liệu được gán vào cụm mà trung tâm của nó gần nhất với điểm đó.

Cần lưu ý rằng trung tâm cụm không cố định mà được cập nhật liên tục. Sau khi tất cả các điểm dữ liệu được gán vào cụm, trung tâm của mỗi cụm được tính toán lại dưới dạng trung bình của tất cả các điểm hiện có trong cụm đó. Quá trình gán điểm và cập nhật trung tâm này lặp đi lặp lại cho đến khi các trung tâm không còn thay đổi đáng kể qua các vòng lặp, cho thấy sự hội tụ về một cấu trúc cụm ổn định.

Một trong những thách thức của K-Means là dễ bị kẹt vào tối ưu cục bộ, nơi mà cấu trúc cụm đạt được không phải là cấu trúc tốt nhất toàn cầu. Để giảm thiểu điều này, người ta thường chạy thuật toán nhiều lần với các trung tâm khởi động khác nhau và chọn giải pháp có giá trị hàm mục tiêu nhỏ nhất. Một số cải tiến như K-Means++ cũng được phát triển để cải thiện việc chọn trung tâm ban đầu, giúp tăng khả năng hội tụ đến tối ưu toàn cục hơn và giảm số lần lặp.

Các bước cải tiến này góp phần nâng cao hiệu quả của thuật toán, đặc biệt là khi áp dụng vào các dataset lớn và phức tạp. Dù vậy, việc chọn lựa số lượng cụm k vẫn là một trong những thách thức lớn, và cần phải được đánh giá cẩn thận thông qua các phương pháp định lượng và phân tích dữ liệu thực nghiệm.


Nguyên lý hoạt động của K-Means

K-Means là một thuật toán phân cụm phổ biến trong học máy, được sử dụng để phân loại các điểm dữ liệu dựa trên nguyên tắc khoảng cách. Ở phần này, chúng ta sẽ đi sâu vào cơ chế hoạt động của K-Means cũng như quá trình hội tụ của nó về tối ưu cục bộ.

Để bắt đầu với K-Means, thuật toán sẽ chọn ngẫu nhiên k điểm làm trung tâm cụm (centroid). Đây là bước rất quan trọng vì nó sẽ ảnh hưởng tới tốc độ cũng như chất lượng hội tụ của thuật toán. Thông thường, việc lựa chọn này là hoàn toàn ngẫu nhiên, tuy nhiên có các kỹ thuật như k-means++ đã được đề xuất để cải thiện độ chính xác của việc chọn lựa ban đầu.

Sau khi chọn trung tâm ban đầu, mỗi điểm dữ liệu sẽ được gán vào một trong số k cụm dựa trên khoảng cách ngắn nhất của điểm đó tới các trung tâm cụm. Khoảng cách thường được tính toán dựa trên khoảng cách Euclid.

Tiếp theo, trung tâm của mỗi cụm sẽ được tính lại bằng cách lấy trung bình các điểm dữ liệu hiện tại trong cụm. Đây là bước cập nhật trung tâm cụm, và nó sẽ tiếp tục lặp đi lặp lại cho đến khi trung tâm cụm không còn thay đổi, hoặc là sự thay đổi đó nằm trong ngưỡng nhỏ chấp nhận được, gọi là sự hội tụ.

Cụ thể hơn, các bước có thể được tóm tắt như sau:

Lựa chọn ngẫu nhiên k điểm để làm trung tâm. Gán mỗi điểm dữ liệu vào trung tâm gần nhất. Cập nhật trung tâm cụm bằng cách tính trung bình các điểm trong cụm. Lặp lại quá trình gán và cập nhật cho đến khi trung tâm cụm ổn định.

Trong quá trình hội tụ, thuật toán K-Means có thể đạt tới tối ưu cục bộ, tức là không đảm bảo sẽ tìm thấy tối ưu toàn cục cho tất cả các trường hợp. Điều này do bị ảnh hưởng bởi lựa chọn điểm khởi tạo ban đầu.

Một số cải tiến nhằm nâng cao hiệu quả của K-Means bao gồm việc sử dụng khởi tạo k-means++ để lựa chọn thông minh các centroid ban đầu, hay việc áp dụng các phiên bản mở rộng như MiniBatch k-means để xử lý dữ liệu lớn hơn nhanh chóng.

Khi áp dụng K-Means trong thực tế, việc hiểu nguyên lý hoạt động và khả năng hội tụ là điều rất quan trọng. Điều này không chỉ giúp chúng ta cải thiện hiệu suất mà còn tối ưu hóa khả năng định hình dữ liệu của thuật toán, từ đó mang lại kết quả phân cụm sát thực tế nhất.

Một khía cạnh đáng lưu ý nữa là làm thế nào để chọn số lượng cụm k một cách hợp lý, điều này sẽ được thảo luận chi tiết trong phần tiếp theo của bài viết. Các phương pháp nổi tiếng như Elbow Method sẽ cung cấp công cụ hỗ trợ trong việc tìm ra giá trị k tối ưu.


Cách chọn số lượng cụm K

Việc chọn số lượng cụm K là một bước quan trọng trong quá trình thực hiện phân cụm bằng thuật toán K-Means. Một trong những phương pháp phổ biến nhất được sử dụng để xác định số lượng cụm K tối ưu là phương pháp Elbow. Đây là một phương pháp trực quan hóa đơn giản nhưng hiệu quả, giúp người dùng dễ dàng xác định mức K thích hợp.

Phương pháp Elbow liên quan đến việc tính toán và vẽ biểu đồ tổng sai số bình phương trong cụm (Within-Cluster-Sum of Squares - WCSS) cho các giá trị khác nhau của K. Khi biểu đồ được vẽ, bạn sẽ quan sát thấy rằng tổng WCSS có xu hướng giảm khi K tăng lên. Tuy nhiên, sẽ có một điểm mà việc giảm WCSS sẽ bắt đầu chậm lại đáng kể. Điểm này, nơi mà tốc độ giảm đáng kể chậm lại (tạo thành hình dạng khuỷu trên đồ thị), được xem là số K tối ưu.

Việc áp dụng phương pháp Elbow không chỉ đơn giản là xác định điểm khuỷu trên đồ thị. Người sử dụng cần phải tự mình quyết định dựa trên kiến thức và hiểu biết về dữ liệu và ngữ cảnh cụ thể. Có một số trường hợp mà phương pháp Elbow có thể không cung cấp được một điểm khuỷu rõ ràng, dẫn đến khó khăn trong việc quyết định số lượng cụm K.

Một hạn chế đáng chú ý của phương pháp Elbow là nó chỉ mang tính chất hướng dẫn và không tuyệt đối. Đối với dữ liệu phức tạp, phương pháp này có thể đưa ra nhiều điểm khuỷu, hoặc thậm chí không có một điểm rõ ràng nào. Điều này dẫn đến việc người dùng phải cân nhắc các yếu tố khác để chọn số lượng K chính xác.

Các phương pháp thay thế có thể bao gồm việc sử dụng tiêu chuẩn xác suất lý thuyết hoặc phân tích silhouette scores. Phân tích silhouette scores cung cấp một liên hệ mạnh mẽ hơn về mật độ và khoảng cách giữa các cụm, và đôi khi có thể xác định số cụm K một cách rõ ràng hơn.

Silhouette scores đo lường làm thế nào mỗi điểm dữ liệu là gần với điểm trong cụm của nó so với điểm trong các cụm liền kề. Chỉ số này dao động từ -1 đến 1, với giá trị cao hơn báo hiệu một cụm rõ ràng hơn. Giá trị gần 0 báo hiệu rằng điểm dữ liệu có thể nằm giữa hai cụm liền kề.

Trong một ví dụ thực tế, khi áp dụng K-Means vào phân khúc khách hàng cho một công ty bán lẻ, việc chọn số cụm K là rất quan trọng để đảm bảo sự chính xác và hiệu quả của phân tích. Công ty cần phân tích các nhóm khách hàng có hành vi mua sắm tương tự để tối ưu hóa chiến lược tiếp thị và dịch vụ khách hàng. Một điểm khuỷu rõ ràng trên đồ thị Elbow có thể giúp xác định số cụm tối ưu, nhưng công ty cũng có thể sử dụng phân tích silhouette để bổ sung cho quyết định của mình.

Như vậy, dù phương pháp Elbow mang lại nhiều lợi ích, việc kết hợp nó với các phương pháp khác như silhouette scores giúp đảm bảo độ tin cậy hơn trong việc xác định số cụm K. Đặc biệt với dữ liệu phức tạp, sự kết hợp này thường cần thiết để tìm ra giá trị K hợp lý nhất. Việc chọn số cụm K chính xác là một bước không thể thiếu để đạt được kết quả phân cụm hiệu quả và có ý nghĩa trong thực tiễn.


Khi nào nên dùng K-Means

K-Means là một trong những thuật toán phân cụm phổ biến nhất vì nhiều lý do, nhưng nó không phải là giải pháp cho tất cả các vấn đề phân tích dữ liệu khác nhau. Trong nhiều trường hợp, K-Means trở thành lựa chọn tối ưu khi các điều kiện nhất định về dữ liệu và yêu cầu phân cụm được thỏa mãn.

Đầu tiên, một trong những tình huống lý tưởng để áp dụng K-Means là khi dữ liệu có độ đồng nhất về hình dạng và kích thước các cụm. Điều này có nghĩa là dữ liệu nên được phân phối xung quanh các trung tâm cụm trong không gian đa chiều một cách đồng đều. Độ đồng nhất này sẽ khiến quá trình hội tụ của thuật toán K-Means nhanh hơn và kết quả phân cụm rõ ràng, chính xác hơn.

Ứng Dụng Thực Tiễn của K-Means: Phân Đoạn Khách Hàng

Một ví dụ điển hình khi K-Means được sử dụng thành công là trong phân đoạn khách hàng. Trong lĩnh vực này, người quản lý dữ liệu thường có dữ liệu khách hàng rất phong phú dựa trên hành vi mua hàng, địa điểm địa lý và các thuộc tính nhân khẩu khác. Công việc của họ là nhóm các khách hàng thành những cụm mà mỗi cụm thể hiện một phân khúc thị trường riêng biệt với các đặc điểm hành vi đặc trưng.

K-Means giúp tạo ra các cụm khách hàng có tính chất tương đồng cao, hỗ trợ các chiến lược marketing mục tiêu và quản lý khách hàng hiệu quả. Ngoài ra, việc xác định các cụm khách hàng cũng có thể hỗ trợ trong việc phát triển sản phẩm mới và tối ưu hóa chiến lược định giá.

Những Hạn Chế Khi Sử Dụng K-Means

Tuy nhiên, K-Means cũng có những hạn chế rõ rệt. Đặc biệt khi dữ liệu không tuân theo cấu trúc hình cầu đơn giản và các cụm có kích thước hoặc mật độ khác nhau. Trong những tình huống này, K-Means có thể bị nhầm lẫn và không cung cấp kết quả chính xác hoặc có thể hội tụ vào kết quả sai lệch.

Ví dụ, khi làm việc với dữ liệu có hình dạng phức tạp hơn, như các đường cong hoặc hình dạng bất định, các thuật toán như DBSCAN hay Gaussian Mixtures có thể được ưu tiên nhờ khả năng của chúng trong việc xử lý các mẫu dữ liệu không đồng nhất.

Kết Hợp Các Thuật Toán Khác

Để khắc phục những hạn chế, các nhà khoa học dữ liệu thường kết hợp K-Means với các phương pháp khác để cải thiện độ chính xác và hiệu quả. Ví dụ, việc khởi động bằng Gaussian Mixtures giúp cải thiện điểm bắt đầu của K-Means, hoặc sử dụng DBSCAN để xác định các mẫu dữ liệu bất thường trước khi áp dụng K-Means để tối ưu hóa kết quả phân cụm.

Kết Luận về Ứng Dụng K-Means

Trong môi trường lý tưởng, nơi dữ liệu thể hiện đặc điểm đồng nhất và có hình dạng đơn giản, K-Means là một lựa chọn tuyệt vời do tính đơn giản và tốc độ xử lý nhanh chóng. Tuy nhiên, trong những trường hợp phức tạp hơn, khi dữ liệu không đồng nhất hoặc có nhiều nhiễu, sự kết hợp với các thuật toán khác nên được cân nhắc để đảm bảo kết quả chính xác và hợp lý.

Cùng với các phương pháp xác định số lượng cụm hợp lý như Elbow và Silhouette, K-Means vẫn chứng minh sức mạnh vượt trội trong nhiều bài toán phân cụm dữ liệu phức tạp.


Ưu nhược điểm của K-Means

K-Means Clustering là một trong những thuật toán phân cụm phi giám sát cơ bản và phổ biến nhất với nhiều ưu điểm, nhờ vào tính đơn giản và khả năng xử lý nhanh chóng. K-Means hoạt động hiệu quả nhất khi áp dụng cho các vấn đề phân cụm với dữ liệu lớn, giúp phân tích và quản lý dữ liệu một cách dễ dàng hơn.

Một trong những ưu điểm lớn nhất của K-Means là tốc độ. Thuật toán này thực thi nhanh chóng, đặc biệt là với dữ liệu khổng lồ, vì tính toán của nó chủ yếu dựa trên phép tính khoảng cách đơn giản giữa các điểm dữ liệu và trọng tâm cụm. Ngoài ra, điều này giúp K-Means dễ hiểu và dễ triển khai, ngay cả đối với những người mới bắt đầu tìm hiểu về học máy.

Tuy nhiên, thuật toán K-Means cũng gặp phải một số nhược điểm cần lưu ý. Một trong số đó là sự nhạy cảm với các điểm khởi đầu ban đầu. Thuật toán yêu cầu xác định trước số lượng cụm (K), và vị trí khởi đầu của các trọng tâm cụm có thể ảnh hưởng lớn đến kết quả cuối cùng. Nếu các trọng tâm được chọn kém hoặc bị ảnh hưởng bởi dữ liệu bất thường (outliers), điều này có thể dẫn đến kết quả không đúng.

Thêm vào đó, K-Means chủ yếu hoạt động tốt với các cụm hình cầu. Nếu dữ liệu có hình dạng đa dạng hoặc các cụm có kích thước đáng kể khác nhau, độ chính xác của K-Means có thể bị giảm đi đáng kể. Điều này giới hạn khả năng ứng dụng của K-Means đối với các tập dữ liệu phức tạp hơn thường thấy trong các lĩnh vực như phân tích ảnh hoặc sinh học.

Để khắc phục những hạn chế này, nhiều nhà nghiên cứu đã đề xuất các phương pháp cải tiến hoặc kết hợp K-Means với các thuật toán khác. Một biện pháp cải thiện đáng chú ý là phương pháp Elbow, giúp lựa chọn số lượng cụm K tối ưu dựa trên việc phân tích đường cong hiệu quả.

Thêm vào đó, việc sử dụng các biến thể của K-Means như K-Means++ để cải thiện việc chọn điểm khởi đầu một cách thông minh hơn, giúp ngăn ngừa tình trạng rơi vào cực trị cục bộ và giảm ảnh hưởng tiêu cực từ các outliers. K-Means++ khởi động với việc chọn điểm trọng tâm đầu tiên ngẫu nhiên, sau đó chọn các điểm tiếp theo dựa trên phân phối xác suất tính theo khoảng cách bình phương. Cách tiếp cận này giúp phân cụm kết quả ổn định hơn và chính xác hơn so với K-Means chuẩn.

Thực tế, kết hợp K-Means với các phương pháp khác như DBSCAN có thể giúp khắc phục một số hạn chế của K-Means. DBSCAN hoạt động tốt với dữ liệu có cấu trúc phức tạp và có khả năng phát hiện các cụm với định dạng bất kỳ mà không cần xác định số lượng cụm trước. Khi kết hợp cả hai, K-Means có thể được sử dụng để phát hiện các cụm lớn và rõ ràng, trong khi DBSCAN giải quyết các cụm có hình dạng không đồng đều.

Những cải tiến và kết hợp này đã giúp K-Means trở nên linh hoạt hơn, mở rộng khả năng ứng dụng của nó trong nhiều lĩnh vực khác nhau. Trong thực tế, người làm dữ liệu thường thử nghiệm nhiều phương pháp khác nhau và tạo ra các thuật toán tổ hợp để tối ưu hóa kết quả phân cụm theo nhu cầu cụ thể của bài toán họ đang giải quyết.

Để minh họa, một tình huống thực tế mà K-Means có thể không phải là lựa chọn lý tưởng là khi xử lý dữ liệu thị trường có các cụm khách hàng với hình dạng và kích thước khác nhau. Trong trường hợp này, sự kết hợp của K-Means với các kỹ thuật phân cụm khác có thể cải thiện tính hiệu quả và độ chính xác của việc phân đoạn khách hàng, từ đó mở rộng cơ hội phát triển kinh doanh.


Ứng dụng thực tế của K-Means và Ví dụ minh họa bằng Python

K-Means là một công cụ mạnh mẽ trong việc phân tích và phân đoạn dữ liệu, ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau. Từ tài chính đến tiếp thị, từ phân tích hình ảnh đến lĩnh vực sinh học, K-Means đã chứng tỏ sức mạnh của mình trong việc xử lý và phân tích dữ liệu hiệu quả.

Trong lĩnh vực tài chính, K-Means được ứng dụng để phân cụm khách hàng dựa trên hành vi chi tiêu, từ đó tạo ra các chiến lược tiếp thị nhắm mục tiêu rõ ràng hơn, hoặc để phân tích rủi ro tín dụng. Trong tiếp thị, việc phân tích phân khúc khách hàng giúp các doanh nghiệp hiểu rõ hơn về đối tượng mục tiêu của mình và tối ưu hóa các chiến dịch quảng cáo.

Trong phân tích hình ảnh, K-Means giúp phát hiện các mẫu hình học và giảm kích thước dữ liệu hình ảnh, hỗ trợ trong công cụ tìm kiếm hình ảnh và nhận dạng đối tượng. Trong lĩnh vực sinh học, thuật toán này có thể giúp phân loại các loại tế bào hoặc phân tích các mẫu gen.

Để hiểu rõ hơn về cách triển khai K-Means thực tế, chúng ta hãy xem xét một ví dụ cụ thể bằng ngôn ngữ Python, sử dụng thư viện scikit-learn, một công cụ mạnh mẽ dành cho học máy.

Đầu tiên, ta cần chuẩn bị dữ liệu. Giả sử chúng ta có dữ liệu khách hàng và muốn phân đoạn khách hàng thành từng nhóm dựa trên các thuộc tính như thu nhập và chi tiêu hàng năm.

    
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

# Tạo dữ liệu mẫu
data = {
    'Thu nhập hàng năm': [15, 16, 17, 18, 19, 20, 21, 22, 23, 24],
    'Chi tiêu hàng năm': [39, 81, 6, 42, 50, 91, 66, 73, 27, 31]
}

df = pd.DataFrame(data)

# Thực hiện phân cụm bằng K-Means
kmeans = KMeans(n_clusters=3)
df['Cluster'] = kmeans.fit_predict(df)

# Hiển thị kết quả phân cụm
plt.scatter(df['Thu nhập hàng năm'], df['Chi tiêu hàng năm'], c=df['Cluster'], cmap='viridis')
plt.xlabel('Thu nhập hàng năm')
plt.ylabel('Chi tiêu hàng năm')
plt.title('Phân cụm khách hàng bằng K-Means')
plt.show()
    
  

Trong đoạn mã trên, chúng ta bắt đầu bằng cách tạo ra một DataFrame chứa thông tin về thu nhập và chi tiêu của khách hàng. Sau đó, chúng ta tiến hành phân cụm dữ liệu này thành 3 nhóm bằng cách sử dụng KMeans từ thư viện scikit-learn.

Kết quả của việc phân cụm được thể hiện qua biểu đồ phân tán, trong đó các điểm dữ liệu được tô màu khác nhau dựa trên cụm mà chúng thuộc về. Điều này giúp ta dễ dàng nhận biết khách hàng có xu hướng hành vi tương tự nhau và tạo ra các chiến lược kinh doanh phù hợp.

K-Means không chỉ là một thuật toán phân cụm mạnh mẽ mà còn rất linh hoạt. Với khả năng tùy chỉnh theo nhu cầu cụ thể, bạn có thể thay đổi số lượng cụm hoặc áp dụng các kỹ thuật tiền xử lý dữ liệu để cải thiện kết quả phân cụm.

Sự đa dạng trong ứng dụng thực tế của K-Means thể hiện rõ nét qua khả năng xử lý dữ liệu trong các tình huống khác nhau, từ quy mô nhỏ đến lớn, từ dữ liệu đơn giản đến phức tạp. Điều quan trọng là bạn cần hiểu rõ dữ liệu và mục tiêu của mình để tận dụng tối đa sức mạnh của thuật toán này.


Kết luận
K-Means Clustering là một công cụ mạnh mẽ trong kho vũ khí học máy, được đánh giá cao vì tính đơn giản và hiệu quả. Bất chấp các hạn chế, nó có thể được tối ưu hóa và cải tiến khi kết hợp với các phương pháp khác. Từ phân khúc thị trường đến phân tích dữ liệu hình ảnh, K-Means đã chứng minh giá trị thực tế to lớn của nó, đặc biệt khi thực thi bằng Python.
By AI