魅力视窗
高速公路
房建
特种工程
科技创新

人人都能读懂的无监督学习:什么是聚类和降维?

来源:36氪 作者: 时间:2017-08-31 点击量:

机器学习已经成为了改变时代的大事,一时间似乎人人都应该懂一点机器学习。但机器学习涉及到的数学知识和编程能力往往让没有相关经验的人望而却步。

YupTechnologies 机器学习专家 Vishal Maini 近日在 Medium 上发布了一个介绍机器学习的系列文章《人人读得懂的机器学习(Machine Learning for Humans)》,用普通人能理解的语言对机器学习领域的一些核心概念进行了阐述。机器之心在这里编译了这一系列文章的第三部分「无监督学习」,对主要的聚类和降维算法进行了介绍,其中包括 K 均值聚类、层次聚类、主成分分析(PCA)和奇异值分解(SVD)。

我们可以怎样发现一个数据集的底层结构?我们可以怎样最有用地对其进行归纳和分组?我们可以怎样以一种压缩格式有效地表征数据?这都是无监督学习的目标,之所以称之为「无监督」,是因为这是从无标签的数据开始学习的。

我们将在这里探索的两种无监督学习任务是:1)将数据按相似度聚类(clustering)成不同的分组;2)降维(reducing dimensionality),以便在保留数据结构和有用性的同时对数据进行压缩。

无监督学习方法可能有用的案例:

  • 一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小组,以便广告客户可以通过有关联的广告接触到他们的目标客户。

  • Airbnb 需要将自己的房屋清单分组成不同的社区,以便用户能更轻松地查阅这些清单。

  • 一个数据科学团队需要降低一个大型数据集的维度的数量,以便简化建模和降低文件大小。

和监督学习不同,要找到评价无监督学习算法优劣的指标可并不轻松。「表现水平」往往是主观的,而且因领域不同而各不相同。

聚类

聚类的一个有趣的真实应用案例是营销数据提供商 Acxiom 的人生阶段聚类系统 Personicx。这项服务将美国家庭分成了 70 个不同的聚类,它们分属于 21 个人生阶段分组,可以被广告主用于投放定向 Facebook 广告、陈列式广告和直邮广告等。

人人都能读懂的无监督学习:什么是聚类和降维?

Personix 人口学特征聚类的一部分

他们的白皮书表明他们使用了重心聚类(centroid clustering)和主成分分析,这两种技术在这一节都有覆盖。

你可以想象,如果广告主想(1)理解他们已有的客户群,(2)通过相关的人口学特征、兴趣和生活习惯向潜在新客户投放定向广告以便高效利用广告开支,那么这些聚类将对他们非常有用。

人人都能读懂的无监督学习:什么是聚类和降维?

实际上,你只需要在 Acxiom 的「我属于哪个聚类?」工具中回答几个简单问题,你就能知道你个人属于哪个聚类,体验地址:https://isapps.acxiom.com/personicx/personicx.aspx

让我们了解几种聚类方法,看看这样的任务是如何完成的。

K 均值聚类

「重心之赛有 k 个魔戒,在那之上,是希望的力量。」

聚类的目标是为数据点分组,使得不同聚类中的数据点是不相似的,同一聚类中的数据点则是类似的。

使用 K 均值聚类,我们希望将我们的数据点聚类为 K 组。K 更大时,创造的分组就更小,就有更多粒度;K 更小时,则分组就更大,粒度更少。

该算法的输出是一组「标签」,这些标签将每个数据点都分配到了 K 组中的一组。在 K 均值聚类中,这些组的定义方式是为每个组创造一个重心(centroid)。这些重心就像是聚类的心脏,它们可以「捕获」离自己最近的点并将其加入到自己的聚类中。

你可以把这些重心看作是派对上成为关注焦点的人,他们就像是有磁性一样。如果只有一个这样的人,每个人都会围绕在他周围;如果有很多这样的人,就会形成很多更小一点的活动中心。