用于数据分析的机器学习
机器学习是计算机科学的一个子领域,它处理诸如模式识别、计算机视觉、语音识别、文本分析等任务,并且与统计和数学优化有着密切的联系。 应用包括搜索引擎的开发、垃圾邮件过滤、光学字符识别 (OCR) 等。 数据挖掘、模式识别和统计学习领域之间的界限并不明确,基本上都是指类似的问题。
机器学习可以分为两类任务 −
- 监督学习
- 无监督学习
监督学习
监督学习是指一类问题,其中输入数据定义为矩阵X,我们有兴趣预测响应y。 其中 X = {x1, x2, …, xn} 有 n 个预测变量并且有两个值 y = {c1, c2}。
一个示例应用程序是使用人口统计特征作为预测变量来预测网络用户点击广告的概率。 这通常被称为预测点击率 (CTR)。 然后 y = {click, doesn't − click} 和预测变量可能是使用的 IP 地址、他进入站点的日期、用户的城市、国家以及其他可用的特征。
无监督学习
无监督学习处理寻找彼此相似的组而无需学习的问题。 有几种方法可以学习从预测变量到查找在每个组中共享相似实例并且彼此不同的组的映射。
无监督学习的一个示例应用是客户细分。 例如,在电信行业中,一项常见任务是根据用户对电话的使用情况对用户进行细分。 这将允许营销部门针对每个群体使用不同的产品。