开发者论坛 | 海睿思 轻量化数据中台生态引领者

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 968|回复: 0

机器学习中的常见算法

[复制链接]

1

主题

1

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2020-10-27 11:01:24 | 显示全部楼层 |阅读模式
本帖最后由 kipper 于 2020-10-27 11:01 编辑

目前机器学习技术(Machine Learning)已渐渐深入普及大众的各类生活应用中。如金融业的核贷机制、电商领域的商品推荐、零售业的精准营销、制造业的工厂设备预防性维护等,都已经可见机器学习的踪影。机器学习帮助我们在大数据时代,善加利用数据来进行各种助力商业决策的预测类工作。然而每一项应用的背后,都需要数据科学家针对不同的数据、细分场景,来建立特定的模型。分类Classification
分类算法根据已知的一些特征,建立目标变数类别的判别模型,找出同类别中相似特征;当有新的数据加入时,就能透过新数据的已知特征,判别是属于哪一种已知分类。
分类算法属于监督式学习(Supervised Learning)的算法,透过数据本身的标签,监督式学习会建立一个学习过程,在观察一些事先标记过的训练范例后,找出同样标记之间的关联性,并使用它来预测接下来的测试数据。
分类算法的应用包括:
  • 客户分类预测:用客户和历史合同等数据,进行将来是否会续约的分类预测,或是进行对企业营收有较大帮助的客户分类,找出高价值客户
  • 人力资源匹配:根据在职员工数据资料,预测短期内员工是否可能会离职,可作为人力资源部门以及部门主管在管理上的建议,降低核心员工离职率,提升人力资源的远见洞察力
  • 设备预防性维护:根据设备实时数据,预测其短期内是否会故障,在实际发生问题前进行维修保养:可提升设备利用率;降低生产线停运风险以及因设备送修造成的停产损失,甚至可以规避不可估量的商业信誉损失


回归Regression
回归主要用途是在找出各变数与目标变数之间的影响与关联性。如,当体重为目标变数时,找出身高、体脂率、年龄等各变数的变化与体重的关联。更准确的说,回归分析能帮助我们了解当变数的数值改变时,目标变数的变化究竟为何,故也可用在预测问题上。
常见的回归应用包括
  • 房屋售价的预测:根据房屋面积、房龄、房屋所在位置、是否是高楼、经济指数等相关数据,预测房价,精准掌握房地产行业市场趋势
  • 商品销售量预测:收集商品相关数据,预测未来销售量,可在销售通路做预先规划,在生产制造方面,也能进一步根据未来销量弹性调整产量以及生产线规划
  • 公司营收预测:将企业目前和预计的收益、成本支出等数据,加上经济指数进行未来一季或一年的营收预测,作为公司对未来收益情况的参考,提升资金调配、成本管控方面的掌控力

聚类Clustering
聚类算法依据数据的相似度(Similarity)或迥异度(Dissimilarity)将数据聚类归属到多个群集(Clusters),目的是找出数据中的几个群集,并希望让同一群集内的资料相似度大,而各群集间的相似度小。
根据不同的聚类方式,聚类算法细分为以下3种:
  • 阶层式聚类法(Hierarchical Clustering):使用自下而上(Agglomerative)逐步收敛群集,或是由上而下(Divisive)将所有数据点分割至相应的群集。
  • 分割式聚类法(Partitional Clustering):如K-means,先制定群的数目后,再使用演算法找出最佳的分群方式及相关的群中心。
  • 基于密度的算法(Density-based Clustering):如DBSCAN、OPTICS等,此方法根据预先设定的密度值,在这个密度值下不断延展群集的范围,直至聚类所有数据为止。

聚类算法常被应用在市场营销、影像识别、推荐系统、生物医学等领域。如:
- 客群区分:透过聚类算法,找出不同种类客户的消费特征和倾向,在进行促销时便可以针对不同客户推广商品资讯,或是选择发送促销广告的渠道等,扩加大消费潜力。
- 搜索引擎:聚类算法为搜索引擎的基础,当我们在搜索引擎输入关键词时,聚类演算法便会试图聚类相似的数据,快速准确的找到所需内容。
时间序列预测Time Series Forecasting
时间序列(Time Series)为一组按照时间先后发生顺序进行排列的数据,一般来说,数据点之间的时间间隔是固定的,如某公司每天的股价数据、每年的国内生产总值(GDP)等都是时间序列。而时间序列预测即为一个分析过去的数据点,根据反映出来的趋势或季节性波动预测出未来的数值的过程。
时间序列的分析,假设过去和当下的现象和趋势是会延续到未来的,并且未来不会发生突然的剧烈波动;而时间序列的组成可分为系统性(Systematic)与非系统性(Non-systematic),非系统性的即称为噪音(Noise),是随机的变数变化;系统性的组成分为:趋势性(Trend):随着时间进展的变化趋势,如线性或是指数型的上升、下降等;周期性(Seasonality):一个短期的循环变动,如根据季节的涨幅、淡旺季波动等;水平(Level):序列的平均值。
时间序列预测的应用包含:
1、未来消费市场规模预测:根据过往的市场需求量、花费总额的波动和趋势,预测未来的市场规模,可帮助政府、企业制定相关政策,以及进行资源规划等。
2、股价预测:预测未来一天、周、月或是季的股价涨幅,个人用户、理财金融公司等可透过预测从中赚取利润。
3、网站流量预测:从过去网站访问人数、浏览次数、直接预测网站的未来流量,提供给公司市场部或相关部门,做后续运营规划。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|开发者论坛 | 海睿思 轻量化数据中台生态引领者 ( 苏ICP备13008384号-7 )

GMT+8, 2022-7-1 21:27 , Processed in 0.048438 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表