【数据挖掘知识分享】机器学习平台——回归算法简介
数值预测是对连续值函数进行预测的一类数据挖掘任务,通过构造相关的预测模型对连续数值进行预测。与分类问题相同之处在于数值预测也是有标号的学习问题,即监督学习问题,与之不同在于数值预测对连续的变量进行学习和预测,而分类对于离散的目标进行学习和分类。
回归分析是最常用的统计学数值预测方法,它是在分析现象自变量和因变量之间相关关系的基础上,建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变量的值。
回归分析主要解决以下几个方面的问题:
- 确定几个特定的变量之间是否存在相关关系, 如果存在的话, 找出它们之间合适的数学表达式。
- 根据一个或几个变量的值, 预测或控制另一个变量的取值, 并且可以知道这种预测或控制能达到什么样的精确度。
- 进行因素分析。例如在对于共同影响一个变量的许多变量(因素)之间,找出哪些是重要因素,哪些是次要因素,这些因素之间又有什么关系等等。
回归分析有很广泛的应用, 例如实验数据的一般处理, 经验公式的求得, 因素分析, 产品质量的控制, 气象及地震预报, 自动控制中数学模型的制定等等。多元回归分析是研究多个变量之间关系的回归分析方法,按因变量和自变量的数量对应关系可划分为一个因变量对多个自变量的回归分析(简称为“一对多”回归分析)及多个因变量对多个自变量的回归分析(简称为“多对多”回归分析),按回归模型类型可划分为线性回归分析和非线性回归分析。
回归结果一般用预测误差来度量,常用的误差有:
►均方误差
►均方根误差
►解释方差
►平均绝对误差
►R-平方系数
常见的回归算法⇒线性回归
⇒逻辑回归
⇒多项式回归
⇒逐步回归
⇒岭回归
⇒套索回归
⇒ElasticNet回归
Tempo机器学习平台内集成的回归方法包括线性回归,决策树回归,随机森林回归,KNN回归,支持向量机回归等。
后续我们将会针对每个回归算法做详细的解释。