最近工作中遇到一个问题,就是根据速度和速度对应的评价信息来实现简单的逻辑回顾。这种简单的对于数据挖掘或者机器学习专家来说可能没啥大不了的,但是对于我这种数据菜鸟来说,可能需要查大量的资料才能理解怎么做。
先讲一下逻辑回归的概念(参照吴军的《数学之美》)
逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型,训练可以采用通用迭代算法和改进的迭代算法来实现,可以应用在类似搜索广告、生物统计等方面。
谈一下搜索广告中的点击率预估。最好的方法就是根据以往的经验来预测,但是实际问题没有那么简单,首先这种算法对于新广告不适用,因为他们没有点击的历史数据,第二对于旧的广告,绝大多数的时候,一个查询对应的特定广告不过两三次点击,这时候统计数据严重不足,很难说点击三次的就比点击二次的好,第三广告的点击量显然和他们的摆放位置相关。总上所述,影响点击率的因素非常多,这些都是要在做点击率预估时要考虑的。
后来,工业界普遍采用了逻辑回归模型来解决这个问题。一个广告系统中,有没有好的点击率预估机制决定是否能够成倍提高单位搜索的广告收入。而目前Google和腾讯的广告系统对于点击率预估的方法,都采用逻辑回归函数来预测。
再介绍一下数据挖掘领域的四个概念(来源《数据挖掘-实用机器学习技术》)
分类学习是用一个已分类的样本来表示的学习方案,并希望从这些样本中学习对未来样本进行分类的方法。聚类学习是寻找能够组合在一起的样本,并依此来分组。关联学习是寻找任何特征之间的管理,不仅仅是为了预测一个特定的类值。
关于线性回归
线性回归是一个出色的、简单的适用于数值预测的方法,在统计应用领域广泛使用了数十年。当然,线性回归也有缺陷,如果数据呈现非线性关系,线性回归将会找到一条最适合的直线,最适合指最小均方差,而这条线也许并不适合。线性回归可以方便的应用于含有数值属性的分类问题。
关于weka
weka是一个数据挖掘的工具,新西兰怀卡托大学开发,基于Java语言实现,对于样本数据测试模型的时候,它提供了简单的客户端来实现,对于想要集成在自己的系统中的情况,可以把相应的jar包集成进来。简单的入门资料推荐这篇文章(http://stblog.baidu-tech.com/?p=1918 ),写的比较简单,入门的话够用,如果想深入,两个途径,一个是看官方的文档介绍,一个是《数据挖掘-实用机器学习技术》这本书,这本书的后半部分就是介绍的weka。
--------------------------------------------------------------
下面通过一个例子来讲解weka来实现线性回归
1、weka的安装就不讲了,在官方网站上找一下,download下来就行;
2、准备数据,weka中需要的是ARFF格式的数据,但是也支持excel,本例中就拿excel来作为样本数据的存储;
3、导入数据,查看是否有线性关系,如果有,选择分类算中的线性回归,开始回归,得出表达式;
A、打开weka,点击Explorer(一般情况下这个就够用了)
B、导入准备好的数据
数据如下,第一列是导入的时候自己生成好的,剩下两列,一个是速度,一个是对应的评分
C、看导入数据是否有线性关系,在Visualizing上点击,能够直观的看出他们之间的关系
D、选择分类表达式,获取回归的结果
至此,使用weka来实现简单的线性回归已经OK,关于数据挖掘算是开始入门,后面逐渐学习更多的算法。之前看了@caoz的一篇文章,里面有些话我觉得不错,
数据的价值在于解读,不在于复杂的算法和工具,算法或者工具只是辅助进行解读罢了。
参考数据:
1、《数学之美》
2、《数据挖掘-实用机器学习技术》
相关推荐
介绍了线性回归分析的基础,如一元线性回归和多元线性回归
入门欢迎来到VS Code Java世界。 这是一条指南,可帮助您开始在Visual Studio Code中编写Java代码。资料夹结构默认情况下,工作区包含两个文件夹,其中: src :用于维护源的文件夹lib :用于维护依赖关系的文件夹...
1、掌握使用Weka做线性回归的方法; 2、掌握线性回归的相关知识; 3、处理丢失数据的值,替换原始数据中的短横线(因为这里的实验数据本应该是数字类型,而不是枚举类型)
weka回归测试,weka回归测试代码,weka回归测试资源!
利用WEKA编写数据挖掘算法,详细描述了各个步骤
用weka写的回归和PCA小例子,主要包括weka api如何使用,回归和PCA怎么操作
利用WEKA平台提升数据挖掘课程教学效果.pdf
WEKA使用教程WEKA使用教程WEKA使用教程WEKA使用教程WEKA使用教程WEKA使用教程WEKA使用教程WEKA使用教程WEKA使用教程WEKA使用教程WEKA使用教程WEKA使用教程WEKA使用教程WEKA使用教程WEKA使用教程WEKA使用教程WEKA使用...
WEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中,这是有原因的。 在这两个任务中,都有一个目标属性(输出变量)。我们希望根据一个样本(WEKA中称作实例)的一组特征(输入变量),对目标...
NULL 博文链接:https://bruce-lin-chn-sina-cn.iteye.com/blog/1787749
WEKA使用教程 简介 数据格式 数据准备 分类与回归 聚类分析
如何运用WEKA进行数据挖掘,本文档进行了相关说明!希望对大家有帮助!
Weka学习资料,利用weka进行数据挖掘,发现关联规则。
使用Weka软件开展医疗领域的应用研究,为相关研究人员提供参考
WEKA的全名是怀卡托智能分析环境(Waikato... WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
全面介绍了Weka及其简单使用。 数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的...
weka-src[weka源码] 供参考
基于Weka的房价回归预测及案例分析.doc
详细讲述了weka中EM算法解析,清晰,值得学习