R for 2010 grade

        上周给10级的学弟学妹们做了一个R的简介,内容见附件。

      来的人比我想象中的要多一些吧 ,也就大概三十几个人,想着当时我们去年08级带我们学的时候当时报名参加R统计协会的就有22个人,但是最终坚持下来的貌似就剩下我一个了。。不过也肯定有人在学习吧,毕竟R的强大之处到处可见。

     看着一帮帮新活儿面孔,看到他们对R的热情,深感欣慰。为此自己也做了不少准备,希望不会让他们失望吧,用latex第一次编写了那么正式的ppt,搞的跟讲学似的,不过也蛮喜欢这样的感觉,希望能够帮助到别人就是一种乐趣吧,想到自己还有那么一点用处能够帮到人当然也是好事,证明了自己的存在,所以也必须得多像别人学习,让自己变得强大了才有帮助别人的力量

     用pdftex编译器写ppt的时候,也遇到了一些麻烦,开始一直都通不过,反正总是有那么一两个错误,试着用了不同的编译器还是不行,网上查了一些资料,遂更新到了最新版本的CTEX,再次运行,便可以了,之前写的没有多少图片,就真的太学术化,所以加了一些图片进去。在CTEX这块,加入图片开始还是以为很麻烦的,之前听别人用的时候也吐槽这一点。自己加入了宏包《graphicx》,然后按照讲解的加入图片,编译一直不能通过,开始讲的是引言区最后一句加入\usepackages{graphicx}必须在begin{document}之前,调试了好几次,从加入空行、不加、以及加到其他地方,各种发现都还是会报错,报错行就在\usepackages{graphicx}后,后来果断的删除了这一句,然后在后面加入图片的依旧加入,这次没想到就行了。。自己能够找到问题,解决问题也算是一种快乐了。那几天还搞得神经特紧张,每晚都得搞出一些进展后才睡觉,现在想来也比较充实了,总之找到自己想做的东西始终是不错的。

    ppt的完成十分感谢邓一硕的帮忙,给了一些非常好的建设性意见,以及如何讲解R这部分,从R的安装到R的学习,以及R的优势等等,以及之前他在首都国贸大学讲R的一些经验,在此表示感谢。

 

附件:R for 2010 grade 

Posted in R | Tagged | Leave a comment

Machine Learning in R

 

最近写数据挖掘课程论文,发现了R中的机器学习包介绍。依旧坚信R的强大之处。。感觉很nice,分享一下。

Machine Learning & Statistical Learning (机器学习 & 统计学习) 

网址:http://cran.r-project.org/web/views/MachineLearning.html维护人员:Torsten Hothorn 

翻译:R-fox, 2008-03-18 

机器学习是计算机科学和统计学的边缘交叉领域,R关于机器学习的包主要包括以下几个方面: 

1)神经网络(Neural Networks): 

nnet包执行单隐层前馈神经网络,nnet是VR包的一部分(在这里

2)递归拆分(Recursive Partitioning): 

递归拆分利用树形结构模型,来做回归、分类和生存分析,主要在rpart包tree包里执行,尤其推荐rpart包。RWeka里也有这样的递归拆分法,如:J4.8, C4.5, M5,包Rweka提供了R与Weka的函数的接口。

party包提供两类递归拆分算法,能做到无偏的变量选择和停止标准:函数ctree()用非参条件推断法检测自变量和因变量的关系;而函数mob()能用来建立参数模型。另外,party包里也提供二分支树和节点分布的可视化展示。 

mvpart包是rpart的改进包,处理多元因变量的问题。rpart.permutation包用置换法(permutation)评估树的有效性。knnTree包建立一个分类树,每个叶子节点是一个knn分类器。LogicReg包做逻辑回归分析,针对大多数自变量是二元变量的情况。maptree包pinktoe包提供树结构的可视化函数。 

Continue reading

Posted in R, Statistic | Tagged , , | Leave a comment

Solving Sodoku with R

              大三的孩纸上课总是那么不淡定。。总有人借我手机拿去玩数独(sudoku),为了把我的手机数独都破解了,偶然发现青睐的R之包sudoku,此包可以生成随机数独矩阵,解决已经存在的数独矩阵,当然也可以读入外部的数据文件,从而快速解决。PS:虽然数独是锻炼智力的,但是在这个信息时代,大家的“懒惰”情怀往往铸就了这些发明。下面简单介绍下R里这个包

         在windows操作系统下,直接在Rgui窗口导入packages sudoku,可以采用菜单式导入也可以用require("sudoku")即可,包里主要有以下几个函数实现:

Continue reading

Posted in R, Statistic | Tagged , | 2 Comments

QSAR project

          这学期已经开始了一个月了,日子过的还算充实吧

          开学后找了导师谈了下项目《定量结构与活性分析建模(QSAR)》,这个项目对于本科生来说也许有点难度,老师也让我们尽量做吧,毕竟是大学生创新项目,我想还是好好做,也当是为研究生阶段打好基础了,主要的也是一些数据挖掘方面知识的学习的事情,老师给了两篇他们的论文:《tmars》、《Comparison of quantitative structure–retention relationship models on four  stationary phases with different polarity for a diverse set of flavor compounds》,自己最近也在看,看论文真的不是一件easy的事情,也许真的要好好花上几个月的时间搞懂别人的一篇论文,还有论文后面的相关资料,都得一并慢慢搞懂,一个周的时间粗略的把文章都看完了一遍,查了一些相关的专业名词,以及它们的基础知识,虽然看的有些云里雾里,但是多看几遍就慢慢有点明白,最好的就是有R软件可以提供给我一个更好的平台去学习这些统计理论并且能够实践出来,也算是一件美事。

          关于tmars("two-step multivariate adaptive regression splines")两步多元自适应性回归样条,也是在多元适应性回归样条模型上的修正,这个对于解决高维数据问题很有优势,总的来说也是属于一种分类方法吧,一般的有规则分类器跟无规则分类器,以及一些回归模型都可以解决分类问题,但是一般对于连续型采用回归,离散型采用分类,在分类中有的模型过于复杂或者训练数据过少不可避免的出现过拟合,过拟合一直也是大家研究的热点课题。当然做这一个分类器,有两个目的:第一使得模型的预测误差较小,也就是预测能力比较好,出现误判的概率小;第二就是使得预测比较稳定,有了这样的目标,必须要有一个函数方法来检验预测能力的强弱,至今有几种方法:handout保持法,k折交叉检验法,交互检验(cross-validation)(相当于k折交互检验中的k=2),GCV(generalized cross validation),

Continue reading

Posted in Statistic | Tagged , , | 4 Comments

乡下调查——长沙县

     昨天又跑去长沙县参加了第二轮调查,据说是解决上次调查的遗留问题,主题还是关于领导班子的绩效考核,但是问题依旧那么杂乱。

     我们一行有18人,08和09级的一起,呵呵,这样便于多跟学姐学长多学习咯,虽然还有两三天就考试了,但是说要要出去乡下调查还是挺愿意的,基本一天都是坐在校车上,到了目的的抽样地点才会下来参与调查,依旧根据以前的经验:您好 我们是长沙市民意调查中心的调查员,对你们这个地区的经济状况,交通、环境等进行社会公认调查。。。总是这样的开头,也许有时候会结合实情跟大爷抑或是阿姨寒暄几句,不一样的开头总能收到不一样的效果吧,跟陌生人交流始终要跟人产生共鸣,所以只能挑别人喜欢的说咯,嘿嘿,反正都是夸奖人嘛。大家都很开心的,但是一般一个点时间紧迫,都必须在规定的时间里面做完,不过好像我跟继红总是最先做完的,看来经验还是蛮重要的哈。

Continue reading

Posted in Accumulation, life, Statistic | Tagged , , , | 2 Comments

人间有真情,人间有真爱

           前天的自己还很开心,因为之前的优秀学生标兵的申请,经过学院的层层筛选。终于得到学院领导的青睐,获得了“优秀学生标兵”的荣誉,我知道这来之不易,并且还想好了自己以后一定要更加的努力。朋友都说:这些东西都是虚的,只有能力的提升才是最重要的。我也相信,这些都是瞬息,而自己修养素质的提高那是一辈子的事儿。

           就在昨天。2011.11.11大家所谓的神棍节,我就是名副其实的过了一次这样的百年难得一遇的节日。。然后自己彻底的"光“了。上午上了两节课,下午也没啥课了,大家都很激动吧,也许中国过这种节日比传统的来的更为猛烈一些,也不知道这是怎么了的社会。寝室的姐们一起出动,都说去步行街逛逛,也许平时学习压力也是太大了,趁周五这个时间好放松一下。

Continue reading

Posted in life | Tagged , , , , | 12 Comments

CRM(Costumer Relationship Management)

 

   前不久在课外研究中学习了关于客户关系的管理,真心觉得这个东西在以后的公司或者其他的营业中特别有用。先前谈一下什么是CRM—— 

早在20世纪60年代,管理学的一代宗师,彼得.德鲁克和西奥多.莱维斯就已经开始鼓吹“CRM”,而CRM(Costumer Relationship Management)简单的概括为:每个公司真正的业务应该是争取客户、留住客户并使客户赢利率最大化。

CRM绝不等于一个简简单单的软件、技术或系统,CRM是一种商业策略,作为每家现代企业求生存以及发展所不可或缺的。对于中小企业也绝对有能力去实施CRM。从广义的CRM定义上,其实每家公司都在实施CRM,区别仅在于效果优劣。效果好,重点在策略、在人(经过合适培训的人)、在流程。而实施或者不实施所得到的ROI(投资回报率)显然是不同的,这里必须得引入机会成本的概念来定义。

CRM的ROI=“实施CRM所带来的回报”+“不实施CRM的机会成本”-“实施CRM的实际成本”。对于一个企业,领导人或者最高管理层是应该对CRM负责的,毕竟没有他们的支持,所谓的CRM在公司也是形同虚设。一般将来,CRM由所有人负责,但是所有人负责其实就相当于没人负责,虽然CRM是必须要深入到每个企业员工的内心,让他们一直以客户为中心。这才是一个企业应该拥有的CRM模式:领导人支持,员工执行。

Continue reading

Posted in Statistic | Tagged | Leave a comment

my pracitical life–second day

        话说接着前一天的活儿呀,我们还是被安排到了城南中路这个令人伤心的地方啊,虽然听到了东南西北就很烦的我,虽然不是路痴的我,才发现我居然有点儿搞不清楚东南西北,发现那个自我感觉良好的我,很受挫啊。。这一切总结一下也许是自己的准备不够充分吧,按照想象的未来做事情,总是会遇到麻烦的,上天总是会给这样的人一个提示吧。不知道为什么总会觉得太自信的结果就是不好的结果,没当绝望透顶了,老天都会给我们一个surprise.

Continue reading

Posted in Statistic | Tagged | 7 Comments

latex_Multiline displays

 

 

  While single line displays are pretty straightforward to typeset, there are at least a dozen different constructs to generate multiline displays with the amslatex macros, and it's easy for a beginner to be overwhelmed by the multitude of options. Fortunately, you can get by knowning only two of these, namely the "align/align*" and "cases" environments. Unless you are a professional typesetter striving for 110% perfection, you don't need anything beyond that.

 

Continue reading

Posted in Accumulation, Statistic | Tagged | 1 Comment

My practical life——first day

         前几日一直都忙着学习latex,也一直没更新。今天才抽空出来把上次的实践生活——长沙市民意调查(关于市直单位以及区县镇单位的领导班子的绩效考核)。今天给大家分享一下。这也是大学以来第一次真真切切的接触到社会,感受到社会的种种优越抑或是苦逼,懂得了其实现实就是最残酷的。

   第一天

          头一天晚上市政府和统计局的领导们就来给我们做了个关于调查的培训,在各方面都谈到了需要注意的细节,因为这个细节就决定了成败啊。大家都听得很high的,一听到要去调查就激动的。当然也包括我啦。我觉得去做些实际的问题比有一些课本上的理论知识更重要吧,虽然我们必须把好理论这一关,才能学以致用,但是现实有时候就是理论的特特例啊。。你总是找不到相对应的solutions啊。还是言归正传吧。

Continue reading

Posted in Accumulation, life | Tagged , , | Leave a comment