"竹杖芒鞋轻胜马, 一蓑烟雨任平生"

Do not deify machine learning,it is not that cool

机器学习实践:首届“算法控”马拉松程序设计竞赛酱油经历

04 Oct 2013 ###背景&相关知识点 分类算法是一种有监督型的学习算法,广泛用作垃圾邮件识别,文章收藏中tag自动标识等。最为常用且效果不错的是朴素贝叶斯分类算法。理论依据是贝叶斯定理(条件概率),其他还有费舍尔方法等。
分类算法的运行过程分两步,一是训练,二是测试。训练是拿标注好类别的样例喂给分类算法,让其自动学习,建立起类别的识别模式之后,用测试数据实际操练,以观其效。如果效果拔群,还可以在算法上线之后,拿新的数据继续对算法进行训练,这样算法就获得了进化能力,能自动识别新的特征值
关于本案例,从bottomcoder的博客了解到acmicpc.info举办过一个博客聚类比赛,正好练兵。反正比赛时间早过,就打打酱油练练手吧。
简述一下题目大意:ACM/ICPC信息站是一个博客分类展示平台,从各大博客平台抓取博客标题和摘要,进行瀑布流展示(http://blog.acmicpc.info/)。本次比赛基于线上系统的需求而来,需要对新抓取到的博客自动分类,类别分别为:IT, ACM, OTHER。
比赛提供一批训练数据(无类别标注,囧),需要首先人工进行标注。然后对算法进行训练, 最后拿测试数据集PK精准度。由于是赛后酱油,所以就没有对精准度进行测试,大概看了一眼结果,没有太不靠谱。学习第一,比赛第二。


###项目地址: https://github.com/zuojie/MichineLearningCases/tree/master/Classify

comments powered by Disqus