2016-ccf-data-mining-competition 搜狗用户画像构建

想法1：
	分成147（377）类，后来觉得这样效果不好，后来看了看竞赛要求的也是分别预测，分别评分，而不是一次就把3类的标签都给出
	所有后来我们改进了当时的想法，决定对年龄，性别，学历进行分别预测
想法2：
	我们先对所有的单词进行分类，分成比如体育，经济，教育等等，一些大类别，然后看看每个用户搜索的关键词属于哪一类。作为特征
	后来，因为无法确定分为多少类，，所以否定了这个想法。
想法3:

	Step1:进行文本分词处理，提取出搜索词中的关键词；
	Step2:建立向量空间模型（1）权值计算（布尔权值，词频权值,TF/IDF，TFC，ITC等方法）
	(2) 向量相似度量（内积，绝对值距离，切比雪夫距离等）；
	Step3:对文本进行分类（概率分类器，决策树分类器，神经网络分类器等）
	Step4:进行数据测试，根据给定的查询词，首先也对它先分词，提取关键词，然后和一个大类进行相关性测量，
	VSM中的（两个向量的夹角越小说明关联度越大），然后决定出它是属于哪一个类，
	之后再和这个类别下的关键词进行相关性对比，然后逐个决定出人物属性（年龄，性别，学历）

	确定了思路之后，我用skleran 这个机器学习包进行了实现。
初赛思路v1：
	一 Preprocessing
	1分词采用结巴分词
	2数据清洗，删掉缺失数据，例如数据中的未知（标签为0）
	二 Feature extraction
	 1 countvector：计算词频
	2 tfidfvector: 计算tfidf作为权重值
	3 hashvector: 利用hash 算法将单词映射到向量空间
	三 Feature selection 
	选择特征的数量，也就是数据矩阵的维度。v1没有使用算法，直接指定特征的维度。
	四 Feature union
	初赛中没有使用特征融合
	五 Model selection
	KNN
	SVM 效果最好
	贝叶斯
	六 Model Evaluation and Optimization
	利用准确率衡量分类的结果

初赛思路v2：

	在特征提取的时候，我们担心数据过拟合，所以进行特征选择
	我们的特征选择的方法主要是卡方跟LDA主题模型
	但是经过测试，LDA+TFIDF的效果不如单纯的tfidf
	TFIDF+卡方的效果稍好一点点
	特征提取我们也试过n-gram效果也不是很好


最终初赛思路（v2):
	1.jieba分词
	2.特征提取：tfidf
	3.特征选择：卡方
	4.分类：SVM

github:

https://github.com/zle1992/2016-ccf-data-mining-competition

2016-ccf-data-mining-competition 搜狗用户画像构建的更多相关文章

【转】4w+1h 教你如何做用户画像
记得14年开始做用户画像的时候,对于用户画像完全没有概念,以为是要画一幅幅图画,经过两年多的学习和理解,渐渐的总结出了一些方法和技巧,在这里就通过4个W英文字母开头和1个H英文字母开头的单词和大家分享 ...
(转载)2016 CCF大数据与计算智能大赛开源资料整理
本文转载自:http://blog.sina.com.cn/s/blog_5399b8660102wxks.html 2016 CCF 大数据与计算智能大赛已经落下帷幕,11个赛题由众多大神包揽奖项, ...
论文翻译：Data mining with big data
原文: Wu X, Zhu X, Wu G Q, et al. Data mining with big data[J]. IEEE transactions on knowledge and dat ...
Datasets for Data Mining and Data Science
https://github.com/mattbane/RecommenderSystem http://grouplens.org/datasets/movielens/ KDDCUP-2012官网 ...
data mining，machine learning，AI，data science，data science，business analytics
数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...
数据挖掘(data mining)，机器学习(machine learning)，和人工智能(AI)的区别是什么？数据科学(data science)和商业分析(business analytics)之间有什么关系？
本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答 ...
用Mirror，搞定用户画像
Mirror产品概述 Mirror是专为金融行业设计的全面用户画像管理系统.该系统基于星环多年来为多个金融企业客户构建用户画像的经验,深入契合业务需求,实现对用户全方位全维度的刻画.Mirror内置银 ...
Conference-Web Search and Data Mining
Conference WSDM(Web Search and Data Mining)The ACM WSDM Conference Series 不像KDD.WWW或者SIGIR,WSDM因为从最开 ...
Tinghua Data Mining
Learning Resources 书籍: 期刊: 业界先驱: 开阔视野,掌握业界最新动态. 工具: 数据挖掘是很多学科的综合体: 甭管叫什么名字,归根到底都是数据挖掘: Comprehensive ...

随机推荐

python2.0 s12 day8 _ 堡垒机前戏paramiko模块
堡垒机前戏开发堡垒机之前,先来学习Python的paramiko模块,该模块机遇SSH用于连接远程服务器并执行相关操作 paramiko模块是做主机管理的,他模拟了一个ssh. 有两种形式连接形式, ...
windows下配置nutch注意的问题
1.为处理方便,直接在$nutch目录下创建一个名为url.txt文件,然后在文件里添加要搜索的网址,例如:http://www.sina.com.cn/,注意网址最后的"/"一定 ...
Eclipse+pydev解决中文显示和注释问题的方法大全
Eclipse+pydev解决中文显示和注释问题的方法大全 Eclipse的设置 window->preferences->general->editors->textedit ...
Jquery跨域Ajax取值
HTML: $.ajax({ type: "get", async: false, url: "http://www.xxxxxx.com/otherLogin/chec ...
【Linux】 ftp 主动被动模式
LNMP 搭建得服务器,在使用ftp时候,报如下错误: 经查,是ftp 主动模式被动模式问题工具: Xftp5 ,把被动模式勾取消 (其他客户端可以网上查一下相应的被动模式转主动模式设置 ...
[Web Chart系列之六] canvas Chart 导出图文件
前言博主正在参加CSDN2013年度博客之星评选,如果这篇文章对您有用,请投他一票: 投票地址:http://vote.blog.csdn.net/blogstaritem/blogstar2013 ...
【python系列】python2.x和python3.x的区别
刚接触python使用的是python2.x的书籍,但是发现python3.x和python2.x有不小的区别,以下做一些记录性能 Py3.0运行 pystone benchmark的速度比Py2. ...
2015.10.11（js判断鼠标进入容器的方向）
判断鼠标进入容器的方向 1.前几天在万圣节专题项目中用到了鼠标坐标page事件,随着鼠标背景图片移动形成有层次感的效果,但page事件在IE低版本不支持,所以还要做兼容.在研究page事件同时无意中想 ...
配置linux DNS
DNS服务器地址配置在Linux下面,有一个默认的DNS服务器地址配置文件的设置,存放在 /etc/resolv.conf 设置方法很简单,通过编辑 vi /etc/resolv.conf 设置首选 ...
C++ XML 序列化器
http://www.cppblog.com/xlshcn/archive/2007/11/21/cppxmlserializer.html

2016-ccf-data-mining-competition 搜狗用户画像构建

2016-ccf-data-mining-competition 搜狗用户画像构建的更多相关文章

随机推荐

热门专题