word2-寻找社交新浪微博中的目标用户

项目简述：

为了进行更加精准的营销, 利用数据挖掘相关算法, 利用开放API或自行编写爬虫获得新浪微博, 知乎等社交网络(可能需要破解验证码)中用户所发布的数据, 利用数据挖掘的相关算法进行分析, 从大规模的用户群体中, 分别找出其中具有海淘或母婴购物意向的用户

使用语言：

java

工具：

eclipse

项目过程论述：

1.收集新浪微博用户的数据

2.对这些用户数据进行分析，判断其是否具有母婴的购物意向。

3.对这些具有母婴购物意向的用户进一步分类，分成衣食住行四类。

4.给分好类之后的用户进行推荐相应的母婴商品。

工作流程图如图所示：

----------------------------------------------------------------------------------------------

过程1-----收集新浪微博用户的数据

目的：收集每个用户至少300条微博，不足收集全部，太少则放弃。

收集工具：八爪鱼收集器

收集方法：按照关键词收集，利用新浪微博强大的搜索引擎。

收集规则：

收集结果（存放到mysql）：

-------------------------------------------------------------------------------------------------------------------------------------------------------------

过程2-----对收集到的新浪微博用户进行分析，判断其是否具有母婴的购物意向

目的：对一个用户分析，判断是/否具有母婴购物意向

方法：使用向量空间模型的余弦相似度，即两个向量之间的夹角越小，则余弦值越大，这两个向量就越相似

实现过程：

前提：收集数据的时候收集两部分数据,一部分人工判断已知具有母婴购物意向，另一部分是未知购物意向的用户。

1.将每个用户的向量都抽象成N维向量。

方法：参考石延君的博客参考石延君的博客http://shiyanjun.cn/archives/548.html

具体如下：

1）先找出能代表这个用户微博的关键词，将这个用户的微博都存储在一个txt文件中，大致过程如下

2）找出特征向量后，给特征向量的每一维都赋予权重，可以得到初步的N维具有权重的向量。

3）对N维向量进行归一化，直接利用libsvm的scale函数即可（可以参考libsvm的使用方法）。

2.计算未知用户向量与已知购物意向用户向量之间的余弦相似度，如果超过0.5，则认为其是相似的，则有理由认为这些未知用户是具有母婴购物意向的。

---------------------------------------------------------------------------------------------------------------------------------------------------

过程3--------对分析出来具有母婴购物意向的用户进一步分类，分成衣食住行四类

理论基础：使用libsvm来分类

训练集是预先收集好的，分成衣食住行四类的新浪微博用户，带预测集是过程1和2分析出来的具有母婴购物意向的用户。

-----------------------------------------------------------------------------------------------------------------------------------------

过程4------推荐商品

word2-寻找社交新浪微博中的目标用户的更多相关文章

Redis 在新浪微博中的应用
Redis 在新浪微博中的应用 Redis简介 1. 支持5种数据结构支持strings, hashes, lists, sets, sorted setsstring是很好的存储方式,用来做计数存 ...
产品研发过程中UCD目标的制定与实现
摘要:以用户为中心的设计(UCD, User-Centered Design)是保障产品具有较好用户体验(User Experience)的基本活动,其中可用性目标是有效衡量 UCD 活动最终效果的 ...
菜鸟-手把手教你把Acegi应用到实际项目中(11)-切换用户
在某些应用场合中,我们可能需要用到切换用户的功能,从而以另一用户的身份进行相关操作.这一点类似于在Linux系统中,用su命令切换到另一用户进行相关操作. 既然实际应用中有这种场合,那么我们 ...
测试开发Python培训：抓取新浪微博评论提取目标数据-技术篇
测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇在前面我分享了几个新浪微博的自动化脚本的实现,下面我们继续实现新的需求,功能需求如下: 1,登陆微博 2,抓取评论页内容3,用正则表 ...
dgraph解决社交关系中的正反向查找
dgraph解决社交关系中的正反向查找本篇介绍的是, 社交关系中的关注者与被关注者在dgraph中如何实现查找. 对dgraph的基本操作不太清楚的可以看看我之前写的博客 dgraph实现基本操作 ...
在 Linux 中使用超级用户权限
在你想要使用超级权限临时运行一条命令时,sudo 命令非常方便,但是当它不能如你期望的工作时,你也会遇到一些麻烦.比如说你想在某些日志文件结尾添加一些重要的信息,你可能会尝试这样做: $ echo & ...
sql server中的孤立用户
此问题出现在数据库的移值上.移值后,数据库的登陆名和数据库用户名孤立,原数据中,用建立的用户名密码登陆可以访问数据库,但是移值后就不能访问了.而且如果您尝试向该登录帐户授予数据库访问权限,则会因该用户 ...
linux 不在sudoers文件中、普通用户获得sudo权限
现在要让jack用户获得sudo使用权切换到超级用户root $su root 查看/etc/sudoers权限,可以看到当前权限为440 $ ls -all /etc/sudoers -r--r- ...
目标用户偏好指数Target Group Index分析
目标用户偏好指数Target Group Index分析 TGI指数,全称Target Group Index,可以反映目标群体在特定研究范围内强势或者弱势. TGI指数计算公式 = 目标群体中具有某 ...

随机推荐

单片机IAP学习
1.IAP是什么--简介 IAP是In Application Programming的首字母缩写,IAP是用户自己的程序在运行过程中对User Flash的部分区域进行烧写,目的是为了在产品发布后可 ...
【flex弹性盒布局】------这个强大的功能
你知道flex弹性布局么? 我们先来了解它的概念:Flex是Flexible Box的缩写,意为"弹性布局",用来为盒状模型提供最大的灵活性. 任何一个容器都可以指定为Flex布局 ...
Circuit Breaker Features
Better to use a circuit breaker which supports the following set of features: Automatically time-out ...
javaWeb学习总结（4）- HTML 关于head中的<meta>标签
关于<meta> 标签 <meta>标签出现在网页的标题部分,这些信息并不会出现在浏览器页面的显示之中,只会显示在源代码中.也就是在...当中. 主要用途是设置网页语言的编码方 ...
Android框架式编程之BufferKnife
配置 compile 'com.jakewharton:butterknife:(insert latest version)' annotationProcessor 'com.jakewharto ...
使用ConcurrentDictionary替代Hashtable对多线程的对象缓存处理
在之前一段时间里面,我的基类多数使用lock和Hashtable组合实现多线程内缓存的冲突处理,不过有时候使用这两个搭配并不尽如人意,偶尔还是出现了集合已经加入的异常,对代码做多方的处理后依然如故,最 ...
iOS-创建自己的日志系统
今天说说怎么创建自己的日志系统先看下Xcode自己的日志(这里说的NSLog) 系统自带的NSLog打印的信息只有简单的时间 / 项目名称 / 打印内容内容比较简单, 很难做分类管理和写入文件 ...
javaSE_Java第一周总结：有难度题目集合
第一周练习总结说明:尽量采用多种做法解决 1.使用三种方法实现变量交换 public class Test1Change{ public static void main(String[] args ...
有趣而又被忽略的Unity技巧
0x00 前言本文的内容主要来自YouTube播主Brackeys的视频TOP 10 UNITY TIPS 和TOP 10 UNITY TIPS #2.在此基础上经过自己的实践和筛选之后,选择了几个 ...
基于Python + requests 的web接口自动化测试框架
之前采用JMeter进行接口测试,每次给带新人进行培训比较麻烦,干脆用python实现,将代码和用例分离,易于维护. 项目背景公司的软件采用B/S架构,进行数据存储.分析.管理工具选择 pytho ...

word2-寻找社交新浪微博中的目标用户

word2-寻找社交新浪微博中的目标用户的更多相关文章

随机推荐

热门专题