项目简述:

为了进行更加精准的营销, 利用数据挖掘相关算法, 利用开放API或自行编写爬虫获得新浪微博, 知乎等社交网络(可能需要破解验证码)中用户所发布的数据, 利用数据挖掘的相关算法进行分析, 从大规模的用户群体中, 分别找出其中具有海淘或母婴购物意向的用户

使用语言:

java

工具:

eclipse

项目过程论述:

1.收集新浪微博用户的数据

2.对这些用户数据进行分析,判断其是否具有母婴的购物意向。

3.对这些具有母婴购物意向的用户进一步分类,分成衣食住行四类。

4.给分好类之后的用户进行推荐相应的母婴商品。

工作流程图如图所示:

----------------------------------------------------------------------------------------------

过程1-----收集新浪微博用户的数据

目的:收集每个用户至少300条微博,不足收集全部,太少则放弃。

收集工具:八爪鱼收集器

收集方法:按照关键词收集,利用新浪微博强大的搜索引擎。

收集规则:

收集结果(存放到mysql):

-------------------------------------------------------------------------------------------------------------------------------------------------------------

过程2-----对收集到的新浪微博用户进行分析,判断其是否具有母婴的购物意向

目的:对一个用户分析,判断是/否具有母婴购物意向

方法:使用向量空间模型的余弦相似度,即两个向量之间的夹角越小,则余弦值越大,这两个向量就越相似

实现过程:

前提:收集数据的时候收集两部分数据,一部分人工判断已知具有母婴购物意向,另一部分是未知购物意向的用户。

1.将每个用户的向量都抽象成N维向量。

方法:参考石延君的博客参考石延君的博客http://shiyanjun.cn/archives/548.html

具体如下:

1)先找出能代表这个用户微博的关键词,将这个用户的微博都存储在一个txt文件中,大致过程如下

2)找出特征向量后,给特征向量的每一维都赋予权重,可以得到初步的N维具有权重的向量。

3)对N维向量进行归一化,直接利用libsvm的scale函数即可(可以参考libsvm的使用方法)。

2.计算未知用户向量与已知购物意向用户向量之间的余弦相似度,如果超过0.5,则认为其是相似的,则有理由认为这些未知用户是具有母婴购物意向的。

---------------------------------------------------------------------------------------------------------------------------------------------------

过程3--------对分析出来具有母婴购物意向的用户进一步分类,分成衣食住行四类

理论基础:使用libsvm来分类

训练集是预先收集好的,分成衣食住行四类的新浪微博用户,带预测集是过程1和2分析出来的具有母婴购物意向的用户。

-----------------------------------------------------------------------------------------------------------------------------------------

过程4------推荐商品

word2-寻找社交新浪微博中的目标用户的更多相关文章

  1. Redis 在新浪微博中的应用

    Redis 在新浪微博中的应用 Redis简介 1. 支持5种数据结构 支持strings, hashes, lists, sets, sorted setsstring是很好的存储方式,用来做计数存 ...

  2. 产品研发过程中UCD目标的制定与实现

    摘 要:以用户为中心的设计(UCD, User-Centered Design)是保障产品具有较好用户体验(User Experience)的基本活动,其中可用性目标是有效衡量 UCD 活动最终效果的 ...

  3. 菜鸟-手把手教你把Acegi应用到实际项目中(11)-切换用户

    在某些应用场合中,我们可能需要用到切换用户的功能,从而以另一用户的身份进行相关操作.这一点类似于在Linux系统中,用su命令切换到另一用户进行相关操作.      既然实际应用中有这种场合,那么我们 ...

  4. 测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇

    测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇   在前面我分享了几个新浪微博的自动化脚本的实现,下面我们继续实现新的需求,功能需求如下: 1,登陆微博 2,抓取评论页内容3,用正则表 ...

  5. dgraph解决社交关系中的正反向查找

    dgraph解决社交关系中的正反向查找 本篇介绍的是, 社交关系中的关注者与被关注者在dgraph中如何实现查找. 对dgraph的基本操作不太清楚的可以看看我之前写的博客 dgraph实现基本操作 ...

  6. 在 Linux 中使用超级用户权限

    在你想要使用超级权限临时运行一条命令时,sudo 命令非常方便,但是当它不能如你期望的工作时,你也会遇到一些麻烦.比如说你想在某些日志文件结尾添加一些重要的信息,你可能会尝试这样做: $ echo & ...

  7. sql server中的孤立用户

    此问题出现在数据库的移值上.移值后,数据库的登陆名和数据库用户名孤立,原数据中,用建立的用户名密码登陆可以访问数据库,但是移值后就不能访问了.而且如果您尝试向该登录帐户授予数据库访问权限,则会因该用户 ...

  8. linux 不在sudoers文件中、普通用户获得sudo权限

    现在要让jack用户获得sudo使用权 切换到超级用户root $su root 查看/etc/sudoers权限,可以看到当前权限为440 $ ls -all /etc/sudoers -r--r- ...

  9. 目标用户偏好指数Target Group Index分析

    目标用户偏好指数Target Group Index分析 TGI指数,全称Target Group Index,可以反映目标群体在特定研究范围内强势或者弱势. TGI指数计算公式 = 目标群体中具有某 ...

随机推荐

  1. 单片机IAP学习

    1.IAP是什么--简介 IAP是In Application Programming的首字母缩写,IAP是用户自己的程序在运行过程中对User Flash的部分区域进行烧写,目的是为了在产品发布后可 ...

  2. 【flex弹性盒布局】------这个强大的功能

    你知道flex弹性布局么? 我们先来了解它的概念:Flex是Flexible Box的缩写,意为"弹性布局",用来为盒状模型提供最大的灵活性. 任何一个容器都可以指定为Flex布局 ...

  3. Circuit Breaker Features

    Better to use a circuit breaker which supports the following set of features: Automatically time-out ...

  4. javaWeb学习总结(4)- HTML 关于head中的<meta>标签

    关于<meta> 标签 <meta>标签出现在网页的标题部分,这些信息并不会出现在浏览器页面的显示之中,只会显示在源代码中.也就是在...当中. 主要用途是设置网页语言的编码方 ...

  5. Android框架式编程之BufferKnife

    配置 compile 'com.jakewharton:butterknife:(insert latest version)' annotationProcessor 'com.jakewharto ...

  6. 使用ConcurrentDictionary替代Hashtable对多线程的对象缓存处理

    在之前一段时间里面,我的基类多数使用lock和Hashtable组合实现多线程内缓存的冲突处理,不过有时候使用这两个搭配并不尽如人意,偶尔还是出现了集合已经加入的异常,对代码做多方的处理后依然如故,最 ...

  7. iOS-创建自己的日志系统

    今天说说怎么创建自己的日志系统 先看下Xcode自己的日志(这里说的NSLog) 系统自带的NSLog打印的信息只有简单的 时间 / 项目名称 / 打印内容 内容比较简单, 很难做分类管理和写入文件 ...

  8. javaSE_Java第一周总结:有难度题目集合

    第一周练习总结 说明:尽量采用多种做法解决 1.使用三种方法实现变量交换 public class Test1Change{ public static void main(String[] args ...

  9. 有趣而又被忽略的Unity技巧

    0x00 前言 本文的内容主要来自YouTube播主Brackeys的视频TOP 10 UNITY TIPS 和TOP 10 UNITY TIPS #2.在此基础上经过自己的实践和筛选之后,选择了几个 ...

  10. 基于Python + requests 的web接口自动化测试框架

    之前采用JMeter进行接口测试,每次给带新人进行培训比较麻烦,干脆用python实现,将代码和用例分离,易于维护. 项目背景 公司的软件采用B/S架构,进行数据存储.分析.管理 工具选择 pytho ...