此系列博文链接

TODO:

EF6中基本认识.

EF6操作mysql

MySQL乱码问题

C#爬虫

在开头贴一下github仓库地址,代码都放在上面.有需要可以参考. 仓库地址

  1. 分析网站,抓包

    这部分还算简单,用谷歌自带的开发者工具查看请求头参数等信息

    搜索商品基本的url是:https://search.jd.com/Search.补上一些参数即可,用谷歌浏览器的代理,否则拿不到数据.京东对爬虫还是比较友好的,除了一个浏览器代理其他没啥反爬虫的玩意儿.下面这个是RequestHeader,加上圈出来的三个即可,其他的没有用到

    还有几个参数要设置一下要在url中设置一下.

    在C#中写了个静态方法设置url的参数:

     public static string SetUrlParameters(string url, Dictionary<string, string> parameters)
    {
    string result = url;
    if (parameters.Count &gt; 0)
    {
    result += &quot;?&quot;;
    foreach (KeyValuePair&lt;string, string&gt; keyValuePair in parameters)
    {
    result = string.Format(&quot;{0}{1}={2}&amp;&quot;, result, keyValuePair.Key,
    keyValuePair.Value);
    } result = result.TrimEnd(&apos;&amp;&apos;);
    } return result;

    }

  2. 编写代码

    根据习惯还是分了三层(捂脸),项目目录结构:

    这里遇到的问题是在用entityframe6操作数据库的时候,采用codefirst方式,生成数据库的时候数据库的默认编码不是utf8,后来在数据库连接字符串里加了个 Character Set=utf8,设置完之后还是没用,又跑到阿里云设置了一下mysql的默认编码方式,然后好了.具体解决会写在另一篇博文中.

    还有问题就是codefirst建立模型,模型之间的关系一开始没有搞清楚,导致像数据库写数据的时候一直无法写入.一个写了三个实体类,分别是Shop Commodity Mobile,Shop(店铺)和Mobile(继承自Commodity)是多对多的关系,一个店铺可以有多个商品,一个商品也可以来自多个店铺,然而我这里并没有用商品Id作为主键,反而一个商品可以出现任意次,因为考虑到分析商品价格随时间的变化.关于EntityFramework6如何设置模型之间的关系也会在另一篇博文呈现.

    程序运行的一个截图:



    我大概爬了五千条左右的数据,再来数据库的截图

    其他的代码不一一赘述了,放到github上了.

    仓库地址

下面还有PowerBI部分

花了不少时间处理数据库那边,这部分就简单的图形化操作了一下,虽然拿了五千条左右的数据,还真不知道用来干点啥(捂脸).

最直观的是想比较同一个手机在不同店铺的售价,用了个直方图,但是效果不太理想,筛选了几种型号的手机,可惜京东上的手机店铺就那么几家,大部分都是自营店铺.截图如下:

然后用了一个饼图,看了一下各个手机厂商旗下都有多少种不同型号的手机.感叹一下,华为出手机真是勤快,不看不知道一看吓一跳,华为手机的型号,居然占了将近四分之一了.其实数据未必可靠,毕竟像oppo和vivo这些厂很多机型基本只有线下才有的卖.另外可以看到型号较少的手机美图(偷笑),报上了小米的大腿,也算是有个善终吧,当年自己还在官网想抢购一个美图然后加钱卖出去呢(可惜没抢到).

看了下powerBI自带的还有个漏斗图,随便拖了几个字段进去,看一下京东上哪家店铺卖的手机种类最多吧.可以看到,小米自营店卖的在售的手机是最多的

PowerBI确实很强大哦,微软爸爸的技术很牛逼,看了下PowerBI里还有一个叫多行卡的图表控件,用它做个表,以后买手机再也不用纠结了.拖几个字段进去,然后可以利用字段筛选满足自己要求的手机.

上面的看了那么多,好像还有一个最重要的就是价格还没有分析!暂时想不出什么好的方法来分析价格,就简单粗暴的上个折线图吧,看看最贵的手机是谁.



本以为苹果手机是最贵的,没想到华为的保时捷版本力压群雄,成为京东上最贵的手机.奇怪我记得当年这玩意儿我也在官网上抢购过(没抢到),不是说是限量发售吗~~.

最后实在想不出还能搞啥了,就用饼图和柱状图拖了几个字段看一下效果:

可以很直观的看到华为的价格是最贵的.

总结

利用这次做的东西,巩固了一下C#的linq的操作,之前数据库用的比较新的efcore操作的这次用的ef6,遇到些坑,不过,Linq真是个好东西,再来一句微软牛逼!!虽然微软曾经也有不完美的地方,但是正在往越来越好的方向发展,希望中国未来也能出现像微软这样优秀的软件+硬件厂商(近几年微软手机做的不行,surface系产品还是不错的,自己买了个二手的surface pro4用着还是舒服的).这次很大一部分时间是被坑在了数据库MySql上了,不是微软亲儿子结合ef用起来没那么爽>唉,还是自己比较菜吧(捂脸),好在最后问题解决了.

  </div>

C#爬取京东手机数据+PowerBI数据可视化展示的更多相关文章

  1. Java实现爬取京东手机数据

    Java实现爬取京东手机数据 最近看了某马的Java爬虫视频,看完后自己上手操作了下,基本达到了爬数据的要求,HTML页面源码也刚好复习了下,之前发布两篇关于简单爬虫的文章,也刚好用得上.项目没什么太 ...

  2. python 爬取京东手机图

    初学urllib,高手勿喷... import re import urllib.request #函数:每一页抓取的30张图片 def craw(url,page): imagelist = []# ...

  3. Python 爬虫-爬取京东手机页面的图片

    具体代码如下: __author__ = 'Fred Zhao' import requests from bs4 import BeautifulSoup import os from urllib ...

  4. python3[爬虫实战] 使用selenium,xpath爬取京东手机

    使用selenium ,可能感觉用的并不是很深刻吧,可能是用scrapy用多了的缘故吧.不过selenium确实强大,很多反爬虫的都可以用selenium来解决掉吧. 思路: 入口: 关键字搜索入口 ...

  5. 分布式爬虫系统设计、实现与实战:爬取京东、苏宁易购全网手机商品数据+MySQL、HBase存储

    http://blog.51cto.com/xpleaf/2093952 1 概述 在不用爬虫框架的情况,经过多方学习,尝试实现了一个分布式爬虫系统,并且可以将数据保存到不同地方,类似MySQL.HB ...

  6. Python爬虫实战(2):爬取京东商品列表

    1,引言 在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...

  7. 用scrapy爬取京东的数据

    本文目的是使用scrapy爬取京东上所有的手机数据,并将数据保存到MongoDB中. 一.项目介绍 主要目标 1.使用scrapy爬取京东上所有的手机数据 2.将爬取的数据存储到MongoDB 环境 ...

  8. webMagic+RabbitMQ+ES爬取京东建材数据

    本次爬虫所要爬取的数据为京东建材数据,在爬取京东的过程中,发现京东并没有做反爬虫动作,所以爬取的过程还是比较顺利的. 为什么要用WebMagic: WebMagic作为一款轻量级的Java爬虫框架,可 ...

  9. Scrapy实战篇(八)之Scrapy对接selenium爬取京东商城商品数据

    本篇目标:我们以爬取京东商城商品数据为例,展示Scrapy框架对接selenium爬取京东商城商品数据. 背景: 京东商城页面为js动态加载页面,直接使用request请求,无法得到我们想要的商品数据 ...

随机推荐

  1. 企业官网原型制作分享-Starbucks

    星巴克是全球著名的咖啡连锁店,星巴克的产品不单是咖啡,咖啡只是一种载体.而正是通过咖啡这种载体,星巴克把一种独特的格调传送给顾客.咖啡的消费很大程度上是一种感性的文化层次上的消费,文化的沟通需要的就是 ...

  2. vue动态路由配置,vue路由传参

    动态路由: 当我们很多个页面或者组件都要被很多次重复利用的时候,我们的路由都指向同一个组件,这时候从不同组件进入一个"共用"的组件,并且还要传参数,渲染不同的数据 这就要用到动态路 ...

  3. dedecms 安装后 管理后台ie假死 无响应的解决方法

    在网站后台(我的是dede)uploads/emplets/index_body.htm中找到并注释掉以下代码: <script type=”text/javascript”>functi ...

  4. Python : locals and globals

    Python有两个内置的函数,locals() 和globals(),它们提供了基于字典的访问局部和全局变量的方式.Python使用叫做名字空间的东西来记录变量的轨迹.名字空间只是一个 字典,它的键字 ...

  5. 2017-2018-1 20155312《信息安全技术》实验二——Windows口令破解实验报告

    2017-2018-1 20155312<信息安全技术>实验二--Windows口令破解实验报告 实验目的 了解Windows口令破解原理 对信息安全有直观感性认识 能够运用工具实现口令破 ...

  6. 686. Repeated String Match

    方法一.算是暴力解法吧,拼一段找一下 static int wing=[]() { std::ios::sync_with_stdio(false); cin.tie(NULL); ; }(); cl ...

  7. 2018.11.07 bzoj2751: [HAOI2012]容易题(easy)(组合数学)

    传送门 组合数学一眼题. 感觉一直做这种题智商会降低. 利用组合数学的分步计数原理. 只用关心每个数不被限制的取值的总和然后乘起来就可以了. 对于大部分数都不会被限制,总和都是n(n+1)2\frac ...

  8. vbs解析 JSON格式数据

    Function jsonParser(str,jsonKey) Set sc = CreateObject("MSScriptControl.ScriptControl") sc ...

  9. 菜品识别 SDK调用

    from aip import AipImageClassify import os """ 填入参数 """ APP_ID = 'your ...

  10. boost-使用property_tree来解析xml、json

    property_tree是一个保存了多个属性值的树形数据结构,可以用来解析xml.json.ini.info文件.要使用property_tree和xml解析组件的话需要包含"boost/ ...