1、爬www.haha56.net/main/youmo网站的内容

  1. ieimport requests
  2. import re
  3. response=requests.get("http://www.haha56.net/main/youmo/")
  4. response.encoding="gb2312"
  5. data=response.text
  6. #print(data)
  7. content_res = re.findall('<dd class="preview">(.*?)</dd>', data)
  8. title_res = re.findall('<a href=".*?" target="_blank">(.*?)</a>', data)
  9. title_res=title_res[1:11]
  10. content_res = content_res[1:11]
  11. for i in range(len(content_res)):
  12. print(title_res[i])
  13. print(content_res[i])

2、爬https://www.doutula.com/photo/list/网站的图片

  1. import requests
  2. import re
  3. response=requests.get('https://www.doutula.com/photo/list/')
  4. data=response.text
  5. img_res=re.findall('data-original="(.*?)"',data)
  6. for i in img_res:
  7. img_respone=requests.get(i)
  8. img_data=img_respone.content
  9. img_name=i.split('/')[-1]
  10. f=open(img_name,'wb')
  11. f.write(img_data)

3、对www.haha56.net/main/youmo网站的内容进行词频分析

  1. import jieba
  2. f=open(r'E:\实习\编程\实习\day07\2.txt','r',encoding='gb2312')
  3. data=f.read()
  4. data_jieba=jieba.lcut(data)
  5. dict={}
  6. for word in data_jieba:
  7. if len(word)==1:
  8. continue
  9. if word in{"一二","货在","一家","猛吃","时说","没带","一顿"}:
  10. continue
  11. if word in dict:
  12. dict[word]+=1
  13. else:
  14. dict[word]=1
  15. def func(i):
  16. return i[1]
  17. data_list=list(dict.items())
  18. data_list.sort(key=func)
  19. for i in data_list[0:10]:
  20. print(f'{i[0]:^6}{i[1]^5}')

4、对www.haha56.net/main/youmo网站的内容进行词云制作

  1. # coding=gbk
  2. import wordcloud
  3. from imageio import imread
  4. mask=imread(r'E:\实习\编程\实习\day07\3.png')
  5. f=open(r'E:\实习\编程\实习\day07\2.txt')
  6. data=f.read()
  7. w=wordcloud.WordCloud(font_path=r'C:\Windows\Fonts\simfang',mask=mask,width=700,height=700,background_color="black")
  8. w.generate(data)
  9. w.to_file('outfile.png')

python小白的爬虫之旅的更多相关文章

  1. Python爬虫之旅(一):小白也能懂的爬虫入门

    Python爬虫之旅(一):小白也能懂的爬虫入门   爬虫是什么 爬虫就是按照一定的规则,去抓取网页中的信息.爬虫流程大致分为以下几步: 向目标网页发送请求 获取请求的响应内容 按照一定的规则解析返回 ...

  2. python小白的初步爬虫

    前序:  最近工作不是很忙,领导突然找我谈话,说是谈话,其实就是分配活呗.果不其然,很快进入正题, 给了我一个网址链接,然后说需要商品的信息...巴拉巴拉.好吧,去做吧. 我当时的内心是崩溃的,pyt ...

  3. Python3.0版本 从听说python可以做爬虫到自己第一成功做出爬虫的经历

    前言 我自己是个python小白,工作也不是软件行业,但是日常没事时喜欢捣鼓一些小玩意,自身有点C语言基础. 听说python很火,可以做出爬虫去爬一些数据图片视频之类的东东,我的兴趣一下子就来了.然 ...

  4. 第十四章 web前端开发小白学爬虫

    老猿从事IT开发快三十年了,接触互联网也很久了,但自己没有做过web前端开发,只知道与前端开发相关的一些基本概念,如B/S架构.html标签.js脚本.css样式.xml解析.cookies.http ...

  5. 《小白的CFD之旅》招募写手

    <小白的CFD之旅>系列招募写手. 由于工作繁忙,<小白的CFD之旅>系列更新缓慢,现招募志愿者写手.这是一个分享平台,欢迎各位愿意分享自己CFD学习经历的朋友们. <小 ...

  6. 【小白的CFD之旅】13 敲门实例【续3】

    接上文[小白的CFD之旅]12 敲门实例[续2] 4 Results4.1 计算监测图形4.2 Graphics4.2.1 壁面温度分布4.2.2 创建截面4.2.3 显示截面物理量4.2.4 Pat ...

  7. 【小白的CFD之旅】12 敲门实例【续2】

    接上文[小白的CFD之旅]敲门实例[续] 主要内容 3 Solution3.1 Solution Methods3.2 Solution Controls3.3 Monitors3.4 Report ...

  8. 【小白的CFD之旅】11 敲门实例【续】

    主要内容: 接上文[小白的CFD之旅]10 敲门实例 2.4 Materials设置2.5 Cell Zone Conditions2.6 Boundary Conditons2.7 Dynamic ...

  9. 【小白的CFD之旅】01 引子

    小白的CFD之旅 写在前面 CFD是计算流体力学的英文简称,是计算机辅助工程(CAE)的主要分支,目前广泛应用与科学研究.工程设计中.这是一门综合了数学.计算机及流体力学的综合学科,涉及到众多的专业理 ...

随机推荐

  1. 【C语言】思维导图

    长按图片或右键另存为保存哦(´-ω-`)

  2. 分组拼接字符串,GROUP_CONCAT

    背景 一年过的很快,文中后来的两位员工 馮大 和 馮二 也要面对无情的 KPI 考核了,他们工作干的很不错,performance 分别是 4 和 5 新需求来了,静悄悄的来了!!! 领导想要查看每个 ...

  3. Python获取最新电影的信息

    这次将从电影天堂获取最新的电影的详细信息,这里电影的信息罗列的比较详细. 本来只是想获取电影的迅雷链接,然后用迅雷去下载.但看到这里的电影的信息比较完整和详细,忍不住把所有信息都爬取下来了. 下图是& ...

  4. SpringMVC项目使用elastic search搜索

    项目需要,引入了elastic search(后续简称es),后面将介绍本地对es的安装,使用以及java连接es查询的整个过程. 1.es索引字段建立与修改,以curl新增一个索引字段示例 curl ...

  5. koa2第一天

    router.get("/hello",async(ctx )=>{ const a=await new Promise(reslove=>reslove(123)) ...

  6. Spark On Yarn搭建及各运行模式说明

    之前记录Yarn:Hadoop2.0之YARN组件,这次使用Docker搭建Spark On  Yarn 一.各运行模式 1.单机模式 该模式被称为Local[N]模式,是用单机的多个线程来模拟Spa ...

  7. springMVC 校验时,CustomValidationMessages.properties中的错误提示信息的中文乱码 问题

    今天在学习springmvc的校验时,遇到了CustomValidationMessages.properties配置文件的信息,才错误提示时是乱码的问题:在网上找了很多方法都没解决:最后原来是在配置 ...

  8. CodeForces Gym 100213F Counterfeit Money

    CodeForces Gym题目页面传送门 有\(1\)个\(n1\times m1\)的字符矩阵\(a\)和\(1\)个\(n2\times m2\)的字符矩阵\(b\),求\(a,b\)的最大公共 ...

  9. Java“被迫”退出争霸,Python继续霸占首位!老牌程序员:我不服

    2019年转眼已经接近尾声,如果盘点下2019年最火的语言,除了Python还能有谁?你心中的王者语言又是谁? 这一年Python风光无限 这一年JAVA走向右边 这一年,我们都很感慨,你呢? 关于P ...

  10. 将 master 节点服务器从 k8s 集群中移除并重新加入

    背景 1 台 master 加入集群后发现忘了修改主机名,而在 k8s 集群中修改节点主机名非常麻烦,不如将 master 退出集群改名并重新加入集群(前提是用的是高可用集群). 操作步骤 ssh 登 ...