闲来无事,玩了个成语接龙,于是就想用python爬取下成语网站上的成语,直接上代码:

  1. #coding=utf-8
  2.  
  3. import requests
  4. from bs4 import BeautifulSoup
  5. import sqlite3
  6. import uuid
  7.  
  8. conn = sqlite3.connect("idiombase.db3") #创建sqlite.db数据库
  9. print ("open database success")
  10. conn.execute("drop table IF EXISTS idiom")
  11. query = """create table IF NOT EXISTS idiom(
  12. id VARCHAR(50),
  13. word VARCHAR(50)
  14. );"""
  15. conn.execute(query)
  16. print ("Table created successfully")
  17.  
  18. all_url = 'http://chengyu.t086.com/'
  19.  
  20. #http请求头
  21. Hostreferer = {
  22. 'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
  23. 'Referer':'http://chengyu.t086.com/'
  24. }
  25.  
  26. word=['A','B','C','D','E','F','G','H','J','K','L','M','N','O','P','Q','R','S','T','W','X','Y','Z']
  27.  
  28. for w in word:
  29.  
  30. for n in range(1,100):
  31.  
  32. url=all_url+'list/'+w+'_'+str(n)+'.html'
  33.  
  34. start_html = requests.get(url,headers = Hostreferer)
  35. if(start_html.status_code==404):
  36. break
  37. start_html.encoding='gb2312'
  38. soup = BeautifulSoup(start_html.text,"html.parser")
  39.  
  40. listw = soup.find('div',class_='listw')
  41.  
  42. lista = listw.find_all('a')
  43. for p in lista:
  44. print(p.text)
  45. ids=str(uuid.uuid1())
  46. query = "insert into idiom (id,word) values ('"+ids+"','"+p.text+"');"
  47. conn.execute(query)
  48. conn.commit()

取到数据后,保存在里sqlite数据库中,以后想用的时候随便取

[代码]--python爬虫联系--爬取成语的更多相关文章

  1. Python爬虫之爬取慕课网课程评分

    BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...

  2. [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

    转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍 源码下载地址:http://download.csdn.net/ ...

  3. from appium import webdriver 使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium)

    使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...

  4. Python爬虫之爬取站内所有图片

    title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...

  5. python爬虫实战---爬取大众点评评论

    python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...

  6. Python爬虫之爬取淘女郎照片示例详解

    这篇文章主要介绍了Python爬虫之爬取淘女郎照片示例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 本篇目标 抓取淘宝MM ...

  7. python爬虫项目-爬取雪球网金融数据(关注、持续更新)

    (一)python金融数据爬虫项目 爬取目标:雪球网(起始url:https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_ ...

  8. 初次尝试python爬虫,爬取小说网站的小说。

    本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...

  9. python 爬虫之爬取大街网(思路)

    由于需要,本人需要对大街网招聘信息进行分析,故写了个爬虫进行爬取.这里我将记录一下,本人爬取大街网的思路. 附:爬取得数据仅供自己分析所用,并未用作其它用途. 附:本篇适合有一定 爬虫基础 crawl ...

随机推荐

  1. iScroll.js插件使用方法

    iScroll.js 用法参考 (share) 分享是传播.学习知识最好的方法 以下这篇文章是iScroll.js官网的中文翻译,尽管自己英文不好,但觉得原作者们翻译的这个资料还是可以的,基本用法介绍 ...

  2. AI 正则化

    正则化,是减少泛化误差的技术.

  3. Excel 2007 底层实现方式

    一.EXCEL的底层实现 能力有限,了解的比较浅,有不足之处望指正,首先看下图: 一. excel2007是使用xml格式来存储的,把一个excel文件后缀改为.zip,打开之后就直接可以看到一个ex ...

  4. eclipse 报错Version 1.6.0_45 of the JVM is not suitable for this product. Version:1.7 or greater is required

    最近离职来了一家新公司,之前的公司的开发IDE用的是IntelliJIDEA和SpringSourceToolSuit,自己在家里用的也是MyEclipse,所以使用eclipse的经验还是不足.结果 ...

  5. 一篇自己都看不懂的CDQ分治&整体二分学习笔记

    作为一个永不咕咕咕的博主,我来更笔记辣qaq CDQ分治 CDQ分治的思想还是比较简单的.它的基本流程是: \(1.\)将所有修改操作和查询操作按照时间顺序并在一起,形成一段序列.显然,会影响查询操作 ...

  6. C#的抽象类别

    抽象类,有3个特点: 第1个,不能被实例化. 第2个,类中的抽象方法在继承的子类中必须重写. 第3个,类一旦有抽象方法出现,那这个类必须定义为抽象类. 现实开发中,发现有共同的代码,可以把这些共同的代 ...

  7. PowerDesign 16.0 生成的SQL Server2000 数据库脚本时MS_Description不存在的问题解决

    根据网上查询到的资料,找到了解决方法,原文出自:http://www.cnblogs.com/24tt/p/5047257.html PowerDesign 16.0 生成的Script语句,Sql2 ...

  8. springboot启动后总是自己shutdown

    现象 这几天一直被一个问题困扰,每次springboot的tomcat启动之后, 然后过了一段时间看, 进程就突然自己关闭掉了. 然后日志是: ationConfigEmbeddedWebApplic ...

  9. mysql 自增长

    auto_increment_increment=10;      #自增量每次增加的值改为10, auto_increment_offset=2;             #第一次加载数值时的偏移值 ...

  10. [Socket]Socket文件传输

    1.Server import java.io.DataInputStream; import java.io.FileOutputStream; import java.io.IOException ...