简单python爬虫实例

先放上url，https://music.douban.com/chart

这是豆瓣的一个音乐排行榜，这里爬取了左边部分的歌曲排行榜部分，爬虫很简单，就用到了beautifulsoup和requests这两个库，爬取后分吧把内容存储到txt，csv和数据库

0x01：存储到txt

import requests

from bs4 import BeautifulSoup

url = 'https://music.douban.com/chart'

html = requests.get(url=url).text

soup = BeautifulSoup(html, 'lxml')

ul = soup.find(attrs={'class': 'col5'})     # 找到存放排行榜音乐的ul标签

lis = ul.find_all(name='li')                # 获取每一首音乐对应的标签

for li in lis:

    paiming = li.find(name='span').string

    name = li.find(name='a', attrs={'href': 'javascript:;'}).string

    a = li.find(name='a', attrs={'class': 'face'})      # 获取存存放连接的a标签,再在a标签里获取连接

    if a != None:

        img = a.find(name='img')    # 获取连接的img标签

        lianjie = img.attrs['src']      # 获取到连接，下面进行一个判断，前十首歌曲有链接，后十首没有

    else:

        lianjie = '没有链接'

    print(paiming, name, lianjie)

    with open('dou_bai_music.txt', 'a', encoding='utf-8') as f:

        f.write(paiming+'\t'+name+'\t'+lianjie+'\n')

        f.close()

0x02：存储到csv

import requests

from bs4 import BeautifulSoup

import csv

url = 'https://music.douban.com/chart'

html = requests.get(url=url).text

soup = BeautifulSoup(html, 'lxml')

ul = soup.find(attrs={'class': 'col5'})     # 找到存放排行榜音乐的ul标签

lis = ul.find_all(name='li')                # 获取每一首音乐对应的标签

with open('doubai.csv', 'a', newline='', encoding='utf-8') as f:　　　　# 打开文件，写入表头

    write = csv.writer(f)

    write.writerow(['排名', '歌名', '链接'])

for li in lis:

    paiming = li.find(name='span').string

    name = li.find(name='a', attrs={'href': 'javascript:;'}).string

    a = li.find(name='a', attrs={'class': 'face'})      # 获取存存放连接的a标签,再在a标签里获取连接

    if a != None:

        img = a.find(name='img')    # 获取连接的img标签

        lianjie = img.attrs['src']      # 获取到连接

    else:

        lianjie = '没有链接'

    print(paiming, name, lianjie)

    with open('doubai.csv', 'a', newline='', encoding='utf-8') as f:　　# 打开文件，存储爬取内容

        write = csv.writer(f)

        write.writerow([paiming, name, lianjie])

0x03：存储到数据库

import requests

from bs4 import BeautifulSoup

import pymysql

url = 'https://music.douban.com/chart'

html = requests.get(url=url).text

soup = BeautifulSoup(html, 'lxml')

ul = soup.find(attrs={'class': 'col5'})     # 找到存放排行榜音乐的ul标签

lis = ul.find_all(name='li')                # 获取每一首音乐对应的标签

db = pymysql.connect(host='localhost', user='root', password='root', port=3306, db='spiders')　　# 连接数据库

cursor = db.cursor()

print('数据库连接成功')

sql = 'CREATE TABLE IF NOT EXISTS music (paiming INT NOT NULL, name VARCHAR(255) NOT NULL, lianjie VARCHAR(255) NOT NULL, PRIMARY KEY (paiming))'　　# 创建数据表，指定字段

cursor.execute(sql)

print('数据表创建完成！')

for li in lis:

    paiming = li.find(name='span').string

    name = li.find(name='a', attrs={'href': 'javascript:;'}).string

    a = li.find(name='a', attrs={'class': 'face'})      # 获取存存放连接的a标签,再在a标签里获取连接

    if a != None:

        img = a.find(name='img')    # 获取连接的img标签

        lianjie = img.attrs['src']      # 获取到连接

    else:

        lianjie = '没有链接'

    print(paiming, name, lianjie)

    sql = 'INSERT INTO music(paiming, name, lianjie) values(%s, %s, %s)'　　　　# 插入数据，判断是否插入成功

    try:

        cursor.execute(sql, (paiming, name, lianjie))

        db.commit()

        print('数据插入完成！！')

    except:

        print('插入失败')

        db.rollback()

db.close()　　　　　　# 关闭数据库

*******************************不积跬步，无以至里。******************************

简单python爬虫实例的更多相关文章

Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://bbs.51testing. ...
Python 利用Python编写简单网络爬虫实例2
利用Python编写简单网络爬虫实例2 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://www.51testing. ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
简单scrapy爬虫实例
简单scrapy爬虫实例流程分析抓取内容:网站课程页面:https://edu.hellobi.com 数据:课程名.课程链接及学习人数观察页面url变化规律以及页面源代码帮助我们获取所有数据 ...
python爬虫系列（1）——一个简单的爬虫实例
本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片. 1. 概述本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片.下载图片的步骤如下: 获取网页html文本内容:分析html中 ...
Python 爬虫实例
下面是我写的一个简单爬虫实例 1.定义函数读取html网页的源代码 2.从源代码通过正则表达式挑选出自己需要获取的内容 3.序列中的htm依次写到d盘 #!/usr/bin/python import ...
Python爬虫实例：糗百
看了下python爬虫用法,正则匹配过滤对应字段,这里进行最强外功:copy大法实践一开始是直接从参考链接复制粘贴的,发现由于糗百改版导致失败,这里对新版html分析后进行了简单改进,把整理过程记录 ...

随机推荐

《滴滴自研分布式 NoSQL 数据库 Fusion 的演进之路》
SSD:采用闪存: 读的速度很快:写入数据时,因为需要通过加压的方式对存储单元进行电子填充,所以速度略慢:擦除速度最慢,擦除块的时间在ms级.在使用SSD的时,需要考虑到SSD的读写不平衡的特性. 滴 ...
冒泡排序法（C语言）
冒泡排序(Bubble Sort)一种计算机科学领域的较简单的排序算法.它重复地走访过要排序的元素列,依次比较两个相邻的元素,如果顺序(如从大到小.首字母从从Z到A)错误就把他们交换过来.走访元素的工 ...
【CF525E】Anya and Cubes（meet in middle）
点此看题面大致题意: 在\(n\)个数中选任意个数,并使其中至多\(k\)个数\(x_i\)变为\(x_i!\),求使这些数和为\(S\)的方案数. \(meet\ in\ middle\) 这应该 ...
【CometOJ】Comet OJ - Contest #8 解题报告
点此进入比赛 \(A\):杀手皇后(点此看题面) 大致题意: 求字典序最小的字符串. 一场比赛总有送分题... #include<bits/stdc++.h> #define Tp tem ...
Paper | SkipNet: Learning Dynamic Routing in Convolutional Networks
目录 1. 概括 2. 相关工作 3. 方法细节门限模块的结构训练方法 4. 总结作者对residual network进行了改进:加入了gating network,基于上一层的激活值,得到一 ...
idea安装破解一条龙
1.官网下载2018.2月版本.(other version->选中2018.2) 2.下载JetbrainsCrack_jb51.rar http://wangshuo.jb51.net:81 ...
Ubuntu 安装git及git命令
1.检查git是否已经安装,输入git version命令即可,如果没有显示版本号表示没有安装git 2.安装git sudo apt-get install git 3.配置git全局环境git c ...
LeetCode 394：字符串解码 Decode String
题目: 给定一个经过编码的字符串,返回它解码后的字符串. Given an encoded string, return its decoded string. 编码规则为: k[encoded_st ...
D3力布图绘制--节点跑掉，单曲线弯曲问题记录
D3力布图绘制中遇到的交互问题,频繁操作数据后,会出现节点跑掉和单曲线弯曲的问题问题描述在id指向都正常的情况下出现以下2种状况: 单曲线弯曲节点跑掉经排查,是数据重复导致的问题线条也是一样 ...
TensorFlow函数: tf.stop_gradient
停止梯度计算. 在图形中执行时,此操作按原样输出其输入张量. 在构建计算梯度的操作时,这个操作会阻止将其输入的共享考虑在内.通常情况下,梯度生成器将操作添加到图形中,通过递归查找有助于其计算的输入来计 ...

简单python爬虫实例

简单python爬虫实例的更多相关文章

随机推荐

热门专题