python 培训之爬虫

1. 输入文件为

fufang_list.txt

yaofang_a    aaiwan    阿艾丸

yaofang_a    aaiwulingsan    阿艾五苓散

yaofang_a    acaitang    阿菜汤

yaofang_a    afurongjiu    阿芙蓉酒

yaofang_a    aqietuoyao    阿伽陀药

yaofang_a    aweichubisan    阿魏搐鼻散

yaofang_a    aweigao    阿魏膏

yaofang_a    aweigaoyao    阿魏膏药

yaofang_a    aweihuapigao    阿魏化痞膏

yaofang_a    aweihuapisan    阿魏化痞散

yaofang_a    aweijikuaiwan    阿魏积块丸

yaofang_a    aweileiwansan    阿魏雷丸散

yaofang_a    aweilizhongwan    阿魏理中丸

yaofang_a    aweiliangjiangwan    阿魏良姜丸

yaofang_a    aweiruanjiansan    阿魏软坚散

yaofang_a    aweisan    阿魏散

yaofang_a    aweishexiangsan    阿魏麝香散

yaofang_a    aweitongjingwan    阿魏通经丸

yaofang_a    aweiwan    阿魏丸

yaofang_a    aweiwanlinggao    阿魏万灵膏

2. 爬虫脚本

get_tcmdata.py

#!/usr/bin/python

#coding:utf8

from __future__ import print_function

import click

import urllib2

import re

from bs4 import BeautifulSoup

import sys

reload(sys)

import socket

sys.setdefaultencoding("utf8")

socket.setdefaulttimeout(20)

base_url = "http://www.zysj.com.cn/zhongyaofang/{}.html"

headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

@click.command()

@click.argument('input1')

@click.option("--pos",'-pos')

def query_tcm_info(input1,pos):

    """

    the script will ignore the previous pos lines

    """

    zhongyaofang_list = open(input1)

    pos = int(pos)

    num = 0

    if pos:

        for i in range(0,pos):

            zhongyaofang_list.readline()

    num = num + pos

    for zhongyaofang_info in zhongyaofang_list:

        num = num +1

        zhongyaofang_info_list = zhongyaofang_info.strip("\n").split("\t")

        url_id = "/".join(zhongyaofang_info_list[0:2])

        file_out = "_".join(zhongyaofang_info_list[0:2])

        file_out_name = "_".join([file_out,str(num)])

        output_file = open(file_out_name+".txt","w")

        query_url = base_url.format(url_id)

        req = urllib2.Request(query_url,headers = headers)

        content = urllib2.urlopen(req,timeout=20).read()

        soup = BeautifulSoup(content)

        words = soup.getText()

        output_file.write(words)

if __name__ == "__main__":

    query_tcm_info()

3. 运行脚本命令

python get_tcmdata.py fufang_list.txt --pos 0

4. 简单百度爬虫

#!/usr/bin/python

#coding:utf8

from __future__ import print_function

import sys

reload(sys)

sys.setdefaultencoding("utf8")

import urllib2

request = urllib2.Request(url)

request.add_data('a',"")

request.add_heder('User-Agent',"Mozilla/5.0")

response = urllib2.urlopen(request)

cont = response.read()

print(cont)

m = requests.post("http://www.megabionet.org/tcmid/ingredientsearch/?name=adonitol")

m.url

python 培训之爬虫的更多相关文章

智普教育Python培训之Python开发视频教程网络爬虫实战项目
网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 01.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 02.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Pytho ...
老王Python培训视频教程（价值500元）【基础进阶项目篇 – 完整版】
老王Python培训视频教程(价值500元)[基础进阶项目篇 – 完整版] 教学大纲python基础篇1-25课时1.虚拟机安装ubuntu开发环境,第一个程序:hello python! (配置开发 ...
测试开发Python培训：实现屌丝的图片收藏愿望（小插曲）
测试开发Python培训:实现屌丝的图片收藏愿望(小插曲) 男学员在学习python的自动化过程中对于爬虫很感兴趣,有些学员就想能收藏一些图片,供自己欣赏.作为讲师只能是满足愿望,帮助大家实现对美的追 ...
测试开发Python培训：抓取新浪微博抓取数据-技术篇
测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的se ...
曾Python培训讲师-2年Python开发无包装简历-20191217-可公开
目录个人介绍技能介绍项目经历自我评价简历非完整版,需要完整版看下述信息,禁止任何一切私人用途.转发我生日是27号,那就27元一份,有需求的来购买!只会涨价不会降价,大概卖10份涨1元:曾P ...
Python 开发轻量级爬虫08
Python 开发轻量级爬虫 (imooc总结08--爬虫实例--分析目标) 怎么开发一个爬虫?开发一个爬虫包含哪些步骤呢? 1.确定要抓取得目标,即抓取哪些网站的哪些网页的哪部分数据. 本实例确定抓 ...
Python 开发轻量级爬虫07
Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装使用pip install 安装:在命令行cmd之后输入,pip i ...
Python 开发轻量级爬虫06
Python 开发轻量级爬虫 (imooc总结06--网页解析器) 介绍网页解析器将互联网的网页获取到本地以后,我们需要对它们进行解析才能够提取出我们需要的内容. 也就是说网页解析器是从网页中提取有 ...
Python 开发轻量级爬虫05
Python 开发轻量级爬虫 (imooc总结05--网页下载器) 介绍网页下载器网页下载器是将互联网上url对应的网页下载到本地的工具.因为将网页下载到本地才能进行后续的分析处理,可以说网页下载器 ...

随机推荐

发短信的简单实现——C#版
为了验证操作人的身份,界面中通常会有获取验证码的功能.及点击获取验证码就会往你输入的手机号里面发送一条短信进行验证. 最近公司给我的任务中也包含这个功能,那么接下来就让我讲解下. ---------- ...
Web服务器磁盘满故障
问题: 硬盘显示被写满,但是用du -sh /*查看时占用硬盘空间之和还远小于硬盘大小,即找不到硬盘分区是怎么被写满的.今天下午接到同事紧急求助,说生产线服务器硬盘满了.该删的日志都删掉了.可空间还是 ...
46-df 显示磁盘空间的使用情况
显示磁盘空间的使用情况 df [options] [filesystem-list] 参数当不带任何参数调用df时,用户将获得本地系统上每个挂载设备的空闲空间 filesystem-list是一个或 ...
URL（待整合到HTTP书中哦）
一:scheme://host.domain:port/path/filename scheme - 定义因特网服务的类型.最常见的类型是 http host - 定义域主机(http 的默认主机是 ...
Android下常见的四种对话框
摘要:在实际开发过程有时为了能够和用户进行很好的交互,需要使用到对话框,在Android中常用的对话框有四种:普通对话框.单选对话框.多选对话框.进度对话框. 一.普度对话框 public void ...
mysql中insert into select from的使用
如何在mysql从多个表中组合字段然后插入到一个新表中,通过一条sql语句实现.具体情形是:有三张表a.b.c,现在需要从表b和表c中分别查几个字段的值插入到表a中对应的字段.对于这种情况,我们可以使 ...
状态压缩 HDU 3182
t组数据 n个汉堡 e的能量接下来的2行 val n个得到的权 cost n个花去的能量接下来n行每行一个q q个数字代表这类汉堡做好要的前提每个汉堡只能用一次 #inclu ...
Java发送邮件代码
MailSenderInfo.java package com.nihaorz.mail.util; import java.util.Properties; public class MailSen ...
100114J
经过思考后,很明显,我们可以看出应该是求出两条最长的链,链是指挂在连通块上的
python 模块的介绍（一）
模块让你能够有逻辑地组织你的Python代码段. 把相关的代码分配到一个模块里能让你的代码更好用,更易懂. 模块也是Python对象,具有随机的名字属性用来绑定或引用. 简单地说,模块就是一个保存了 ...

python 培训之爬虫

python 培训之爬虫的更多相关文章

随机推荐

热门专题