用python从网页下载单词库

从网站下载单词库

1 每一页有几百个单词

2 每一个单词有独立的URL，URL中包含单词的中文解释

3 使用的库 requests,pyquery,web

#coding:utf-8

import requests as rq

from pyquery import PyQuery as pq

import web

import threading

db = web.database(dbn="sqlite",db="gre.db")

def initDB():

    _initSQL = """

        CREATE TABLE IF NOT EXISTS gre_word(

            id INTEGER PRIMARY KEY,

            word VARCHAR(200),

            meaning VARCHAR(200)

        )

    """

    db.query(_initSQL)

def get_html(url):

    """获取html文档"""

    headers={

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'

    }

    response = rq.get(url=url,headers=headers)

    return response.content

def get_words(html):

    """

        获取单词表，返回值：[(单词，单词链接)]

    """

    url_pre = "https://www.koolearn.com"

    word = pq(html)

    words = [(i.text(),"{}{}".format(url_pre,i.attr("href"))) for i in word(".word-box a.word").items()]

    return words

def insert_words(word,meaning):

    """插入单词"""

    db.insert(

        "gre_word",

        word = word,

        meaning = meaning,

    )

    print("insert ok!")

def get_word_meaning(wordURL):

    """获取单词含义"""

    doc = pq(get_html(wordURL))

    try:

        meaning = doc("li.clearfix").text()

    except:

        meaning = ""

    return meaning

if __name__ == "__main__":

    url = "https://www.koolearn.com/dict/tag_921_{}.html"

    import time

    startT = time.time()

    db.delete("gre_word",where="1")

    for i in range(1,31):

        html_ = get_html(url.format(i))

        words = get_words(html_)

        with db.transaction():

            for j in words:

                word,meaning = j[0],get_word_meaning(j[1])

                insert_words(word,meaning)

    endT = time.time()

    print(endT - startT)

没有使用线程。

用python从网页下载单词库的更多相关文章

Python——pip快速下载第三方库到指定环境
pip install Scikit-learn --target=C:/Users/Jery/PycharmProjects/play/venv/Lib/site-packages -i https ...
Python用pip安装第三方库时换源下载
pip默认是从Python官网下载第三方库,从国外下载当然不如从国内下载来得快豆瓣:https://pypi.doubanio.com/simple 还有其它源,阿里云等等,一个就够用了用pip安 ...
Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...
用 python 实现一个多线程网页下载器
今天上来分享一下昨天实现的一个多线程网页下载器. 这是一个有着真实需求的实现,我的用途是拿它来通过 HTTP 方式向服务器提交游戏数据.把它放上来也是想大家帮忙挑刺,找找 bug,让它工作得更好. k ...
Python中导入第三方声源库Acoular的逻辑解释以及Acoular的下载
[声明]欢迎转载,但请保留文章原始出处→_→ 秦学苦练:http://www.cnblogs.com/Qinstudy/ 文章来源:http://www.cnblogs.com/Qinstudy/p/ ...
Python爬虫、自动化常用库&帮助文档URL
一.Python下载地址 Windows终端Cmder.exe下载--->http://cmder.net/ Python下载(Windows) ---> https://w ...
用python做网页抓取与解析入门笔记[zz]
(from http://chentingpc.me/article/?id=961) 事情的起因是,我做survey的时候搜到了这两本书:Computational Social Network A ...
Python爬虫--- 1.1请求库的安装与使用
来说先说爬虫的原理:爬虫本质上是模拟人浏览信息的过程,只不过他通过计算机来达到快速抓取筛选信息的目的所以我们想要写一个爬虫,最基本的就是要将我们需要抓取信息的网页原原本本的抓取下来.这个时候就要用到请 ...
python调用c++/c 共享库，开发板上编译的一些坑！
1.对于python,ctypes只能load动态库,但现在我的对象是一个静态库,而且我没有源代码,静态库在编译过程中没有加--fPIC参数,所以我也没办法将其编译为动态库,有没有什么方法在pytho ...
Android Studio 更换国内源下载依赖库
我的博客:http://daycoding.com 小小程序猿由于国内GFW的原因,经常导致android studio 莫名其妙的编译不了,多数原因是由于不能下载依赖库 Gradle支持三种不同的 ...

随机推荐

IDEA 2022 开启热部署
POM.XML <dependency> <groupId>org.springframework.boot</groupId> <artifactId> ...
Dao包对数据库的操作
//添加 public static int add(Bean1 bean){ String sql = "insert into classtable(classname,teacher, ...
详解神经网络基础部件BN层
摘要:在深度神经网络训练的过程中,由于网络中参数变化而引起网络中间层数据分布发生变化的这一过程被称为内部协变量偏移(Internal Covariate Shift),而 BN 可以解决这个问题. 本 ...
大规模 IoT 边缘容器集群管理的几种架构-4-Kubeedge
前文回顾大规模 IoT 边缘容器集群管理的几种架构-0-边缘容器及架构简介大规模 IoT 边缘容器集群管理的几种架构-1-Rancher+K3s 大规模 IoT 边缘容器集群管理的几种架构-2-H ...
LG P3803 【模板】多项式乘法
\(\text{FFT}\) 模板 #include <cstdio> #include <iostream> #include <cmath> #define r ...
如何在电脑上配置Vue开发环境
一,开发环境 : Node JS(npm) Visual Studio Code(前端IDE) 安装NodeJS 下载地址: nodejs中文网 Visual Studio Code 官网下载地址 h ...
Net Core 网关 Ocelot 简单案例
1.什么是Ocelot Ocelot是一个用.NET Core实现并且开源的API网关,它功能强大,包括了:路由.请求聚合.服务发现.认证.鉴权.限流熔断.并内置了负载均衡器与Service Fabr ...
从NLP视角看电视剧《狂飙》，会有什么发现？
目录 1.背景 2.数据获取 3.文本分析与可视化 3.1 短评数据预处理 3.2 词云图可视化 3.3 top关键词共现矩阵网络 3.4 <狂飙>演职员图谱构建 4.短评相关数据分析与可 ...
mac sourceTree 每次操作提示需要密码
1.在终端(terminal)打开你的工程目录2.输入git config credential.helper store 3.拉取代码git pull
CRM管理系统界面

用python从网页下载单词库

从网站下载单词库

用python从网页下载单词库的更多相关文章

随机推荐

热门专题