Python多线程采集百度相关搜索关键词

百度相关搜索关键词抓取，读取txt关键词，导出txt关键词

#百度相关搜索关键词抓取，读取txt关键词，导出txt关键词

 

# -*- coding=utf-8 -*-

import requests

import re

import time

from multiprocessing.dummy import Pool as ThreadPool

 

 

#百度相关关键词查询

def xgss(url):

    headers = {

        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"

    }

    html=requests.get(url,headers=headers).text

    #print(html)

    ze=r'<div id="rs"><div class="tt">相关搜索</div><table cellpadding="0">(.+?)</table></div>'

    xgss=re.findall(ze,html,re.S)

    #print(xgss)

    xgze=r'<th><a href="(.+?)">(.+?)</a></th>'

    sj=re.findall(xgze,str(xgss),re.S)

    #print(sj)

    gjc=''

    for x in sj:

        print(x[1])

        gjc=gjc+x[1]+'\n'

 

    # 导出关键词为txt文本

    with open(".\gjcsj.txt", 'a', encoding='utf-8') as f:

        f.write(gjc)

    print("-----------------------------------")

    return gjc

 

 

print("程序运行，正在导入关键词列表！！！")

print("-----------------------------------")

# 导入要搜索的关键词txt列表

urls = []

data = []

for line in open('.\gjc.txt', "r", encoding='utf-8'):

    data.append(line)

print("导入关键词列表成功！")

print("-----------------------------------")

 

#转换关键词为搜索链接

for keyword in data:

    url = 'https://www.baidu.com/s?wd=' + keyword

    urls.append(url)

 

print("采集百度相关搜索关键词开启！")

print("...................")

#多线程获取相关关键词

try:

    # 开4个 worker，没有参数时默认是 cpu 的核心数

    pool = ThreadPool()

    results = pool.map(xgss, urls)

    pool.close()

    pool.join()

    print("采集百度相关搜索关键词完成，已保存于gjcsj.txt！")

except:

    print("Error: unable to start thread")

 

print("8s后程序自动关闭！！！")

time.sleep(8)

Python多线程采集百度相关搜索关键词的更多相关文章

python requests库网页爬取小实例：百度/360搜索关键词提交
百度/360搜索关键词提交全代码: #百度/360搜索关键词提交import requestskeyword='Python'try: #百度关键字 # kv={'wd':keyword} #360关 ...
C#winform抓取百度,Google搜索关键词结果
基于网站seo,做了一采集百度和Google搜索关键字结果的采集.在这里与大家分享一下先看先效果图代码附加: 1 private void baidu_Click(object sender ...
python多线程采集
import requests import json import threading Default_Header = { #具体请求头自己去弄 } _session=requests.sessi ...
python多线程采集图片
cmd中运行 >python untitled2.py 图片的网站 import requests import threading from bs4 import BeautifulSo ...
python多线程、多进程相关知识
Queue Queue用于建立和操作队列,常和threading类一起用来建立一个简单的线程队列. 首先,队列有很多种,根据进出顺序来分类,可以分成 Queue.Queue(maxsize) FIFO ...
python+selenium实现百度关键词搜索自动化操作
缘起之前公司找外面网络公司做某些业务相关关键词排名,了解了一下相关的情况,网络公司只需要我们提供网站地址和需要做的关键词即可,故猜想他们采取的方式应该是通过模拟用户搜索提升网站权重进而提升排名. 不 ...
js 获取百度搜索关键词的代码
有可能有时候我们会用到在百度搜什么关键词进来我们的网站的,所有我们又想拿到用户搜索的关键词. 这是我研究了半天所得出的办法.话不多说直接贴代码 <script> function quer ...
调用{dede:likewords}为dedecms添加相关搜索词
经常看到一些大型的网站会设置相关搜索,即使访客搜索的内容在本站暂时没有,它们也会展示一些其他搜索关键词,引导用户去点击查看,增加pv,提高用户体验:如果没有这些相关搜索,游客没有找到自己想要的内容就直 ...
使用python抓取百度搜索、百度新闻搜索的关键词个数
由于实验的要求,需要统计一系列的字符串通过百度搜索得到的关键词个数,于是使用python写了一个相关的脚本. 在写这个脚本的过程中遇到了很多的问题,下面会一一道来. ps:我并没有系统地学习过pyth ...

随机推荐

[LeetCode] 786. K-th Smallest Prime Fraction 第K小的质分数
A sorted list A contains 1, plus some number of primes. Then, for every p < q in the list, we co ...
Spring容器与SpringMVC容器的区别与联系
在spring整体框架的核心概念中,容器的核心思想是管理Bean的整个生命周期.但在一个项目中,Spring容器往往不止一个,最常见的场景就是在一个项目中引入Spring和SpringMVC这两个框架 ...
Pytorch循环神经网络LSTM时间序列预测风速
#时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征.这是一类相对比较复杂的预测建模问题,和回归分析模型的预测不同,时间序列模型是依赖于事件发生的先后顺序的,同样大 ...
Elasticsearch由浅入深（六）批量操作：mget批量查询、bulk批量增删改、路由原理、增删改内部原理、document查询内部原理、bulk api的奇特json格式
mget批量查询批量查询的好处就是一条一条的查询,比如说要查询100条数据,那么就要发送100次网络请求,这个开销还是很大的如果进行批量查询的话,查询100条数据,就只要发送1次网络请求,网络请求的 ...
MySQL 5.7.26安装及配置--windows10系统下
安装过程省略,下载包解压即可一.配置my.ini在解压目录下,新建一个my.ini [mysql] default-character-set=utf8 [mysqld] port = 3306 b ...
APP 链接ROS时出现pymongo.errors.ServerSelectionTimeoutError: localhost:27017 错误
ROS版本上kinetic ,APP是官网开源的make a map,当app链接ROS进行建图时,会出现报错:pymongo.errors.ServerSelectionTimeoutError: ...
Laravel本地环境搭建：Homestead开发环境的部署
Laravel框架在php开发过程是不断进行优化的,当然也包括了本地环境的开发,下面我们就来具体看看laravel框架中的Homestead 开发环境的部署内容. 首先白以下几个概念 VirtualB ...
kafka压测
原文并未提及kafka的版本并且测试的消息大小都偏小测试数据供参考原文还测试了broker等原文请移步文章末尾 4.1 producer测试 4.1.1 batch-size 测试结果 ...
Java 中的"+"号（加法和连接）
Java 中的"+"号(加法和连接) public class Test { public static void main(String[] args) { System.out ...
Redis学习之intset整数集合源码分析
1.整数集合:整数的集合,升序排序,无重复元素 2.整数集合intset是集合键的底层实现之一,当一个集合只包含整数值的元素,并且这个集合的元素数量不多时,redis会使用整数集合作为集合键的底层实现 ...

Python多线程采集百度相关搜索关键词

Python多线程采集百度相关搜索关键词的更多相关文章

随机推荐

热门专题