批量获取title

 1 import requests

 2 from bs4 import BeautifulSoup

 3 import pandas as pd

 4 from openpyxl import Workbook

 5 import concurrent.futures

 6

 7 # 读取 .txt 文件中的 URL

 8 with open("urls.txt", "r") as file:

 9     urls = file.read().splitlines()

10

11 # 存储 URL 和 title

12 data = []

13

14 def fetch_title(url):

15     response = requests.get(url)

16     soup = BeautifulSoup(response.text, "html.parser")

17     title = soup.find("title").text

18     return (url, title)

19

20 with concurrent.futures.ThreadPoolExecutor(max_workers=20) as executor:

21     futures = [executor.submit(fetch_title, url) for url in urls]

22

23     for future in concurrent.futures.as_completed(futures):

24         result = future.result()

25         data.append(result)

26

27 # 将 URL 和 title 写入 Excel 文件

28 df = pd.DataFrame(data, columns=["URL", "Title"])

29

30 book = Workbook()

31 writer = pd.ExcelWriter("titles.xlsx", engine="openpyxl")

32 writer.book = book

33

34 df.to_excel(writer, index=False)

35

36 writer.save()

37 　　由于是最后一起写入到excel，所以单次URL获取不宜过多

批量获取title的更多相关文章

06_Elasticsearch 批量获取mget
06_Elasticsearch 批量获取mget 现在有: http://192.168.32.81:9200/bank/bank_account/1 http://192.168.32.81:92 ...
谷歌、腾讯、百度相应API批量获取地理位置坐标信息及其优缺点
目录: 申请ak 批量获取地理位置目的:通过给定的地理位置名称(如:北京市海淀区上地十街十号),获取经纬度信息. 1.申请ak 以百度Geocoding API为例:http://lbsyun.ba ...
Python3.x：免费代理ip的批量获取并入库
Python3.x:免费代理ip的批量获取并入库一.简介网络爬虫的世界,向来都是一场精彩的攻防战.现在许多网站的反爬虫机制在不断的完善,其中最令人头疼的,莫过于直接封锁你的ip.但是道高一尺魔高一 ...
JS批量获取参数构建JSON参数对象
在做系统的时候,往往查询条件是被严格指定的,大量的查询条件,一两个页面还可以通过dom去一个一个获取,再构建参数对象,请求后台接口. 这里给大家讲一个批量获取前端参数,构建参数对象. <form ...
sql 根据指定条件获取一个字段批量获取数据插入另外一张表字段中+MD5加密
/****** Object: StoredProcedure [dbo].[getSplitValue] Script Date: 03/13/2014 13:58:12 ******/ SET A ...
PHP 批量获取指定目录下的文件列表(递归，穿透所有子目录)
//调用 $dir = '/Users/xxx/www'; $exceptFolders = array('view','test'); $exceptFiles = array('BaseContr ...
批量获取oracle的表和表字段注释【原】
批量获取oracle的表和表字段注释 --用户表注释表 SELECT * FROM USER_TAB_COMMENTS WHERE TABLE_NAME LIKE 'WEB_ISC_%'; --显示指 ...
【Python项目】简单爬虫批量获取资源网站的下载链接
简单爬虫批量获取资源网站的下载链接项目链接:https://github.com/RealIvyWong/GotDownloadURL 1 由来自己在收集剧集资源的时候,这些网站的下载链接还要手动 ...
如何从统计中批量获取BD搜索关键词及对应的入口页面？
前面我们介绍了通过cnzz的访问明细获取到搜索关键词及对应的入口页面,但是从BD搜索进来的关键词无法完整显示,只能呈现一些bd图片搜索的关键词,这是因为百度宣布从去年5月开始逐渐取消了referer关 ...
C#开发BIMFACE系列14 服务端API之批量获取转换状态详情
系列目录 [已更新最新开发文章,点击查看详细] 上一篇<C#开发BIMFACE系列13 服务端API之获取转换状态>中介绍了根据文件ID查询单个文件的转换状态. 本文介绍批量获取转 ...

随机推荐

LG P3768 简单的数学题
$\text{Problem}$ 求 \[\left(\sum_{i=1}^n \sum_{j=1}^n i j \gcd(i,j)\right) \bmod p \] \(n \le 10^{1 ...
快速删除 node_modules
node_modules 文件夹很大,不推荐右键通过回收站删除,通过 rimraf 来删除速度很快: # 安装 rimraf npm i -g rimraf # 删除 node_modules rim ...
前端js下载excel
// 1.文件流下载文件: export function axiosPostExport(url, data, fileName, suffix = '.xlsx') { url = get ...
rust vec排序
一.sort let mut v = vec![4,3,3,1,2]; println!("{:#?}",v); v.sort(); println!("{:#?}&qu ...
umi学习记录
菜单路由: 方法1:在config中配置全部路由,由后台返的的菜单进行匹配方法2:动态注册路由和添加菜单--目前仅尝试了umi@2 的版本原理:使用umi的运行时配置patchRoutes和ren ...
K8S资源控制器
什么是控制器 kubernetes中建立了很多的controller(控制器),这相当于一个控制机,来管理pod的状态和行为. 控制器的类型 ReplicationController和Replica ...
soursetree 关于https:git remote: Unauthorized和username和password修改
一.sourcetree推送代码提交不上提示https:git remote: Unauthorized由于没有权限,需要登陆正确的账号以及密码即可以提交二.SourceTree这是一个无效源路径/ ...
拼多多anti-content核心算法完全解密+修复
今天偶然看到拼多多的ant-content好奇就搞了下. 解密方法和代码代码是用ast来解密的.利用babel处理,解密一部分+手动修复代码. AST相关的教程和文档 https://steaken ...
API 文档
API 文档 Java类的组织形式使用API查找方法: 包 -> 类 -> 方法直接检索:Math
kubectl查询日志命令
防水堡 bug日志定位命令: docker logs --tail 100 xxx:xxx 是容器的id 或者名称kubectl logs-f --tail 100 xxx:xxx 是pod 的id, ...

批量获取title

批量获取title的更多相关文章

随机推荐

热门专题