前景

在转载别人博客的时候通常我们会通过复制html然后放到编辑器里面，但是通常html里有很多杂七杂八的东西，比如script， svg这些标签导致排版出现问题

例如由lu标签引起的

由svg标签引起的

当然要说你直接把不要的东西删除也可以，但是作为一个程序员，能用电脑做的事当然是不用自己做啦，于是就有了下面一步

代码实现

代码采用Python，因为Python有BeautifulSoup，能很好的处理html文件，例如指定标签删除等，所以就采用Python3来写这些代码。

分析出现排版问题的原因

代码行下方出现数字是因为有
开头显示不正常是因为注释和

<svg>

如何去除指定标签和注释

#去除属性ul

[s.extract() for s in soup("ul")]

# 去除属性svg

[s.extract() for s in soup("svg")]

# 去除属性script

[s.extract() for s in soup("script")]

Python代码

# 输入网址把 html变成md

import requests

import time

from bs4 import BeautifulSoup, Comment

def get_page_source(url):

    try:

        r = requests.get(url, timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return "failed"

if __name__ == '__main__':

    blogUrl = "https://blog.csdn.net/qq_36124194/article/details/83686823"

    #blogUrl = input("请输入转载地址\n")

    blogText = get_page_source(blogUrl)

    soup = BeautifulSoup(blogText, 'html.parser')

    #去除属性ul

    [s.extract() for s in soup("ul")]

    # 去除属性svg

    [s.extract() for s in soup("svg")]

    # 去除属性script

    [s.extract() for s in soup("script")]

    #去除注释

    comments = soup.findAll(text=lambda text: isinstance(text, Comment))

    [comment.extract() for comment in comments]

    #得到正文

    articleText = soup.find('div', attrs={'class': 'markdown_views prism-atom-one-dark'})

    # 加入 转载地址说明

    finalStr = "## 转载地址   \n" + "## " +blogUrl + "  \n" + str(articleText)

    print(finalStr)

python处理转载博客html的更多相关文章

转载博客（Django2.0集成xadmin管理后台遇到的错误）
转载博客地址:https://blog.csdn.net/yuezhuo_752/article/details/87916995 django默认是有一个admin的后台管理模块,但是丑,功能也不齐 ...
有哪些关于 Python 的技术博客？
Python是一种动态解释型的编程语言,它可以在Windows.UNIX.MAC等多种操作系统以及Java..NET开发平台上使用.不过包含的内容很多,加上各种标准库.拓展库,乱花渐欲迷人眼.因此如何 ...
python爬取博客圆首页文章链接+标题
新人一枚,初来乍到,请多关照来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了. 使用python 爬取博客园首页文章链接和标题. 首先当然是环境了,爬虫在window10系统下,python ...
[Python爬虫]cnblogs博客备份工具（可扩展成并行）
并发爬虫小练习. 直接粘贴到本地,命名为.py文件即可运行,运行时的参数为你想要爬取的用户.默认是本博客. 输出是以用户名命名的目录,目录内便是博客内容. 仅供学习python的多线程编程方法,后续会 ...
Swift中可选类型(Optional)的用法以及? 和 ! 的区别 (转载博客，知识分享)
本文转载自:代码手工艺人的博客,原文名称:Swift之 ? 和 ! Swift语言使用var定义变量,但和别的语言不同,Swift里不会自动给变量赋初始值,也就是说变量不会有默认值,所以要求使用变量之 ...
Python 自动刷博客浏览量
哈哈,今天的话题有点那什么了哈.咱们应该秉承学习技术的角度来看,那么就开始今天的话题吧. 思路来源今天很偶然的一个机会,听到别人在谈论现在的"刷量"行为,于是就激发了我的好奇心. ...
python之路——博客目录
博客目录 python基础部分函数初识函数函数进阶装饰器函数迭代器和生成器内置函数和匿名函数递归函数常用模块常用模块模块和包面向对象初识面向对象面向对象进阶网络编程网络编 ...
python之刷博客访问量
通过写刷访问量学习正则匹配说明信息说明:仅仅是为了熟悉正则表达式以及网页结构,并不赞成刷访问量操作. 1.刷访问量第一版 1.1 确定网页url结构,构造匹配模式串首先是要确定刷的网页.第一版实 ...
使用Python在自己博客上进行自动翻页
先上一张代码及代码运行后的输出结果的图! 下面上代码: # coding=utf-8 import os import time from selenium import webdriver #打开火 ...

随机推荐

P4554 小明的游戏 (洛谷) 双端队列BFS
最近没有更新博客,全是因为英语,英语太难了QWQ 洛谷春令营的作业我也不会(我是弱鸡),随机跳了2个题,难度不高,还是讲讲吧,学学新算法也好(可以拿来水博客) 第一题就是这个小明的游戏小明最近喜欢玩 ...
【Python学习笔记二】开始学习啦！如何在IDEA中新建python文件
1.新建module 2.选择本地安装的python 3.右键新建的module,创建python file就可以开始编程了 4.有时候回出现无法识别python内建函数的问题,就是运行没 ...
终于搞懂Spring中Scope为Request和Session的Bean了
之前只是很模糊的知道其意思,在request scope中,每个request创建一个新的bean,在session scope中,同一session中的bean都是一样的但是不知道怎么用代码去验证 ...
Mybatis——Mapper代理
mapper的代理对象生成位于org.apache.ibatis.binding.MapperProxyFactory的newInstance方法,使用jdk的动态代理,代理的InvocationHa ...
Python之生成器、迭代器
生成器生成器类似返回值为数组的一个函数,这个函数可以接受参数,可被调用,但只能产生一个值,所以大大节省内存. 生成器表达式的语法非常简单,只需要将列表推导式的中括号改成小括号就可以了 [x+x fo ...
Django学习路25_ifequal 和 ifnotequal 判断数值是否相等及加减法 {{数值|add 数值}}
{% ifequal 数值数值 %} <body> {# 判断是否相等 #} num 当前的值 {{ num }}<br/> {% ifequal num 5 %} {# 判 ...
点format方式输出星号字典的值是键
dic = {'a':123,'b':456} print("{0}:{1}".format(*dic)) a:b 2020-05-08
Python os.removedirs() 方法
概述 os.removedirs() 方法用于递归删除目录.像rmdir(), 如果子文件夹成功删除, removedirs()才尝试它们的父文件夹,直到抛出一个error(它基本上被忽略,因为它一般 ...
PHP array_splice() 函数
实例从数组中移除元素,并用新元素取代它: <?php$a1=array("a"=>"red","b"=>"gr ...
PDOStatement::getColumnMeta
PDOStatement::getColumnMeta — 返回结果集中一列的元数据(PHP 5 >= 5.1.0, PECL pdo >= 0.2.0)高佣联盟 www.cgewang. ...

python处理转载博客html