Python那些事】的更多相关文章

[Python] 糗事百科文本数据的抓取 源码 https://github.com/YouXianMing/QiuShiBaiKeText import sqlite3 import time import requests from regexp_string import * class QiuShiBaiKeText35: db_name = 'qiu_shi_bai_ke_text35.db' conn = None def prepare(self): """ 开…
爬取糗事百科段子,假设页面的URL是 http://www.qiushibaike.com/8hr/page/1 要求: 使用requests获取页面信息,用XPath / re 做数据提取 获取每个帖子里的用户头像链接.用户姓名.段子内容.点赞次数和评论次数 保存到 json 文件内 参考代码 #qiushibaike.py #import urllib #import re #import chardet import requests from lxml import etree page…
孤荷凌寒自学python第二天 Python的变量声明 (完整学习过程屏幕记录视频在文末,手写笔记在文末) Python的变量声明不必要显式指定变量类型 甚至也不需要进行显式的声明 比javascript语言还要简化. 直接在赋值时使用一个从来没有用过的变量名,则认为是声明了一个新的变量. 如: >>> strName='孤荷凌寒' >>> print(strName) 孤荷凌寒 上面例子中,变量名是:strName 在对其进行赋值(用=进行赋值)时,就直接创建了这个变…
孤荷凌寒自学python第一天 初识python (学习过程的完整录像分享链接在文末,手写笔记图片在文末) 一种编程语言,首先是它的语言的基本架构,python总体让人耳目一新: 今天其实只接触到了它的数值类型,但他的精简理念已着实让我叹服了. 数值类型: int 整型数据,注意python没有long这种类型!!int就是long float 浮点数据,注意python并不区分single 和 double complex 复数 数值运算符: / 除法 得到的结果 是:float // 整除…
Python这几年很火,在这里我用问答的方式来总结一下使用python的一些常见问题,对自己是个总结,也希望对有同样问题的朋友有帮助.   Q:Python为什么流行? A:Python是一个比较方便的跨平台脚本语言.对于像我这种从C#转型Java的程序员,我更希望用python在Linux写脚本,而不用shell script,因为shell script实在不好懂.Python近几年的流行要归功于numpy和pandas,以及大数据和数据分析的流行.这些库使python成为数据分析的不二选择…
import urllib.request import re # qianxiao996精心制作 #博客地址:https://blog.csdn.net/qq_36374896 def jokeCrawler(url): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari…
Python MOOC 翻Wall和互联网编程的那些事 声明: 1)本报告由博客园bitpeach撰写,版权所有,免费转载,请注明出处,并请勿作商业用途. 2)若本文档内有侵权文字或图片等内容,请联系作者bitpeach删除相应部分. 3)本文档内容涉及主题在引言中提及.仅仅作为参考用途,抛砖引玉,不作为证据证明用途,请自行取舍,核实引用. 目录 0引言    1 1 Python的那些事    2 1.1Python的安装思路与简要介绍    2 1.1.1 Python安装思路    2 1…
关于Python编程的一些问答 导语 大约1个月前,oschina.net和华章图书一起合作做了一个活动:OSC第51期高手问答--聊聊python那些事,来推广我参与撰写的书<编写高质量代码:改善Python程序的91个建议>(豆瓣链接).在回答问题的过程中,我看到有若干问题是好几个人都问了的,就萌发了在事后把这些问答整理整理的想法,以下内容就是来自那一次的问答.为简化整理,已经去掉了提问人的昵称,并做了简单的分类. 纠结的Py2与Py3之选 Q:Python 3 会导致Python的什么前…
1.冒泡排序 a = [25,15,47,36,44,455,67,234,7,8,-47] def sortport(): for i in range(len(a)-1): for j in range (len(a)-1-i): if a[j]>a[j+1]: a[j],a[j+1] = a[j+1],a[j] return a if __name__ == '__main__': sortport() print(a) 输出 [-47, 7, 8, 15, 25, 36, 44, 47,…
千万不要被所谓"元类是99%的python程序员不会用到的特性"这类的说辞吓住.因为 每个中国人,都是天生的元类使用者 学懂元类,你只需要知道两句话: 道生一,一生二,二生三,三生万物 我是谁?我从哪来里?我要到哪里去? 在python世界,拥有一个永恒的道,那就是"type",请记在脑海中,type就是道.如此广袤无垠的python生态圈,都是由type产生出来的.在给大家分享之前呢,小编推荐一下一个挺不错的交流宝地,里面都是一群热爱并在学习Python的小伙伴们…
Python最大的优点之一就是语法简洁,好的代码就像伪代码一样,干净.整洁.一目了然.要写出 Pythonic(优雅的.地道的.整洁的)代码,需要多看多学大牛们写的代码,github 上有很多非常优秀的源代码值得阅读,比如:requests.flask.tornado,下面列举一些常见的Pythonic写法. 0. 程序必须先让人读懂,然后才能让计算机执行. “Programs must be written for people to read, and only incidentally f…
无论你是正在使用 Python 进行快速开发,还是在为 Python 桌面应用制作原生 UI ,或者是在优化现有的 Python 代码,以下这些 Python 项目都是应该使用的. Python那些事——Python 开发者的 6 个必备库,你都了解吗? Python 凭借其易用的特点,已经被工业界和学术界广泛采用.另一方面,Python 丰富的第三方项目——库.附加组件,和辅助的开发成果——使得 Python 语言的应用范围被不断扩大. 其中一些项目,比如 PyInstaller 和 WxPy…
https://mp.weixin.qq.com/s/o9rm4tKsJeEWyqQDgVEQiQ https://mp.weixin.qq.com/s/G5F_GaUGI0w-kugOZX145g Python 这门语言非常的有趣,不仅可以做高大上的人工智能.大数据.机器学习.还可以用来做 Web.爬虫.还有其它很多的应用.今天我就给大家展示下一行 Python 代码都可以做些什么. 一行打印迷宫 print(''.join(__import__('random').choice('\u257…
1.背景 最近在研究二代证读卡器,手头上的设备是新中新DKQ-A16D,在官网(https://www.onecardok.com.cn/download)逛了一圈,发现Win下的示例,浏览器插件很多,Linux下的就少的可怜了,只有“新中新身份证读卡器开发包Linux版V1.2.1”,“新中新读卡器麒麟ArmV8火狐扩展程序安装及使用说明V1.1”,意味着浏览器插件还只能在ARM的平台下才能使用.Linux的也只有C++和Java版本. 2.开搞C++ 大概看了下C++的Demo,这个Demo…
原文出自微信公众号:Python那些事 一.介绍 pip install numba Numba 是 python 的即时(Just-in-time)编译器,即当你调用 python 函数时,你的全部或部分代码就会被转换为"即时"执行的机器码,它将以你的本地机器码速度运行!它由 Anaconda 公司赞助,并得到了许多其他组织的支持. 在 Numba 的帮助下,你可以加速所有计算负载比较大的 python 函数(例如循环).它还支持 numpy 库!所以,你也可以在你的计算中使用 nu…
事情是这样的:今天晚上,女朋友让我十二点催她睡觉. 不过,可是我实在太困了,熬不下去-- 是吧?女朋友哪有睡觉重要? 但,女朋友的命令,我是不敢违抗的-- 但是睡觉也不能缺! 这时候我们该怎么办呢?是时候让Python登场了! Python登场 这次我们来做一个自动发送微信的程序,在深夜十二点的时候给女朋友发去消息,也算是尽了一个男朋友的义务了. 安装和导入 我们需要两个模块:apscheduler,pyautogui 快捷键 Windows+r 打开运行控制框,输入 cmd,进入命令行,输入:…
来自:Python那些事 pandas中accessor功能很强大,可以将它理解为一种属性接口,通过它获得额外的方法. 下面用代码和实例理解一下: import pandas as pd pd.Series._accessors 对于Series数据结构使用_accessors方法,我们得到3个对象:cat, str, dt. .cat:用于分类数据(Categorical data) .str:用于字符数据(String Object data) .dt:用于时间数据(datetime-lik…
01 - 一些网络工具 文档查阅 https://devdocs.io/ API文档 http://overapi.com/ 开源代码及文档搜索 https://searchcode.com/ 电子书搜索 https://www.jiumodiary.com/ 网盘资源搜索 http://pansou.com/ 无版权图片搜索 https://unsplash.com 在线Json验证及格式化 https://www.json.cn/ 在线UML制图 https://www.processon.…
出于某些目的,需要在网上爬一些数据.考虑到Python有各种各样的库,以前想试试Pycharm这个IDE,就决定用它了.首先翻完<深入Python3>这本书,了解了它的语法之类的.下面就开始干活了: Http协议的实现.那本书里有介绍一个叫httplib2的库,看起来挺好.就用这个库把网页内容抓下来先. Html解析.之前有用过一些解析xml的库,但是想着html代码可能不会太严禁,就找到了一个传说中对html容错度很高的库:BeautifulSoup.Python3得用这个库的第四版,导入时…
参照网上的教程再做修改,抓取糗事百科段子(去除图片),详情见下面源码: #coding=utf-8#!/usr/bin/pythonimport urllibimport urllib2import reimport threadimport timeimport sys #定义要抓取的网页#url = 'http://www.qiushibaike.com/hot/'#读取要抓取的网页#globalcontent = urllib.urlopen(url).read()#抓取段子内容#new_…
初次学习爬虫技术,在知乎上看了如何爬去糗事百科的段子,于是打算自己也做一个. 实现目标:1,爬取到糗事百科的段子 2,实现每次爬去一个段子,每按一次回车爬取到下一页 技术实现:基于python的实现,利用Requests库,re库,bs4库的BeautifulSoup方法来实现的 主要内容:首先我们要理清一下爬取实现的思路,我们来构建一下主体框架.第一步我们先写一个利用Requests库来获取网页的方法,第二步我们利用bs4库的BeautifulSoup方法来分析所获取的网页信息并利用正则表达式…
多线程糗事百科案例 案例要求参考上一个糗事百科单进程案例:http://www.cnblogs.com/miqi1992/p/8081929.html Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用:队列时线程间最常用的交互数据的形式. python下多线程的思考 对于资源,加锁是个重要的环节.因为python原生的list,dict等,都是not thread safe的.而Queue,是线程安全的,因此在满足使用条件下,建议使用队列 初始化:…
前言:有时候无聊看一些搞笑的段子,糗事百科还是个不错的网站,所以就想用Python来玩一下.也比较简单,就写出来分享一下.嘿嘿 环境:Python 2.7 + win7 现在开始,打开糗事百科网站,先来分析.地址:https://www.qiushibaike.com 一般像这种都是文本的话,查看源代码就可以看到内容了. 已经可以看到都是在一个class 为content 的div里面,这样就很简单了,直接上正则表达式来匹配就好了. <div.*?class="content"&…
一.前言 俗话说,上班时间是公司的,下班了时间才是自己的.搞点事情,写个爬虫程序,每天定期爬取点段子,看着自己爬的段子,也是一种乐趣. 二.Python爬取嗅事百科段子 1.确定爬取的目标网页 首先我们要明确目标,本次爬取的是糗事百科文字模块的段子. (糗事百科)->分析目标(策略:url格式(范围).数据格式.网页编码)->编写代码->执行爬虫 2.分析爬取的目标网页 段子链接:https://www.qiushibaike.com/text/ 访问链接可以看到如下的页面,一个红框代表…
闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url http://www.qiushibaike.com/hot/page/2/    末尾2指第2页 2.先抓取HTML页面 import urllib import urllib2 import re page = 2 url = 'http://www.qiushibaike.com/hot/page/' + str(page) #对应第2页的url…
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 1.抓取糗事百科热门段子 2.过滤带有图片的段子 #coding:utf-8 import urllib import urllib2 import re page = 1 url = 'https://www.qiushibaike.com/hot/pag…
目录 python与中文的那点事 1. utf-8/gbk/unicode/ASCII 2.各种编码之间的转换 3. 统计字符串中数字,字母,汉字的个数 python与中文的那点事 在学习python的过程中,发现在python2与python3中对中文的处理有所不同,所以这篇文章就来探讨一下这些不同 1. utf-8/gbk/unicode/ASCII   我们都知道,在计算机内部所有的信息都可以被表示成二进制的字符串,每一个二进制位有1和0两种状态,因此8位的二进制数可以表示256种状态,这…
[编者按]本文最早由 Repustate 发布,主要介绍将代码迁移至 Go(lang) 时的注意事项.文章系国内 ITOM 管理平台 OneAPM 编译呈现,以下为正文. 这是一篇讲述将大块 Python/Cython 代码迁移到 Go 的长文章.如果你想了解整个事情的经过.背景等所有信息,请读下去.如果你只对 Python 开发者需要了解的事感兴趣,请下拉到早该知道的事板块. 背景 我们在 Repustate 最大的技术成果就是实现了阿拉伯语情感分析.阿拉伯语是个难啃的硬骨头,因为阿拉伯语词汇…
转自:http://blog.csdn.net/pleasecallmewhy/article/details/8932310 项目内容: 用Python写的糗事百科的网络爬虫. 使用方法: 新建一个Bug.py文件,然后将代码复制到里面后,双击运行. 程序功能: 在命令提示行中浏览糗事百科. 原理解释: 首先,先浏览一下糗事百科的主页:http://www.qiushibaike.com/hot/page/1 可以看出来,链接中page/后面的数字就是对应的页码,记住这一点为以后的编写做准备.…
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4959489,可以发现page后的数据代表第几页. 然后装配request,注意要设置user_agent user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = {'User-Agent': user_agen…