Python基础学习二 1.编码 utf-8编码:自动将英文保存为1个字符,中文3个字符.ASCll编码被囊括在内. unicode:将所有字符保存为2给字符,容纳了世界上所有的编码. 2.字符串内置函数 replace()函数:替换字符串内字符 str1='a1234' str2=str1.replace('a','A') #将字符a替换为A 需要注意的是,在函数replace()的作用下,虽然修改了str1的内容,但是变量str1不变,其修改存储在str2中. ord()函数:获取字符的ut…
1.8种针对单个元素的定位方法 find_element_by_id() find_element_by_name() find_element_by_class_name() find_element_by_tag_name() find_element_by_link_text() find_element_by_partial_link_text() find_element_by_xpath() find_element_by_css_selector() 2..8种针对多个元素的定位方…
一.安装selenium 命令安装selenium库 :pip  install -U selenium 查看selenium是否安装成功:pip list PS:有时会有异常,安装失败,可以尝试去selenium官网下载,selenium的资源包.下载地址:https://www.seleniumhq.org/download/,把包放到目录D:\python\Python36\Lib\site-packages下解压, 进入路径D:\python\Python36\Lib\site-pack…
1.安装selenium pip install selenium Collecting selenium Downloading selenium-3.4.1-py2.py3-none-any.whl (931kB) 100% |████████████████████████████████| 942kB 573kB/s Installing collected packages: selenium Successfully installed selenium-3.4.1 2.安装phan…
iframe原因定位不到元素 现在的项目后台基本都是上左右结构,要出现这个结构效果,需要使用到了iframe标签: 我们先说说iframe在java中使用的方法: driver.switchTo().parentFrame()://子frame切回到父frame driver.switchTo().frame()://切入frame中 driver.switchTo().defaultContent()://从frame中切回主文档 想要定位iframe并切进去,可以通过如下代码: driver…
本文希望达到的目标: 多线程同步原语:互斥锁 多线程队列queue 线程池threadpool 一.多线程同步原语:互斥锁 在多线程代码中,总有一些特定的函数或者代码块不应该被多个线程同时执行,通常包括修改数据库,更新文件或者其他会产生竞态的类似情况.当多个线程共享相同内存时,需要确保每个线程看到的数据是一致的,如果线程使用的变量是其他线程都不会去修改或读取的,那就不存在这个问题:或者数据变量只是只读的,那也不会出现数据不一致的问题:但是如果某个线程可以修改变量,其他线程也可以修改或者读取这个变…
前世 Selenium RC 早期的Selenium使用的是JavaScript注入技术与浏览器打交道,需要Selenium RC启动一个Server,将操作Web元素的API调用转化为一段段Javascript,在Selenium内核启动浏览器之后注入这段Javascript.开发过Web应用的人都知道,Javascript可以获取并调用页面的任何元素,自如的进行操作.由此才实现了Selenium的目的:自动化Web操作.这种Javascript注入技术的缺点是速度不理想,而且稳定性大大依赖于…
先来一个愉快的Hello World吧,就是这么简单,不需要写标点符号,但是需要严格按照缩进关系,Python变量的作用域是靠tab来控制的. print("Hello World") 一.定义 Python里面定义变量直接把变量名写上就可以了,不用管是什么类型的变量,如果一行中定义多个变量,直接在前面把变量名写好,用逗号隔开,然后等号,后面写上变量初始化的值.如果只是定义,不需要初始化的时候,需要注意的是,变量出现的顺序,严格按照依次赋值的原则. a,b,=9,9.9 print(a…
对于python而言,一切事物都是对象,对象是基于类创建的,对象继承了类的属性,方法等特性 一.int 首先我们来查看一下int包含了哪些函数 # python3.x dir(int) # ['__abs__', '__add__', '__and__', '__bool__', '__ceil__', '__class__', '__delattr__', '__dir__', '__divmod__', '__doc__', '__eq__', '__float__', '__floor__…
Using the Python Interpreter 2.1. Invoking the Interpreter The Python interpreter is usually installed as /usr/local/bin/python on those machines where it is available; putting /usr/local/bin in your Unix shell’s search path makes it possible to star…
作为一名Pythoner,相信大家对Python的就业前景或多或少会有一些关注.索性我们就写一个爬虫去获取一些我们需要的信息,今天我们要爬取的是前程无忧!说干就干!进入到前程无忧的官网,输入关键字"Python",我们会得到下面的页面 我们可以看到这里罗列了"职位名"."公司名"."工作地点"."薪资"."发布时间",那么我们就把这些信息爬取下来吧!确定了需求,下一步我们就审查元素找到我…
在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is a python demo page</title></head> <body> <p class="title"> <a>The demo python introduces several python courses.&l…
configparser模块 软件常见文档格式如下: [DEFAULT]ServerAliveInterval = 45Compression = yesCompressionLevel = 9ForwardX11 = yes [bitbucket.org]User = hg [topsecret.server.com]Port = 50022ForwardX11 = no 如果想用python生成一个这样的文档怎么做呢? import configparser config = configp…
所有模型类型的准备和迁移 在setting.py中添加:AUTH_USER_MODEL = 'users.UserProfile' 继承用户模板 确保子项目的url现在都是空的, 在pycharm的file=>settings中:添加pillow包 在terminal中运行命令: python manage.py makemigrations   成功的状态 然后运行:python manage.py migrate      成功状态: 添加xamdi到项目中地址https://github.…
爬虫是什么?爬虫其实就是获取网页的内容经过解析来获得有用数据并将数据存储到数据库中的程序. 基本步骤: 1.获取网页的内容,通过构造请求给服务器端,让服务器端认为是真正的浏览器在请求,于是返回响应.python有很多请求的库,像urllib,requests库等,个人比较喜欢requests库,很容易上手. 2.解析获得的数据,可以通过正则表达式,bs4,xpath等解析工具来获得自己想要的数据. 3.存到数据库,现在最流行的三大数据库,mysql,mongodb,redis都可以通过pytho…
list是py内置的一种数据类型,list就是列表的意思,list就是一种有序的数据集合,可以随时增加和删除list的元素. 生活中,比如我们要列出全班同学的名字,就可以用list来表示 >>> classmate = ['大逗比', '小豆比'] >>> classmate ['大逗比', '小豆比'] 这个时候,classnamte就是一个list list的访问可以用: list[0]  list[1] 或者: list[-1]  list[-2] list的操作…
HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析. 本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类,重定义函数:handle_starttag( tag, attrs)handle_startendtag( tag, attrs)handle_endtag( tag) 来实现自己需要的功能. tag是的html标签,attrs是 (属性,值)元组(tuple)的列表(list).HTMLParser自动…
看其他人的学习笔记,可以保证自己不走弯路.并且一举两得,即学知识又学方法! 廖雪峰:https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431611988455689d4c116b2c4ed6aec000776c00ed52000 人工智能学习路线图:https://blog.csdn.net/fqx13624921006/article/details/82877651(这…
1.什么是Selenium,为什么web测试,大家都用它? Selenium设计初衷就是为web项目的验收测试再开发.内核使用的是javaScript语言编写,几乎支持所以能运行javaScript的浏览器,支持windows\linux\macos等各种平台. Selenium 脚本是用多种受支持的编程语言中的一种编写的 —— 目前可用的有 Java.Ruby 和 Python 驱动程序.这些脚本在浏览器之外的一个单独的进程中运行.驱动程序的任务是执行测试脚本,并通过与运行在浏览器中的 bro…
     在做web应用的自动化测试时,定位元素是必不可少的,这个过程经常会碰到定位不到元素的情况(报selenium.common.exceptions.NoSuchElementException),一般可以从以下几个方面着手解决: 1.Frame/Iframe原因定位不到元素: 这个是最常见的原因,首先要理解下frame的实质,frame中实际上是嵌入了另一个页面,而webdriver每次只能在一个页面识别,因此需要先定位到相应的frame,对那个页面里的元素进行定位. 解决方案: 如果i…
一.selenium元素定位 Selenium对网页的控制是基于各种前端元素的,在使用过程中,对于元素的定位是基础,只有准去抓取到对应元素 才能进行后续的自动化控制,我在这里将对selenium8种元素基本定位方式进行总结归纳一下. Selenium提供了8种定位方式. id name class name tag name link text partial link text xpath css selector 这8种定位方式在Python selenium中所对应的方法为: find_e…
一.简介 接着几个月之前的(数据科学学习手札31)基于Python的网络数据采集(初级篇),在那篇文章中,我们介绍了关于网络爬虫的基础知识(基本的请求库,基本的解析库,CSS,正则表达式等),在那篇文章中我们只介绍了如何利用urllib.requests这样的请求库来将我们的程序模拟成一个请求网络服务的一端,来直接取得设置好的url地址中朴素的网页内容,再利用BeautifulSoup或pyspider这样的解析库来对获取的网页内容进行解析,在初级篇中我们也只了解到如何爬取静态网页,那是网络爬虫…
一.元素定位 1. 如何进行元素定位? 元素定位就是通过元素的信息或元素层级结构来定位元素的 2.定位工具 浏览器开发者工具 3.元素定位方式 Selenium提供了八种定位元素方式 id name class_name(使用元素的class属性定位) tag_name(标签名 <标签名 ..../>) link_text(定位超链接a标签) partial_link_text(定位超链接 a标签 模糊) xpath(基于元素路径) css(元素选择器) 3.1 id定位 说明:id定位就是通…
#!/usr/bin/python# -*- coding: utf-8 -*-__author__ = 'zuoanvip' #下拉框在web页面上非常常见,对于下拉框的处理采用二次定位的方法进行元素定位:首先定位到下拉框,然后再定位下拉框的具体元素from selenium import webdriverimport  osimport  time driver = webdriver.Firefox()file_path = 'file:///'+os.path.abspath('dro…
世界上最远的距离大概就是明明看到一个页面元素矗在那里,但是我却定位不到!! selenium定位元素的方法有很多种,像是通过id.name.class_name.tag_name.link_text等等,但是这些方法局限性太大,拿id属性来说,首先一定不会每个元素都有id属性,其次元素的id属性也不一定是固定不变的.所以这些方法了解一下即可,我们真正需要熟练掌握的是通过xpath和css定位,一般只要掌握一种就可以应对大部分定位工作了. 下面总结一下xpath的定位方法,结合自己练习的实例加深一…
场景 下拉框也是web 页面上非常常见的功能,webdriver 对于一般的下拉框处理起来也相当简单,要想定位下拉框中的内容,首先需要定位到下拉框:这样的二次定位 下拉框一般有以下两种方式: 鼠标移上去直接弹出的,那么我们可以使用move_to_element()进行操作,在上一章alert/confirm/prompt处理章节已经介绍 下拉框处理是两次点击,第一点击弹出下拉框,第二次点击操作元素,下面将介绍这种 代码 #!/usr/bin/env python # -*- codinfg:ut…
一.浏览器操作相关 from selenium import webdriver driver = webdriver.Chrome() driver.maximize_window() # 窗口最大化 driver.set_window_size(400,800) # 设置窗口大小 driver.back() # 回退一层 driver.forward() # 前进一层 driver.quit() # 退出浏览器 driver.close() # 关闭浏览器 二.元素定位 # 根据id定位 d…
python+selenium十:基于原生selenium的二次封装   from selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.select import Selectfrom selen…
一.前言 总结一下python+selenium select下拉选择框定位处理的两种方式,以备后续使用时查询: 二.直接定位(XPath) 使用Firebug找到需要定位到的元素,直接右键复制XPath,使用find_element_by_xpath定位: driver = webdriver.Firefox() driver.get("https://www.baidu.com/") driver.find_element_by_xpath().click() 三.间接定位(Sel…
上一节中我们学习了selenium,用python来操作浏览器,在做网页自动化测试的时候最好不过了 .如果我们来做爬虫用一个带界面的浏览器似乎不太好吧,那可咋办呢?别着急,下来我们要介绍的就是一款不带界面的浏览器--PhantomJS.其是一个无界面的,可脚本编程的WebKit浏览器引擎,支持多种web 标准:DOM 操作,CSS选择器,JSON,Canvas 以及SVG. 这里可能会有人问:为什么要用浏览器来抓取页面数据,不用之前我们之前直接通过Urllib获取网页然后分析呢? 这是因为我们通…