缘起

之前公司找外面网络公司做某些业务相关关键词排名,了解了一下相关的情况,网络公司只需要我们提供网站地址和需要做的关键词即可,故猜想他们采取的方式应该是通过模拟用户搜索提升网站权重进而提升排名。

不过后续公司的网站卡在第二页那个公司一直也没能把排名做到首页,因为赶巧百度推出了惊雷算法打击这种刷排名的方式。

但这个算法实际的打击面应该并不会很精准,现在也依然还有很多公司在做这方面的业务。

之前接触到selenium,了解了一些基本的功能,今天尝试实现一下百度搜索相关关键词然后定位目标网站进行访问等基本操作。

注意事项

既然说到刷,必然涉及到使用海量的IP。

  • 自建IP池

一般可以自己搭建IP池,通过程序爬取各类免费IP网站上的IP和端口号,然后进行验证,可以用的就入库,不能用的就删掉。

但是免费的永远是最最贵的,虽然搭建比较简单,但IP的有效率很低且能用的基本速度也非常慢。

  • 购买IP

现在有很多IP服务商都提供爬虫接口,我试用过芝麻、牛魔、IP精灵、站大爷、ET等很多提供此类服务的服务商家的测试套餐,然鹅基本上都比我自建的IP池的质量都差,当然没有购买过收费套餐就暂不评论。

但是我就是想做个学习的测试就没有必要购买此类收费服务了,不过我发现了个非常靠谱的IP服务商。。他们家的免费测试的IP都能直接看爱奇艺720p,真心666,只想低调使用就不透漏了。

代码部分


  1. from selenium import webdriver
  2. import requests,time
  3. #自建IP池
  4. def get_proxy():
  5. r = requests.get('http://127.0.0.1:5555/random')
  6. return r.text
  7. # 使用兔子IP免费爬虫代理
  8. import random
  9. FILE = './tuziip.txt' # 读取的txt文件路径
  10. # 获取代理IP
  11. def proxy_ip():
  12. ip_list = []
  13. with open(FILE, 'r') as f:
  14. while True:
  15. line = f.readline()
  16. if not line:
  17. break
  18. ip_list.append(line.strip())
  19. ip_port = random.choice(ip_list)
  20. return ip_port
  21. def bd():
  22. chromeOptions = webdriver.ChromeOptions()
  23. # 设置代理
  24. chromeOptions.add_argument("--proxy-server=http://"+proxy_ip())
  25. # 一定要注意,=两边不能有空格,不能是这样--proxy-server = http://202.20.16.82:10152
  26. browser = webdriver.Chrome(chrome_options = chromeOptions)
  27. # 查看本机ip,查看代理是否起作用
  28. browser.get("https://www.baidu.com/")
  29. browser.find_element_by_id("kw").send_keys("ip")
  30. browser.find_element_by_id("su").click()
  31. time.sleep(2)
  32. browser.find_element_by_id("kw").clear()
  33. time.sleep(1)
  34. browser.find_element_by_id("kw").send_keys("ip代理")
  35. browser.find_element_by_id("su").click()
  36. time.sleep(2)
  37. browser.find_element_by_id("kw").clear()
  38. time.sleep(1)
  39. browser.find_element_by_id("kw").send_keys("兔子ip代理")
  40. browser.find_element_by_id("su").click()
  41. time.sleep(2)
  42. browser.find_element_by_id("kw").clear()
  43. time.sleep(1)
  44. browser.close()
  45. # 退出,清除浏览器缓存
  46. browser.quit()
  47. if __name__ == "__main__":
  48. while True:
  49. print(proxy_ip)
  50. bd()

运行程序,程序可自动打开浏览器,进入百度,搜索关键词IP,停顿2秒,清除搜索框内容,停一秒输入“IP代理”,然后停顿、清除、再搜索"目标关键词",然后清楚缓存退出浏览器,再更换IP开始新一轮。

如果要实现搜索目标关键词,选择目标网站点击进入目标网站,就需要使用selenium相关的元素选择了,这个就不多介绍了,很简单看下selenium的相关文档就ok了。

python+selenium实现百度关键词搜索自动化操作的更多相关文章

  1. Python多线程采集百度相关搜索关键词

    百度相关搜索关键词抓取,读取txt关键词,导出txt关键词 #百度相关搜索关键词抓取,读取txt关键词,导出txt关键词   # -*- coding=utf-8 -*- import request ...

  2. 用python来个百度关键词刷排名脚本

    目的:写个脚本来提升百度排名 我一个seo届前辈的朋友找我,他说,seo事无巨细,自己主观方面能做的几乎都能做了,提升百度等搜索引擎中的排名往往效果不佳或者起效周期慢.能不能人为去干预下呢? 获得排名 ...

  3. python selenium TouchAction模拟移动端触摸操作(十八)

    最近做移动端H5页面的自动化测试时候,需要模拟一些上拉,下滑的操作,最初考虑使用使用selenium ActionChains来模拟操作,但是ActionChains 只是针对PC端程序鼠标模拟的一系 ...

  4. Python+Selenium笔记(九):操作警告和弹出框

    #之前发的 driver.switch_to_alert() 这句虽然可以运行通过,但是会弹出警告信息(这种写法3.x不建议使用)  改成 driver.switch_to.alert就不会了. (一 ...

  5. 百度关键词搜索工具 v1.1|url采集工具 v1.1

    功能介绍:关键词搜索工具 批量关键词自动搜索采集 自动去除垃圾二级泛解析域名 可设置是否保存域名或者url 持续更新中

  6. selenium基础框架的封装(Python版)这篇帖子在百度关键词搜索的第一位了,有图为证,开心!

    百度搜索结果页地址:https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu&wd=se ...

  7. python selenium实现百度搜索

    1.环境 python2.7+selenium+phantomjs+linux 2.代码 #-*-coding:utf-8 -*- from selenium import webdriver fro ...

  8. python+selenium一:对浏览器的操作

    # 1.打开Firefox浏览器from selenium import webdriverdriver = webdriver.Firefox()driver.get("https://w ...

  9. 利用Python爬虫实现百度网盘自动化添加资源

    事情的起因是这样的,由于我想找几部经典电影欣赏欣赏,于是便向某老司机寻求资源(我备注了需要正规视频,绝对不是他想的那种资源),然后他丢给了我一个视频资源网站,说是比较有名的视频资源网站.我信以为真,便 ...

随机推荐

  1. php private学习笔记

    类的权限修饰符,放在属性/方法的前面.用来说明属性/方法的权限特点. 三种权限修饰符 private  私有的 public   公共 protected  保护的 privata 的属性.方法只能在 ...

  2. Docker 1.13.0 详细更新日志

    本文讲的是Docker 1.13.0 详细更新日志[编者的话]Docker发布1.13.0版本,此次版本更新内容较多,以下为该版本具体的变更. 构建 添加在构建时可以指定镜像用作高速缓存源的功能. 这 ...

  3. 机器学习之分类回归树(python实现CART)

    之前有文章介绍过决策树(ID3).简单回顾一下:ID3每次选取最佳特征来分割数据,这个最佳特征的判断原则是通过信息增益来实现的.按照某种特征切分数据后,该特征在以后切分数据集时就不再使用,因此存在切分 ...

  4. bfs—迷宫问题—poj3984

    迷宫问题 Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 20591   Accepted: 12050 http://poj ...

  5. 地表最简单安装MySQL及配置的方法,没有之一

    第一步下载我的压缩包 链接:https://pan.baidu.com/s/1EE40dU0j2U1d-bAfj7TeVA 提取码:n25c 复制这段内容后打开百度网盘手机App,操作更方便哦 第二步 ...

  6. E. Kamil and Making a Stream 区间gcd

    E. Kamil and Making a Stream 这个题目要用到一个结论,就是区间一个区间长度为n的不同的gcd不会超过logn 个, 其实就是知道这个题目可以暴力就好了. 然后就是对于每一个 ...

  7. iOS的内存管理和引用计数规则、Block的用法以及三种形式(stack、malloc、global)

    学习内容 iOS的内存管理和引用计数规则 内存管理的思考方式 自己生成的对象自己持有 非自己生成的对象自己也能持有 自己持有的对象不需要时释放 非自己持有的对象不能释放 ARC有效时,id类型和对象类 ...

  8. apply call bind的用法与实现

    概念 apply call 和bind 允许为不同的对象分配和调用属于一个对象的函数/方法.同时它们可以改变函数内 this 的指向. 区别 apply 和 call 接收的参数形式不同 apply ...

  9. Python求差集

    本月月初在职员工表(20来列,身份证.银行卡号等),本月离职员工表(10来列,计时.计件等),不考虑本月入职员工表,求下月月初在职员工表. Python,import pandas as pd,两个p ...

  10. Kitty Cloud(HTTP_RPC)的全局异常处理

    项目地址 https://github.com/yinjihuan/kitty-cloud 异常处理不用我讲,大家都清楚.单独的异常处理太繁琐,全局异常处理可以在一个应用中统一进行异常的处理,非常方便 ...