应用场景:本人需要对200万条网页html格式数据进行清洗,提取文字后将分词结果写入数据库,之前做了一次,大概花费了80多个小时才跑完.机器配置是4核,内存8G:开完会领导让再改点东西重新跑一遍,然后说用多进程或者多线程跑,速度快. 本人接触python不到两个月,以前也基本不怎么编程,所以这种优化什么的东西都不懂,只好求助同事.同事告诉我直接看廖雪峰的教程就ok了.先看了一下廖雪峰写的单个进程代码,比较容易懂,但是我需要开四个进程,把我的cpu都占满来跑,这样效率才最大. 所以又看了多进程的例…