(一)数据抓取概要 为什么要学会抓取网络数据? 对公司或对自己有价值的数据,80%都不在本地的数据库,它们都散落在广大的网络数据,这些数据通常都伴随着网页的形式呈现,这样的数据我们称为非结构化数据 如果我们能想出办法,把这些非结构化的数据转化为结构化的数据,在跟自己的本地数据库做匹配,做交叉分析,让它们关联起来,从而我们就能提炼出我们需要的有价值的数据. 如何将非结构化的数据转化为结构化的数据呢? 必须通过ETL的方法(数据抽取,转化.存储) (二)抓取的逻辑-ETL ETL是什么? ETL是三…