实验楼的php比赛题,网页数据提取。

题目的地址:https://www.shiyanlou.com/contests/lou5/challenges

以下代码是题目的答案

<?php
header("Content-Type:text/html;charset=utf-8");
class Crawler{
private $content;
private $data;
static private $mysql; public function __construct(){
echo "开始爬取内容....";
} public function loadFile($file_path){
echo "正在加载文件";
$this->content = file_get_contents($file_path);
} public function parseCourseBody(){
$regex = "/<body[^>]*?>(.*\s*?)<\/body>/is";
if(preg_match_all($regex, $this->content, $matches)){
$this->content = $matches[0];
}
} public function parseContent(){
echo "开始解析内容...<br/>";
$this->parseCourseBody();
$this->parseTitle();
$this->parseDesc();
$this->parseType();
$this->titleIsLong();
$this->saveData();
echo "解析内容结束!<br/>";
} public function saveData(){
echo "存入数据库...<br/>";
self::$mysql = mysql_connect("localhost","root","root");
mysql_query("set names utf8");
mysql_select_db("databases",self::$mysql);
$cnames = $this->data['cnames'];
$cdescs = $this->data['cdescs'];
$ctypes = $this->data['ctypes'];
$nlongs = $this->data['nlongs'];
foreach ($cnames as $key => $value) {
$sql = "insert into `course_data`(`cname`,`cdesc`,`ctype`,`nlong`) values('".$cnames[$key]."','".$cdescs[$key]."','".$ctypes[$key]."','".$nlongs[$key]."')";
mysql_query($sql);
}
mysql_close();
} public function parseTitle(){
echo "解析课程标题...<br/>";
$regex= "/<div class=\"course-name\".*?>.*?<\/div>/ism";
if(preg_match_all($regex, $this->content, $matches)){
$cnames = $matches[0];
}
foreach ($cnames as &$value) {
$value = str_replace("</div>","",str_replace("<div class=\"course-name\">", "", $value));
}
$this->data['cnames'] = $cnames;
} public function parseDesc(){
echo "解析课程简介...<br/>";
$regex4= "/<div class=\"course-desc\".*?>.*?<\/div>/ism";
if(preg_match_all($regex, $this->content, $matches)){
$cdescs = $matches[0];
}
foreach ($cdescs as &$value) {
$value = str_replace("</div>","",str_replace("<div class=\"course-desc\">", "", $value));
}
$this->data['cdescs'] = $cdescs;
} public function parseType(){
echo "解析课程类型...<br/>";
$regex= "/<div class=\"course-footer\".*?>.*?<\/div>/ism";
if(preg_match_all($regex, $this->content, $matches)){
$ctypes = $matches[0];
}
foreach ($ctypes as &$value) {
$str = str_replace("</div>","",str_replace("<div class=\"course-footer\">", "", $value));
if(preg_match_all("/([\x{4e00}-\x{9fa5}])/u", $str, $match)){
$value = join("",$match[0]);
}else{
$value = "免费";
}
$this->data['ctypes'] = $ctypes;
} public function titleIsLong(){
echo "判断课程名是否超长...<br/>";
$cnames = $this->data['cnames'];
foreach ($cnames as $value) {
$nlongs[] = mb_strlen($value) > 16 : "true" : "false";
}
$this->data['nlongs'] = $nlongs;
}
}
$Crawler = new Crawler();
$Crawler->loadFile("test.html");
$Crawler->parseContent(); /**
表结构
cname(varchar):完整的课程名
cdesc(varchar):课程描述
ctype(varchar):课程类型,值为 免费,会员,训练营。
nlong(enum('true','false')):课程名是否过长,课程名称超过16字符的时候为 true,否则为 false create table `course_data`(
`id` int(11) not null auto_increment,
`cname` varchar(255) default null,
`cdesc` varchar(255) default null,
`ctype` varchar(255) default null,
`nlong` enum('true','false') default null,
primary key (`id`)
)engine=InnoDB default charset=utf8;
*/

  

实验楼的php比赛题,网页数据提取。的更多相关文章

  1. 使用 CSS 选择器从网页中提取数据

    在 R 中,关于网络爬虫最简单易用的扩展包是 rvest.运行以下代码从 CRAN 上安装:install.packages("rvest")首先,加载包并用 read_html( ...

  2. Python【BeautifulSoup解析和提取网页数据】

    [解析数据] 使用浏览器上网,浏览器会把服务器返回来的HTML源代码翻译为我们能看懂的样子 在爬虫中,也要使用能读懂html的工具,才能提取到想要的数据 [提取数据]是指把我们需要的数据从众多数据中挑 ...

  3. python爬虫-提取网页数据的三种武器

    常用的提取网页数据的工具有三种xpath.css选择器.正则表达式 1.xpath 1.1在python中使用xpath必须要下载lxml模块: lxml官方文档 :https://lxml.de/i ...

  4. 转:SQL SERVER数据库中实现快速的数据提取和数据分页

    探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分页.以下代码说明了我们实例中数据库的“红头文件”一表的部分数据结构: CREATE TABLE [dbo]. ...

  5. 分享: 利用Readability解决网页正文提取问题

    原文:http://www.cnblogs.com/iamzyf/p/3529740.html 做数据抓取和分析的各位亲们, 有没有遇到下面的难题呢? - 如何从各式各样的网页中提取正文!? 虽然可以 ...

  6. API例子:用Python驱动Firefox采集网页数据

    1,引言 本文讲解怎样用Python驱动Firefox浏览器写一个简易的网页数据采集器.开源Python即时网络爬虫项目将与Scrapy(基于twisted的异步网络框架)集成,所以本例将使用Scra ...

  7. 使用HtmlAgilityPack批量抓取网页数据

    原文:使用HtmlAgilityPack批量抓取网页数据 相关软件点击下载登录的处理.因为有些网页数据需要登陆后才能提取.这里要使用ieHTTPHeaders来提取登录时的提交信息.抓取网页  Htm ...

  8. 利用Readability解决网页正文提取问题

    分享: 利用Readability解决网页正文提取问题   做数据抓取和分析的各位亲们, 有没有遇到下面的难题呢? - 如何从各式各样的网页中提取正文!? 虽然可以用SS为各种网站写脚本做解析, 但是 ...

  9. 使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)

    urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...

随机推荐

  1. 【BZOJ3997】[TJOI2015]组合数学 最长反链

    [BZOJ3997][TJOI2015]组合数学 Description 给出一个网格图,其中某些格子有财宝,每次从左上角出发,只能向下或右走.问至少走多少次才能将财宝捡完.此对此问题变形,假设每个格 ...

  2. 九度OJ 1179:阶乘 (循环)

    时间限制:1 秒 内存限制:32 兆 特殊判题:否 提交:5149 解决:1523 题目描述: 输入n, 求y1=1!+3!+...m!(m是小于等于n的最大奇数) y2=2!+4!+...p!(p是 ...

  3. 我的Java开发学习之旅------>求N内所有的素数

    一.素数的概念 质数(prime number)又称素数,有无限个.一个大于1的自然数,除了1和它本身外,不能被其他自然数(质数)整除,换句话说就是该数除了1和它本身以外不再有其他的因数:否则称为合数 ...

  4. win7计划任务定时执行PHP脚本设置图解

    做php开发的朋友有时候会希望自己的电脑能每天定时的运行一下某个脚本,但定时执行php脚本这种概念似乎多半是在linux中才提到,下面这篇文章主要和大家分享一下在win7下如何设置计划任务,以实现定时 ...

  5. discuz论坛搬家

    很多站长第一次做网站的时候,无奈选择了速度不是很稳定的空间,慢慢会发现有很多物美价廉速度相当快的空间 这个时候,站长在网站搬家的过程中就会遇到很多困难,今天老袋鼠给大家详细讲解一下discuz论坛搬家 ...

  6. mongoDB多级子文档查询

    db.getCollection('product').find({'coverage':{'$elemMatch':{'plan':{'$elemMatch':{'iscoverage':{'$in ...

  7. RQNOJ 671 纯洁的买卖:无限背包

    题目链接:https://www.rqnoj.cn/problem/671 题意: ALEJ要通过倒卖东西来赚钱. 现在他有m元经费. 有n种物品供他选择,每种物品数量无限. 第i件物品的买入价为c[ ...

  8. div img 垂直水平居中

    <style> div { width: 600px; height: 578px; text-align: center; display: table-cell; vertical-a ...

  9. codeforces 706A A. Beru-taxi(水题)

    题目链接: A. Beru-taxi 题意: 问那个taxi到他的时间最短,水题; AC代码: #include <iostream> #include <cstdio> #i ...

  10. Python 连接Oracle数据库

    连接:python操作oracle数据库  python——连接Oracle数据库 python模块:cx_Oracle, DBUtil 大概步骤: 1. 下载模块 cx_Oracle (注意版本) ...