实验课程名称:大数据处理技术 实验项目名称:hadoop集群实现PageRank算法 实验类型:综合性 实验日期:2018年 6 月4日-6月14日 学生姓名 吴裕雄 学号 15210120331 班级 软工三班 专业名称 软件工程 实验组 其他成员 无 实验地点 F110 实验成绩 (教师签名)   实验目的与要求 了解PageRank算法 学会用mapreduce解决实际的复杂计算问题 搭建hadoop分布式集群 编写mapreduce代码 根据输入的网页链接数据,能够得到最终的pagera…
1. 数据库的发展过程 层次模型 -->网状模型 -->关系模型 -->对象关系模型 2. 关于数据库的概念 DB:数据库(存储信息的仓库) DBMS:数据库管理系统(用于管理数据库的工具) RDBMS:关系型数据库管理系统 ORDBMS:对象关系型的数据库管理系统 3. Oracle数据库的主要特点 1)支持多用户.大事务量的处理 2)数据库安全性和完整性控制 3)支持分布式数据处理 4)可移植性 4.Oracle一些常见问题? 1)如果我只有一张表,为什么我还要创建数据库? SQL语…
实验目的 学习安装Java 学习配置环境变量 学习设置免密码登陆的方法 掌握Linux环境下时间同步的配置 实验原理 1.Java的安装 java是大数据的黄金语言,这和java跨平台的特性是密不可分的,大数据的大部分框架,包括hadoop.hbase.tachyon等,都是用java实现,而spark框架的scala语言,也是基于java的虚拟机的,所以安装java是进行大数据处理的第一步. java的安装很简单,我们采用编译安装的方法安装.找到jdk的安装包,实验安装包在文档末,同学们可以参…
实验目的 了解yum的原理及配置 学习软件的更新与安装 学习源代码编译安装 实验原理 1.编译安装 前面我们讲到了安装软件的方式,因为linux是开放源码的,我们可以直接获得源码,自己编译安装.例如:新建一个hello.c的文件,在里面添加一下内容: #include <stdio.h> int main(void) { printf("Hello World\n"); } 然后,使用"gcc hello.c"编译,生成一个a.out的可执行文件,在输入…
实验目的 学习使用xshell工具连接Linux服务器 在连上的服务器中进入用户目录 熟悉简单的文件操作命令 实验原理 熟悉shell命令是熟悉使用linux环境进行开发的第一步,我们在linux的交互式命令行输入的每一个命令都是一个shell指令,Shell本质是一个用C语言编写的程序,它是用户使用Linux的桥梁.Shell既是一种命令语言,又是一种程序设计语言.Shell是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务. 我们学习shell编程的第一步就…
如果需要修改或更新 MySQL 中的数据,我们可以使用 SQL UPDATE 命令来操作. 语法 以下是 UPDATE 命令修改 MySQL 数据表数据的通用 SQL 语法: UPDATE table_name SET field1=new-value1, field2=new-value2 [WHERE Clause] 可以同时更新一个或多个字段. 可以在 WHERE 子句中指定任何条件. 可以在一个单独表中同时更新数据. 当需要更新数据表中指定行的数据时 WHERE 子句是非常有用的. 通过…
MySQL 表中使用 INSERT INTO SQL语句来插入数据. 可以通过 mysql> 命令提示窗口中向数据表中插入数据,或者通过PHP脚本来插入数据. 以下为向MySQL数据表插入数据通用的 INSERT INTO SQL语法: INSERT INTO table_name ( field1, field2,...fieldN ) VALUES ( value1, value2,...valueN ); 如果数据是字符型,必须使用单引号或者双引号,如:"value". 通…
要想在没有安装 Python 集成环境的电脑上运行开发的 Python 程序,必须把 Python 文件打包成 .exe 格式的可执行 文件. Python 的打包工作 PyInstaller 提供了两种把 .py 文件包 成 .exe 文件的方式: 第一种方式是把由 .py 文件打包而成的 .exe 文件及相 关文件放在一个目录中 . 这种方式是默认方式,称为 onedir 方式. 第二种方式是加上-F 参数后把制作出的 .exe 打包成一 个独立的 .exe 格式的可执行文件 , 称为 on…
动画是游戏开发中不可或缺的要素,游戏中的角色只有动起来才会拥有“生命”, 但动画处理也是最让游戏开发者头痛的部分.Pygame 包通过不断重新绘制绘图窗口,短短几行代码就可以让图片动起来! 动画处理程序的基本架构 import pygame pygame.init() screen = pygame.display.set_mode((640, 320)) pygame.display.set_caption("动画基本架构") background = pygame.Surface(…
在多个文本文件中查找 我们首先来学习文本文件的查找字符 . 我们通过 os.walk 扩大查找范围, 查找指定目录和子目录下的文件. 应用程序总览 读取 当 前目录及子目录下的所有 PY 和 txt 文本文件,搜索这些文件中是否包含 指定的字符“ shutil ”. 应用程序内容 import os cur_path=os.path.dirname(__file__) # 取得当前路径 sample_tree=os.walk(cur_path) keyword="shutil" for…
用 Selenium 包实现网页自动化操作的案例中,发现很多网页都因 需输入图形验证码而导致实验无法进行 . 解决的办法就是对验证码进行识别 . 识 别的方法之 一 是通过图形处理包将验证码的大部分背景去除,再用 OCR COptical Character Recognition ,光学字符识别)来识别出图片文字 . 不同的图形验证码需要 不同图形处理技术去除背景 简单的 OCR-丁esseract 包 Tesseract 是一个流行的 OCR 链接库,最初是由惠普公司(田)在 1985 年开…
有时候,手工生成 Pandas 的 DataFrame 数据是件非常麻烦的事情,所以我们通 常会先把数据保存在 Excel 或数据库中,然后再把数据导入 Pandas . 另 一种情况是抓 取网页中成千上万的表格数据导入 Pandas ,作为 DataFrame 数据. Pandas 常用的导入数据方法有: 下面,我们示范用 read html 方法抓取网页中的表数据. Pandas 的 read_html 方法会用到 html5lib 套件,可通过命令来安装:pip install html5…
Pandas 通过 drop 函数删除 DataFrarne 数据,语法为: 例如,删除陈聪明(行标题)的成绩: import pandas as pd datas = [[65,92,78,83,70], [90,72,76,93,56], [81,85,91,89,77], [79,53,47,94,80]] indexs = ["林大明", "陈聪明", "黄美丽", "熊小娟"] columns = ["语文…
import pandas as pd datas = [[65,92,78,83,70], [90,72,76,93,56], [81,85,91,89,77], [79,53,47,94,80]] indexs = ["林大明", "陈聪明", "黄美丽", "熊小娟"] columns = ["语文", "数学", "英文", "自然", &…
用 df.va lue s 读取数据的前提是必须知道学生及科目的位置,非常麻烦 . 而 df.loc 可直接通过行.列标题读取数据,使用起来更为方便 . 使用 df.loc 的语法为: 行标题或列标题若是包含多个项目,则用小括号将项目括起来,项目之间以逗 号分隔,如“( ” 数学 ” , ” 自然 ”) ”:若要包含所有项目,则用冒号“.”表示. 例如读取学生陈聪明的所有成绩: import pandas as pd datas = [[65,92,78,83,70], [90,72,76,93…
读取行数据 读取一个列数据的语法为: 例如,读取所有学生自然科目的成绩 : import pandas as pd datas = [[65,92,78,83,70], [90,72,76,93,56], [81,85,91,89,77], [79,53,47,94,80]] indexs = ["林大明", "陈聪明", "黄美丽", "熊小娟"] columns = ["语文", "数学&qu…
用 Python 进行数据分析处理,其中最炫酷的就属 Pa ndas 套件了 . 比如,如果我 们通过 Requests 及 Beautifulsoup 来抓取网页中的表格数据 , 需要进行较复 杂的搜寻才能抓取 , 但通过 Pandas 不但可以自动读取网页中的表格数据,还能对数 据进行修改.排序等处理,以及给制统计图表 . Pandas 主要的数据类型有两种: Series 是一维数据结构, 其用法与列表类 似: DataFrame 是 二维数据结 构, 表格 即为 DataFrame 的典…
网页布局对改善网站的外观非常重要. 请慎重设计您的网页布局. <!DOCTYPE html> <html> <head>  <meta charset="utf-8">  <title>菜鸟教程(runoob.com)</title>  </head> <body> <div id="container" style="width:500px"&…
在 Windows 任务计划程序中,设置每隔 30 分钟自动抓取 PM2.5 数据,井保存 在 SQLite 数据库中 . import sqlite3,ast,requests,os from bs4 import BeautifulSoup #cur_path=os.path.dirname(__file__) # 取得目前路径 #print(cur_path) cur_path = 'F:\\' conn = sqlite3.connect(cur_path +'DataBasePM25.…
所有平台的 MySQL 下载地址为: MySQL 下载:https://dev.mysql.com/downloads/mysql/ 注意:安装过程我们需要通过开启管理员权限来安装,否则会由于权限不足导致无法安装. Linux/UNIX 上安装 MySQL Linux平台上推荐使用RPM包来安装Mysql,MySQL AB提供了以下RPM包的下载地址: MySQL - MySQL服务器.你需要该选项,除非你只想连接运行在另一台机器上的MySQL服务器. MySQL-client - MySQL…
Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序.HDF…
要介绍 MySQL 的运算符及运算符的优先级. MySQL 主要有以下几种运算符: 算术运算符 比较运算符 逻辑运算符 位运算符 算术运算符 MySQL 支持的算术运算符包括: 在除法运算和模运算中,如果除数为0,将是非法除数,返回结果为NULL. .加 mysql; +-----+ | +-----+ | +-----+ .减 mysql; +-----+ | +-----+ | +-----+ .乘 mysql; +-----+ | +-----+ | +-----+ .除 mysql; +…
ASCII(s) 返回字符串 s 的第一个字符的 ASCII 码. SELECT ASCII(CustomerName) AS NumCodeOfFirstChar FROM Customers; CHAR_LENGTH(s) 返回字符串 s 的字符数 SELECT CHAR_LENGTH("RUNOOB") AS LengthOfString; CHARACTER_LENGTH(s) 返回字符串 s 的字符数 SELECT CHARACTER_LENGTH("RUNOOB&…
1.mysql 命令导入 使用 mysql 命令导入语法格式为: mysql -u用户名 -p密码 < 要导入的数据库数据(runoob.sql) 实例: # mysql -uroot -p123456 < runoob.sql 以上命令将将备份的整个数据库 runoob.sql 导入. 2.source 命令导入 source 命令导入数据库需要先登录到数库终端: mysql> create database abc; # 创建数据库 mysql> use abc; # 使用已创…
MySQL中可以使用SELECT...INTO OUTFILE语句来简单的导出数据到文本文件上. 使用 SELECT ... INTO OUTFILE 语句导出数据 以下实例中将数据表 runoob_tbl 数据导出到 /tmp/runoob.txt 文件中: mysql> SELECT * FROM runoob_tbl -> INTO OUTFILE '/tmp/runoob.txt'; 可以通过命令选项来设置数据输出的指定格式,以下实例为导出 CSV 格式: mysql> SELE…
如果通过网页获取用户输入的数据并将其插入一个MySQL数据库,那么就有可能发生SQL注入安全的问题. 本章节将为大家介绍如何防止SQL注入,并通过脚本来过滤SQL中注入的字符. 所谓SQL注入,就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串,最终达到欺骗服务器执行恶意的SQL命令. 永远不要信任用户的输入,必须认定用户输入的数据都是不安全的,都需要对用户输入的数据进行过滤处理. 以下实例中,输入的用户名必须为字母.数字及下划线的组合,且用户名长度为 8 到 20 个字符…
有些 MySQL 数据表中可能存在重复的记录,有些情况允许重复数据的存在,但有时候我们也需要删除这些重复的数据. 防止表中出现重复数据 可以在 MySQL 数据表中设置指定的字段为 PRIMARY KEY(主键) 或者 UNIQUE(唯一) 索引来保证数据的唯一性. 让尝试一个实例:下表中无索引及主键,所以该表允许出现多条重复记录. CREATE TABLE person_tbl ( first_name CHAR(20), last_name CHAR(20), sex CHAR(10) );…
MySQL 序列是一组整数:1, 2, 3, ...,由于一张数据表只能有一个字段自增主键, 如果你想实现其他字段也实现自动增加,就可以使用MySQL序列来实现. 使用 AUTO_INCREMENT MySQL 中最简单使用序列的方法就是使用 MySQL AUTO_INCREMENT 来定义列. 以下实例中创建了数据表 insect, insect 表中 id 无需指定值可实现自动增长. mysql> CREATE TABLE insect -> ( -> id INT UNSIGNED…
你可能想知道MySQL以下三种信息: 查询结果信息: SELECT, UPDATE 或 DELETE语句影响的记录数. 数据库和数据表的信息: 包含了数据库及数据表的结构信息. MySQL服务器信息: 包含了数据库服务器的当前状态,版本号等. 在MySQL的命令提示符中,可以很容易的获取以上服务器信息. 但如果使用Perl或PHP等脚本语言,就需要调用特定的接口函数来获取. 获取查询语句影响的记录数 在 DBI 脚本中, 语句影响的记录数通过函数 do( ) 或 execute( )返回: #…
如果需要完全的复制MySQL的数据表,包括表的结构,索引,默认值等. 如果仅仅使用CREATE TABLE ... SELECT 命令,是无法实现的. 如何完整的复制MySQL数据表,步骤如下: 使用 SHOW CREATE TABLE 命令获取创建数据表(CREATE TABLE) 语句,该语句包含了原数据表的结构,索引等. 复制以下命令显示的SQL语句,修改数据表名,并执行SQL语句,通过以上命令 将完全的复制数据表结构. 如果你想复制表的内容,你就可以使用 INSERT INTO ...…