《Mining the Web:Transforming Customer Data into Customer Value》

《Web数据挖掘:将客户数据转化为客户价值》

——[美] Gordon S.Linoff Michael J.A. Berry 著

【数据挖掘的角色】

数据挖掘的角色就是在和客户的联系中加入智能——并且通过调节人的智能来更精确地做到这一点。

数据挖掘的目标就是利用信息系统重新加入人的调节,使得商家能更好地了解客户的需求,同时也使得经济规模达到价格更低廉和选择更多。

【数据挖掘的方法】

Web数据挖掘一般指的是三种完全不同的行为,所有的这些行为都有数据挖掘的特性并且都被包括在网络中,但是就像数据挖掘的动机不同一样,实际被挖掘的数据也是不同的。

这三种行为即为:

1、  结构挖掘

结构挖掘是用来提取网络的拓扑信息的——网页之间的链接信息。哪些页面被其他页面所链接,哪些页面指向了其他页面?哪些页面的集合构成了一个独立的整体?

2、  应用挖掘

应用挖掘是用来提取关于客户如何运用浏览器浏览和使用这些链接的信息。他们访问了哪些页面?在每一页上待了多长时间?下一步单击了什么?在站点中是按照怎样的访问路线通向检查计数器,又是通过怎么样的路线直接退出的?

3、  内容挖掘

内容挖掘是用来提取文字、图片或其他组成网页内容成分的信息。哪个站点卖辣酱?哪些页面是德文的?哪些页面是介绍莫里斯的舞蹈,或是介绍酸雨的?搜索引擎、智能代理和一些推荐引擎都使用内容挖掘来帮助客户在浩瀚的网络空间中寻找需要的内容。

【结构挖掘中的“计算引用”】

在“不是出版,就是毁灭”的学术世界里,引用一直是保持成绩的一个方法。仅仅是出版过文章是不够的, 重要的是其他人的确读过它并且觉得它们有用。一篇文章的有用与否在于这篇文章出现在在其他文章的参考书目中的次数。特别是作者,会因为他的作品的重复引用而在某个学科出名。——!!!

【不同的搜索引擎决定什么页面能够吸引读者的方式有关】

AltaVista 是基于内容挖掘的,而Google同时还使用了结构挖掘。一言以蔽之,当一个客户输入要搜索的字串“数据挖掘查询”,AltaVista 将很高兴地返回任何谈到数据挖掘查询的页面,而Google则根据对于有关该题目链接的页面的结构的分析来返回它认为是权威的页面。

《Mining the Web:Transforming Customer Data into Customer Value》读后札记的更多相关文章

  1. 《编写高质量代码——Web前端开发修炼之道》读后随笔

    结构样式行为的分离 结构标准包括XML标准.XHTML标准.HTML标准:样式标准有CSS标准:行为标准主要包括DOM标准和ECMAScript标准. 通常的项目会按照如上的方式进行分离,但自己曾今做 ...

  2. 自开发Web应用和SAP Customer Data Cloud Identity服务的集成

    今天的文章继续由SAP成都研究院的云时代女王,Aviva给大家分享关于SAP Customer Data Cloud的一些使用经验. Aviva之前的文章可以在本文末尾处获得. 下面是她的正文. 大家 ...

  3. data Mining with Weka: Trailer More Data Mining with Weka 用weka 进行数据挖掘 Weka 用weka 进行更多数据挖掘

    https://www.youtube.com/user/WekaMOOC 大学公开课  视频教程 weka 入门教程 data Mining with Weka: Trailer  More Dat ...

  4. 扩展银行项目,添加一个(客户类)Customer类。Customer类将包含一个Account对象。

    练习目标-使用引用类型的成员变量:在本练习中,将扩展银行项目,添加一个(客户类)Customer类.Customer类将包含一个Account对象. 任务 在banking包下的创建Customer类 ...

  5. Web.config中加了system.diagnostics节点后就不能访问了

    Web.config中加了system.diagnostics节点后就不能访问了,怎么回事? [解决方法] 不要把system.diagnostics节点作为web.config的第一个节点.

  6. jmeter 通过csv data set config 设置参数化后,执行结果显示为<EOF>

    通过csv data set config 设置参数化后,执行结果显示为<EOF>: 反复确认相应的参数的设置均没有问题,其中csv文件编码方式采用uft-8.在csv data set ...

  7. SAP Customer Data Cloud(Gigya)的用户搜索实现

    我在Gigya前台根据email搜索,输入一个邮箱地址,回车,在Chrome开发者工具里观察到到后台的网络请求: 这是一个post请求: __RequestVerificationToken 请求体: ...

  8. 练习2 练习目标-使用引用类型的成员变量:在本练习中,将扩展银行项目,添加一个(客户类)Customer类。Customer类将包含一个Account对象。

    package banking; public class Customer { private String firstName; private String lastName; private ...

  9. C# Web 数据注解Data Annotations、模型状态ModelState、数据验证

    C#中的模型状态与数据注解,为我们提供了很便利的请求数据的验证. 1. ModelState ModelState在进行数据验证的时候很有用的,它是: 1)验证数据,以及保存数据对应的错误信息. 2) ...

随机推荐

  1. SpringCloud Gateway(八)

    搭建SpringCloud Gateway 创建microservicecloud-springcloud-gateway-9528工程 pom文件 依赖: <dependencies> ...

  2. hdu6158(圆的反演)

    hdu6158 题意 初始有两个圆,按照标号去放圆,问放完 \(n\) 个圆后的总面积. 分析 圆的反演的应用. 参考blog 设反演圆心为 \(O\) 和反演半径 \(R\) 圆的反演的定义: 已知 ...

  3. 灯泡游戏 (Kruskal)(并查集)

    灯泡游戏 时间限制: 1 Sec  内存限制: 64 MB提交: 9  解决: 4[提交][状态][讨论版] 题目描述 有 一个n行m列的矩阵,左上角坐标是(0,0),右下角坐标是(n-1,m-1). ...

  4. websocket、文件上传

    支持情况: 浏览器实现了websocket的浏览器:Chrome Supported in version 4+ Firefox Supported in version 4+ Internet Ex ...

  5. Scrum实施调查案例

    什么是敏捷开发方法?什么是SCRUM? 有人在这个字面上下功夫,说敏捷就是反应要灵敏,动作要快捷:有人还在字面上进行延伸,说敏捷就是又好又快,或者就是多快好省:有人说敏捷就是光写代码不写文档:有人觉得 ...

  6. CodeForces - 990G GCD Counting

    Discription You are given a tree consisting of nn vertices. A number is written on each vertex; the ...

  7. 【第二类Stirling数】Gym - 101147G - The Galactic Olympics

    如果K>n,就无解: 如果K==n,就答案是P(n,n): 如果K<n,答案就是s(n,K)*P(K,K): P为排列数,s为第二类斯特林数. 第二类斯特林数就是将n个球,划分为K个非空集 ...

  8. 【最小瓶颈生成树】【最小生成树】【kruscal】bzoj1083 [SCOI2005]繁忙的都市

    本意是求最小瓶颈生成树,但是我们可以证明:最小生成树也是最小瓶颈生成树(其实我不会).数据范围很小,暴力kruscal即可. #include<cstdio> #include<al ...

  9. 【二分图】【最大匹配】【匈牙利算法】洛谷 P2071 座位安排 seat.cpp/c/pas

    ∵每个座位可以坐俩人,所以拆点最大匹配. #include<cstdio> #include<vector> #include<cstring> using nam ...

  10. ListView控件(上)数据适配器:ListView绑定监听是SetOnItemClickListener

    (一) 1.效果图: 2.MainActivity.java package com.example.app5; import android.support.v7.app.AppCompatActi ...