1、一些背景

标签技术重要意义
标签技术如今已经被广泛应用于包括网络书签、博客、播客、视频分享等在内的多种 Web2. 0 服务
Flickr简介
Flickr 是一集图片存放 交友 组群 邮件等功能于一体的 Web2. 0 网站,它充分利用 tag 技术,进行网站资源的组织与标注
Flickr优点
Flickr 网站在以其非常低的入门门槛、即刻的反馈、异步的交流、动态更新和个性化等特点给用户标注带来极大便利

2、Flickr标签质量问题

2、1第一类:词汇不规范

(1)输出不规则(大小写 单复数 简缩写、合成词)
例如:girl-girls,autumn-Autumnusa,USA-usa-American 
(2)同义词或者近义词
例如:土豆-马铃薯-tomato

导致的结果就是
(1)用这些标签来标注的资源被分散了,不能实现资源的聚合
(2)进而影响了系统资源组织的效率和用户检索结果,特别是检全率

解决
(1)Flickr 网站可以对标签字、词或短语等元素的概念进行明确定义以及对概念间关系进行揭示,在不同形式的词汇间建立起关联,最后形成一个领域的语义网络,以实现对该领域中概念及概念间关系的控制,系统通过显性化提示向用户推荐符合标准的高质量标签,并适当增加一些输入限制功能,以避免用户输出不规则 错误的 无意义的标签

2、2第二类:错误或生僻

(1)拼错单词或漏掉字母
(2)过于个性化的标签

带来的问题
(1)内容聚合的难度增加
(2)图文脱节的现象

解决
(1)检错系统可以与输入法系统结合起来
当用户输入的标签词汇存在拼写错误时,系统可以给用户一些提醒或者给予用户一些修改建议
(2)检错系统可以与标签系统的语义网络相结合
在用户使用过于个性化或者非主流的标签词汇时,系统能将这些不规范的标签词与其他标签进行语义链接,推荐使用语义相近的词或者在保留个性化标签的前提下进行资源的聚类,避免那些以不规范的词汇来标注的资源石沉大海
(3)可以引入图片识别技术 
当用户针对图片内容进行标注时,系统要检测与图片内容是否相符,如果出现标签与图片不吻合的情况,系统应提醒用户再次查看图片,考虑更改标签

3、Flickr标签管理的问题

(1)在浏览热门标签的时候却看不到标签的使用频次
(2)另外,在 Flickr 的热门标签云图中,标签都是按照单词字母的先后顺序来排列的
(3)并未很好地对网站所有标签进行管理和利用,没有提供网站所有标签的列表 

问题
(1)在浏览热门标签的时候却看不到标签的使用频次,当需要了解的时候,必须一个一个点击打开才能看到
(2)用户只能通过标签字体的大小来了解使用频次较高的标签,但是却不能很清楚地知道频次的高低排行顺序,浏览的时候会显得不太方便快捷
(3)从用户的角度来看,就不能从宏观上来了解网站上的所有资源类型和内容,也不能通过浏览网站的所有标签的方式来发现与挖掘资源,用户只能通过检索的方式来获取所需要的图片资源

解决
(1)加上数字
(2)Flickr 网站在允许用户修改 删除自己所贴标签的同时,还可以让标注者自己分类管理自己的标签,把自己属于同一类的标签再给出一个大标签,这样每个人就有可能减少同义词的使用,对同一概念选择固定表达的几率会比较大些
(3)在对所有标签的管理上,Flickr 网站完全可以对所有标签进行统计,然后分类,虽然不是按照专业词表进行划分,但是却能从用户的角度出发,方便用户的使用

4、其他方面控制标签质量

4、1给用户提供一些标签使用的指导和帮助

4、2对用户的管理

Flickr 网站可以对用户实行分级制度,通过监控标签的有效性来设置用户级别比如可将用户分为浏览者 内容创建者 管理员 评论者等级别,不同级别的用户享有不同的权限 也可以通过用户对图片的评论和打分,来发现高质量的图片资源,减少用户标注时的错误,从而提高用户自律的意识和标签的标引质量

4、3标签的推荐

(1)提供其他用户对类似图片进行标注时使用的标签,或者是网站比较常用 热门的标签进行推荐,通过让用户采用系统推荐的标签来减少用户本人在标注时使用一些不规范的词汇
(2)提供相同的资源其他用户的标引情况,并且标引词是按照热度来排序,标引界面还会向用户提示推荐标签 和Top Tags 来进一步规范 引导用户对标签的创建与使用
(3)对于涉及国家 地理 人名 机构名等专有名词根据用户输入的字母猜测整个词语,并给出已有的 tag 提醒,引导用户使用,还有利于保证标引此类网页时 tag 使用的规范性

4、4个性化信息服务

提高标签的质量还有一个重要的方面就在于提高标签的利用效率,对标签的深层次挖掘 在对用户标签的分析基础之上来了解用户的喜好 兴趣,推荐本网站的个性化信息服务
(1)Flickr 可以允许用户在浏览他人相册时将自己感兴趣的标签添加到友情链接中,并在自己的相片中集中显示,这样既方便自己的再次访问,也是一种推荐自己的发现的方法 
(2)Flickr 的 社群功能可以更加全面和完善,使具有相同兴趣或目的的用户能够聚集形成一个交流圈,系统为群组成员提供交流发言的论坛和共享资源的公共存储空间
(3)对标签实施进一步地挖掘,发现用户的兴趣爱好,实现信息的定向推送和个性化的推荐机制
(4)通过喜欢这本书这张唱片这部电影的人也喜欢,用户可以在浏览过程中,顺藤摸瓜地发现很多同类型的合你胃口的东西和跟你有一样兴趣爱好的人

思考:
(1)这篇文章讲到了一些主要的标签质量问题,较为系统,写标签质量相关论文可以参考
(2)作者提出的一些改善标签质量的很多方法可以用在以后开发更易用的系统上

【读书笔记】Flickr 网站用户标签的质量控制对策的更多相关文章

  1. 《大型网站系统与JAVA中间件实践》读书笔记-大型网站架构演进

    大型网站架构演进 大型网站是一种很常见的分布式系统,除了海量数据和高并发的访问量,本身业务和系统也复杂. 大型网站的架构演进 我们现在常用的大型网站都是从小网站一步一步发展起来的,这个过程中会 有一些 ...

  2. 《The Linux Command Line》 读书笔记04 Linux用户以及权限相关命令

    Linux用户以及权限相关命令 查看身份 id:Display user identity. 这个命令的输出会显示uid,gid和用户所属的组. uid即user ID,这是账户创建时被赋予的. gi ...

  3. OCA读书笔记(8) - 管理用户安全

    创建用户:create user +用户 default tablespace + 表空间名 identified + 验证方式 SQL> create user easthome profil ...

  4. 《Linux内核设计与实现》读书笔记——第五章

    <Linux内核设计与实现>读书笔记--第五章 标签(空格分隔): 20135321余佳源 第五章 系统调用 操作系统中,内核提供了用户进程与内核进行交互的一组接口.这些接口让应用程序受限 ...

  5. 【读书笔记《Bootstrap 实战》】6.单页营销网站

    我们已经掌握了很多实用 Bootstrap  的重要技能.现在,是时候拿出更多的创意来帮助客户实现他们全方位在线营销的愿望了.此次将带领大家做一个漂亮的单页高端营销网站. 主要任务如下: □ 一个大型 ...

  6. Web高级征程:《大型网站技术架构》读书笔记系列

    一.此书到底何方神圣? <大型网站技术架构:核心原理与案例分析>通过梳理大型网站技术发展历程,剖析大型网站技术架构模式,深入讲述大型互联网架构设计的核心原理,并通过一组典型网站技术架构设计 ...

  7. 《TCP/IP详解卷1:协议》第11章 UDP:用户数据报协议-读书笔记

    章节回顾: <TCP/IP详解卷1:协议>第1章 概述-读书笔记 <TCP/IP详解卷1:协议>第2章 链路层-读书笔记 <TCP/IP详解卷1:协议>第3章 IP ...

  8. 《大型网站系统与Java中间件》读书笔记 (中)

    前言 只有光头才能变强. 文本已收录至我的GitHub仓库,欢迎Star:https://github.com/ZhongFuCheng3y/3y 回顾上一篇: <大型网站系统与Java中间件& ...

  9. WPF,Silverlight与XAML读书笔记第四十七 - Silverlight与浏览器

    说明:本系列基本上是<WPF揭秘>的读书笔记.在结构安排与文章内容上参照<WPF揭秘>的编排,对内容进行了总结并加入一些个人理解. 这部分内容主要介绍Silverlight与浏 ...

随机推荐

  1. Trie树之C-实现

    title: Trie树之C++实现 comments: true date: 2016-10-02 16:59:54 categories: 算法 tags: Trie树 前言 之前写了一篇偏向于理 ...

  2. 解决CIFilter滤镜后图片大小和方向发生变化

    调用contextWithOptions:和createCGImage: fromRect:方法创建CIContext.与以往不同的地方是CIImage没有frame与bounds属性:只有exten ...

  3. 使用Chrome快速实现数据的抓取(四)——优点

    些一个抓取WEB页面的数据程序比较简单,大多数语言都有相应的HTTP库,一个简单的请求响应即可,程序发送Http请求给Web服务器,服务器返回HTML文件.交互方式如下: 在使用DevProtocol ...

  4. 【Go入门教程8】interface(interface类型、interface值、空interface{}、嵌入interface、反射)

    interface Go语言里面设计最精妙的应该算interface,它让面向对象,内容组织实现非常的方便,当你看完这一章,你就会被interface的巧妙设计所折服. 什么是interface 简单 ...

  5. __attribute__ ((attribute-list))

    http://blog.csdn.net/ithomer/article/details/6566739 构造与析构: #include <stdio.h> #include <st ...

  6. [asp.net web api] HttpStatusCode的使用

    摘要 在开放api的时,我们需要返回不同的状态给调用方,以告诉它们当前请求的结果,是成功了还是失败了.当然这种给调用方的反馈有很多种做法,这里就说是web api内置的对Http状态码.http状态码 ...

  7. [MSDN] Windows Server 2012 R2 简/繁/英下载

    Windows Server 2012 R2 Chinese-Simplified ISO SHA1-------------------------------------------------- ...

  8. Thinkpad T440p安装Linux的种种问题(by quqi99)

    作者:张华  发表于:2014-05-08 版权声明:能够随意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本版权声明 (http://blog.csdn.net/quqi99 ) Thi ...

  9. C#程序集系列11,全局程序集缓存

    全局程序集缓存(GAC:Global Assembly Cache)用来存放可能被多次使用的强名称程序集.当主程序需要加载程序集的时候,优先选择到全局程序集缓存中去找寻需要的程序集. 为什么需要全局程 ...

  10. 【docker】docker基础原理,核心技术简介

    关于docker的核心技术,就是以下的三大技术: 1.namespaces [命名空间] 使用linux的命名空间实现的进程间隔离.Docker 容器内部的任意进程都对宿主机器的进程一无所知. 除了进 ...