目录

Lucene.net站内搜索—1、SEO优化
Lucene.net站内搜索—2、Lucene.Net简介和分词
Lucene.net站内搜索—3、最简单搜索引擎代码
Lucene.net站内搜索—4、搜索引擎第一版技术储备(简单介绍Log4Net、生产者消费者模式)
Lucene.net站内搜索—5、搜索引擎第一版实现
Lucene.net站内搜索—6、站内搜索第二版

我们先来看下百度搜索

aaarticlea/png;base64," alt="" />

用户保存一篇文章就把文章写入索引库

用户输入“我喜欢的季节”也可以搜索出含有“喜欢的”和“季节”的,这里用到了分词。query.Add(new Term("body',str))

搜索结果页面显示标题和帖子的一部分(帖子的前100个字)。点击标题可以进入帖子页面。我这里结果页面暂时不用分页。

英文搜索时要转换为小写的,因为盘古分词会默认把英文转化为小写保存。

面试可能会问的问题:Lucene.Net的原理:分词、B+树、索引。

如果搜索结果为空,看看是不是创建索引download下来的是乱码,因为如果download的是乱码,当然搜索不到

显示用Repeater,将搜索结果放到

 public class SearchResultInfo
{
public string URL{get;set;}
public String Title { get; set; }
public String Summary { get; set; }
}
List< SearchResultInfo> list = new List< SearchResultInfo>();
repeater.DataSource=list;

把list绑定到Repeater,不考虑分页,设置一下Repeater的ItemTempelete

<asp:Repeater ID="Repeater1" runat="server">

<ItemTemplate><a href="Eval('URL')" /></ItemTemplate>

</asp:Repeater>

对象中,然后绑定到ListView中,其实用Repeater也可以

 <asp:ListView ID="listResult" runat="server">
<ItemTemplate>
<p>
<a href="<%#Eval("URL") %>"><%#Eval("Title") %></a></p>
<p>
<%#Eval("Summary")%></p>
</ItemTemplate>
<LayoutTemplate>
<asp:PlaceHolder ID="itemPlaceholder" runat="server" />
</LayoutTemplate>
<EmptyDataTemplate>
<p>
No Result</p>
</EmptyDataTemplate>
</asp:ListView>

Log4Net

这里我简单介绍下Log4Net,因为后面用得到。

Log4Net是用来记录日志的,可以将程序运行过程中的信息输出到一些地方(文件、数据库、EventLog等),日志就是程序的黑匣子,可以通过日志查看系统的运行过程,从而发现系统的问题。日志的作用:将运行过程的步骤、成功失败记录下来,将关键性的数据记录下来分析系统问题所在。Log4J

对于网站来讲,不能把异常信息显示给用户,异常信息只能记录到日志,出了问题把日志文件发给开发人员,就能知道问题所在。

Log4net的安装:

用户可以从http://logging.apache.org/log4net/下载log4net的源代码。解压软件包后,在解压的src目录下将log4net.sln载入Visual Studio .NET,编译后可以得到log4net.dll。用户要在自己的程序里加入日志功能,只需将log4net.dll引入工程即可。

配置Log4Net环境

  • 新建一个WebApplication
  • 添加对log4net.dll的引用(bin\net\2.0\release)
  • 在Web.Config (或App.Config)添加配置,见备注
  • 初始化:在程序最开始加入log4net.Config.XmlConfigurator.Configure();不要加到页面的Load
  • 在要打印日志的地方LogManager.GetLogger(typeof(Program)).Debug("信息"); 。通过LogManager.GetLogger传递要记录的日志类类名获得这个类的ILog(这样在日志文件中就能看到这条日志是哪个类输出的了),然后调用Debug方法输出消息。因为一个类内部不止一个地方要打印日志,所以一般把ILog声明为一个static字段。
  • 输出错误信息用ILog.Error方法,第二个参数可以传递Exception对象。log.Error("***错误"+ex),log.Error("***错误",ex)
  • 测试代码:见下面。
    log("准备执行数据库清理"+DateTime.Now);
    try
    {
    clear();
    log("清理成功"+DateTime.Now);
    }
    catch(Excepion ex)
    {
    log("清理失败"+DateTime.Now+ex);
    }

    在VS2010中的控制台项目引用Log4Net的时候要将项目的“目标框架”改为非“Client Profile”

    备注:

    1、Log4Net配置

    <configuration>
    <configSections>
    <section name="log4net" type="log4net.Config.Log4NetConfigurationSectionHandler, log4net"/>
    </configSections>
    <log4net>
    <!-- Define some output appenders -->
    <appender name="RollingLogFileAppender" type="log4net.Appender.RollingFileAppender">
    <file value="test.txt"/>
    <appendToFile value="true"/>
    <maxSizeRollBackups value="10"/>
    <maximumFileSize value="1024KB"/>
    <rollingStyle value="Size"/>
    <staticLogFileName value="true"/>
    <layout type="log4net.Layout.PatternLayout">
    <conversionPattern value="%date [%thread] %-5level %logger - %message%newline"/>
    </layout>
    </appender>
    <root>
    <level value="DEBUG"/>
    <appender-ref ref="RollingLogFileAppender"/>
    </root>
    </log4net>
    </configuration>

    2、完整示例

     class Program
    {
    private static ILog log = LogManager.GetLogger(typeof(Program));
    static void Main(string[] args)
    {
    log4net.Config.XmlConfigurator.Configure();
    log.Debug("开始运行");
    string s = Console.ReadLine();
    log.Debug("用户输入:"+s);
    try
    {
    int i = Convert.ToInt32(s);
    }
    catch (Exception ex)
    {
    log.Error("用户输入的数据错误:" + s, ex);
    }
    Console.ReadKey();
    log.Debug("程序退出");
    }

    生产者消费者模式

  • 生产者、消费者模式:生产者、消费者不用互相等待,用仓库做缓冲。简单原理性代码见备注

  • 举例:多线程操作同一个文件时会出现并发问题。解决的一个办法就是给文件加锁(lock),但是这样的话,一个线程操作文件时,其它的都得等待,这样的话性能非常差。另外一个解决方案,就是先将数据放在队列中,然后开启一个线程,负责从队列中取出数据,再写到文件中。
  • 因为同时只能有一个线程对索引库进行写操作,所以以一种策略(联想火车中等厕所可用,红灯/绿灯就是标志是否有人在用)是一直检测是否厕所可用,带来的问题就是效率低;另外一种策略就是委托给乘务员排队处理,这样就可以去干别的。

  • 队列(先入先出):Queue、ConcurrentQueue(*线程安全,多线程中用这个)。栈(*):Stack:先进后出。

  • 发邮件、发短信偶尔会遇到半个小时才收到的情况就是在排队处理。

    Demo:

    using System;
    using System.Collections.Generic;
    using System.Linq;
    using System.Text;
    using System.Threading;
    namespace 生产者消费者模式
    {
    class Program
    {
    //仓库
    static List<int> list = new List<int>();
    static void Main(string[] args)
    {
    //while (true)
    //{
    // Console.WriteLine("请输入一个数字");
    // int i = Convert.ToInt32(Console.ReadLine());
    // 耗时操作.Process(i);
    //}
    //消费线程
    Thread thread = new Thread(ThreadRun);
    thread.Start();
    //生产线程
    while (true)
    {
    Console.WriteLine("请输入一个数字");
    int i = Convert.ToInt32(Console.ReadLine());
    list.Add(i);//把任务放入仓库
    }
    }
    static void ThreadRun()
    {
    while (true)
    {
    //如果仓库中有产品,就消费
    if (list.Count > )
    {
    int i = list[];//有线程安全问题
    list.RemoveAt();//消费完毕后从仓库移除
    Thread.Sleep(5000);//模拟耗时操作.Process(i);
    }
    }
    }
    }
    }

Lucene.net站内搜索—4、搜索引擎第一版技术储备(简单介绍Log4Net、生产者消费者模式)的更多相关文章

  1. Lucene.net站内搜索—5、搜索引擎第一版实现

    目录 Lucene.net站内搜索—1.SEO优化 Lucene.net站内搜索—2.Lucene.Net简介和分词Lucene.net站内搜索—3.最简单搜索引擎代码Lucene.net站内搜索—4 ...

  2. Lucene.net站内搜索—3、最简单搜索引擎代码

    目录 Lucene.net站内搜索—1.SEO优化 Lucene.net站内搜索—2.Lucene.Net简介和分词Lucene.net站内搜索—3.最简单搜索引擎代码Lucene.net站内搜索—4 ...

  3. Lucene.net站内搜索—6、站内搜索第二版

    目录 Lucene.net站内搜索—1.SEO优化 Lucene.net站内搜索—2.Lucene.Net简介和分词Lucene.net站内搜索—3.最简单搜索引擎代码Lucene.net站内搜索—4 ...

  4. Lucene.net站内搜索—2、Lucene.Net简介和分词

    目录 Lucene.net站内搜索—1.SEO优化 Lucene.net站内搜索—2.Lucene.Net简介和分词Lucene.net站内搜索—3.最简单搜索引擎代码Lucene.net站内搜索—4 ...

  5. Lucene.net站内搜索—1、SEO优化

    目录 Lucene.net站内搜索—1.SEO优化 Lucene.net站内搜索—2.Lucene.Net简介和分词Lucene.net站内搜索—3.最简单搜索引擎代码Lucene.net站内搜索—4 ...

  6. Lucene.Net 站内搜索

    Lucene.Net 站内搜索 一  全文检索: like查询是全表扫描(为性能杀手)Lucene.Net搜索引擎,开源,而sql搜索引擎是收费的Lucene.Net只是一个全文检索开发包(只是帮我们 ...

  7. Lucene.net站内搜索-最简单搜索引擎代码

    Lucene.Net核心类简介 先运行写好的索引的代码,再向下讲解各个类的作用,不用背代码. (*)Directory表示索引文件(Lucene.net用来保存用户扔过来的数据的地方)保存的地方,是抽 ...

  8. 百度站内搜索https不可用切换api搜索,加上谷歌api站内搜索

    google推https几年了,百度开始宣传全面https,但是,百度站内搜索 自己的服务却不走https,接口报错.百度分享也是. 然后采用http://search.zhoulujun.cn/cs ...

  9. 基于lucene.net 和ICTCLAS2014的站内搜索的实现1

    Lucene.net是一个搜索引擎的框架,它自身并不能实现搜索.须要我们自己在当中实现索引的建立,索引的查找.全部这些都是依据它自身提供的API来实现.Lucene.net本身是基于java的,可是经 ...

随机推荐

  1. java中string内存的相关知识点

    (一):区别java内存中堆和栈: 1.栈:数据可以共享,存放基本数据类型和对象的引用,其中对象存放在堆中,对象的引用存放在栈中: 当在一段代码块定义一个变量时,就在栈中 为这个变量分配内存空间,当该 ...

  2. Linux快速入门01-基础概念

    4年多前,刚到上海时报过一个关于Oracle的培训班,在那里接触到了Linux,不过一直都没真正去试着使用它.现在经过慢慢的成长,越来越觉得,Linux是每一个服务端工程师必须掌握的系统,即使是现在最 ...

  3. Html与CSS快速入门02-HTML基础应用

    这部分是html细节知识的学习. 快速入门系列--HTML-01简介 快速入门系列--HTML-02基础元素 快速入门系列--HTML-03高级元素和布局 快速入门系列--HTML-04进阶概念 示例 ...

  4. 当你还在纠结于ORM的性能时,我已经远远的把你抛在脑后

    最近找工作面试,问到一些过去的工作和项目经验.我把公司用到的ORM框架(LLBL Gen)拿出来谈一谈,说一下他的优势,对方却一直追问ORM的好处,性能方面的问题,让我有时候都不知道如何回答,产生了不 ...

  5. switch判断注意点

    if判断,如果判断的两个值类型不同,会继续隐性转换,==,当然如果使用===就不会. 1 if(2=="2"){ 2 console.log("true"); ...

  6. <C#>找出数组中重复次数最多的数值

    给定一个int数组,里面存在重复的数值,如何找到重复次数最多的数值呢? 这是在某社区上有人提出的问题,我想到的解决方法是分组. 1.先对数组中的所有元素进行分组,那么,重复的数值肯定会被放到一组中: ...

  7. javascript类型系统——字符串String类型

    × 目录 [1]定义 [2]引号 [3]反斜线[4]特点[5]转字符串 前面的话 javascript没有表示单个字符的字符型,只有字符串String类型,字符型相当于仅包含一个字符的字符串 字符串S ...

  8. sublime简要笔记

    选中单词 [1]选中当前单词 ctrl+d [2]跳过当前单词 ctrl+k ctrl+d [3]选中相同的所有单词 alt+f3 [4]多行游标 按住shift,然后按住鼠标右键向下拖动 行操作 [ ...

  9. javaweb -- 获取请求IP(附实现源码)

    实现步骤如下: (1)新建一个java web工程 (2)新建servers包,新建类GetRequestIp,用来处理获取请求IP,GetRequestIp类完整代码如下: package serv ...

  10. Java多线程系列--“JUC集合”05之 ConcurrentSkipListMap

    概要 本章对Java.util.concurrent包中的ConcurrentSkipListMap类进行详细的介绍.内容包括:ConcurrentSkipListMap介绍ConcurrentSki ...