Post by 54admin, 2009-5-8, Views:575

1:

对项目添加引用,Microsoft Word 11.0 Object Library

2:

在程序中添加 using Word = Microsoft.Office.Interop.Word;

3:

程序中添加

Word.Application app = new Microsoft.Office.Interop.Word.Application(); //可以打开word程序

Word.Document doc = null; //一会要记录word打开的文档

word文档和word程序可不是一回事奥!

4:

一般来说,对于抽取word内容,用的方法很少

public override void openFile(object fileName){} //打开文档

public override object readPar(int i){} //读取word文档的第i段

public override int getParCount(){} //返回word文档一共几段

public override void closeFile(){} //关闭文档

public override void quit(){} //关闭word程序

//从网页上拷贝的目录有时候会出现手动换行符^l,,先将其换成回车段落标记,才能正确读取

public void replaceChar(){}

5:代码

public override void openFile(object fileName)

{

try

{

if (app.Documents.Count > 0)

{

if (MessageBox.Show("已经打开了一个word文档,你想关闭重新打开该文档吗?", "提示", MessageBoxButtons.YesNo) == DialogResult.Yes)

{

object unknow = Type.Missing;

doc = app.ActiveDocument;

if (MessageBox.Show("你想保存吗?", "保存", MessageBoxButtons.YesNo) == DialogResult.Yes)

{

app.ActiveDocument.Save();

}

app.ActiveDocument.Close(ref unknow, ref unknow, ref unknow);

app.Visible = false;

}

else

{

return;

}

}

}

catch (Exception)

{

//MessageBox.Show("您可能关闭了文档");

app = new Microsoft.Office.Interop.Word.Application();

}

try

{

object unknow = Type.Missing;

app.Visible = true;

doc = app.Documents.Open(ref fileName,

ref unknow, ref unknow, ref unknow, ref unknow, ref unknow,

ref unknow, ref unknow, ref unknow, ref unknow, ref unknow,

ref unknow, ref unknow, ref unknow, ref unknow, ref unknow);

}

catch (Exception ex)

{

MessageBox.Show("出现错误:" + ex.ToString());

}

}

public override object readPar(int i)

{

try

{

string temp = doc.Paragraphs[i].Range.Text.Trim();

return temp;

}

catch (Exception e) {

MessageBox.Show("Error:"+e.ToString());

return null;

}

}

public override int getParCount()

{

return doc.Paragraphs.Count;

}

public override void closeFile()

{

try

{

object unknow = Type.Missing;

object saveChanges = Word.WdSaveOptions.wdPromptToSaveChanges;

app.ActiveDocument.Close(ref saveChanges, ref unknow, ref unknow);

}

catch (Exception ex)

{

MessageBox.Show("Error:" + ex.ToString());

}

}

public override void quit()

{

try

{

object unknow = Type.Missing;

object saveChanges = Word.WdSaveOptions.wdSaveChanges;

app.Quit(ref saveChanges, ref unknow, ref unknow);

}

catch (Exception)

{

}

}

public void replaceChar() {

try

{

object replaceAll = Word.WdReplace.wdReplaceAll;

object missing = Type.Missing;

app.Selection.Find.ClearFormatting();

app.Selection.Find.Text = "^l";

app.Selection.Find.Replacement.ClearFormatting();

app.Selection.Find.Replacement.Text = "^p";

app.Selection.Find.Execute(

ref missing, ref missing, ref missing, ref missing, ref missing,

ref missing, ref missing, ref missing, ref missing, ref missing,

ref replaceAll, ref missing, ref missing, ref missing, ref missing);

}

catch (Exception e)

{

MessageBox.Show("文档出现错误,请重新操作");

}

}

6:

刚才是用读取一段做的例子,如果要读取一句或一篇只需要把doc.Paragraphs[i](readPar中)改成 doc.Sentences[i]或doc.content即可,因为都是微软的东东,所以用起来没有一点的障碍,再加上现在的vs2005做的很智能, 所以先从java转到了c#上

7:

实际上,c#中读取word是不用那么麻烦的,但是如果考虑到可能还要抽取txt,ppt等多种格式,所以就写了一个抽象类,调用起来也方便,这就是为什么我的程序方法开头会有override的原因,总要考虑到通用,所以多了一些代码。

c#读取word内容,c#提取word内容的更多相关文章

  1. C#读取word文档中的内容

    原文地址 http://blog.csdn.net/yhrun/article/details/7674540 在使用前需要添加引用巨硬的com组件:Microsoft Word 12.0 objec ...

  2. “Word自动更改后的内容保存到通用文档模板上。是否加载该模板?“的解决办法

    在win7系统下,Word2010出现了不能正常关闭.打开一个已有word文档,点击右上角关闭按钮后,先提示"word已停止工作,windows正在检查该问题的解决方案",随后提示 ...

  3. 用Word收集网页中的内容,用文档结构图整理

    如何用Word保存网页中的内容 网页中的内容,用什么保存好? 用笔记类软件是个不错的选择,还可以用 Word 保存,这样方便用“文档结构图”来整理网页. 如图:网页收集后用文档结构图进行整理. (图一 ...

  4. javascript下用ActiveXObject控件替换word书签,将内容导出到word后打印第1/2页

    由于时间比较紧,没多的时候去学习研究上述工具包,现在用javascript操作ActiveXObject控件,用替换word模板中的书签方式解决. 最近有需求将数据导出到word里,然后编辑打印. 想 ...

  5. C#将内容导出到Word到指定模板

    昨天做了下导入导出Excel文件,今天研究了下导出Word文件. 从网上找了半天才找到了一个能导出到指定模板的,在这里总结下. 导出模板原理就是利用的替换占位符. 我这里先建立好了一个模板, 接下来写 ...

  6. 使用Java POI来选择提取Word文档中的表格信息

    通过使用Java POI来提取Word(1992)文档中的表格信息,其中POI支持不同的ms文档类型,在具体操作中需要注意.本文主要是通过POI来提取微软2003文档中的表格信息,具体code如下(事 ...

  7. Java 提取Word中的文本和图片

    本文将介绍通过Java来提取或读取Word文档中文本和图片的方法.这里提取文本和图片包括同时提取文档正文当中以及页眉.页脚中的的文本和图片. 使用工具:Free Spire.Doc for Java ...

  8. Python处理邮件内容和提取邮件里的url地址

    最近在搞一个邮箱验证账号注册和登录的模块.总结一下.就当记载.文章中涉及到域名和邮箱等都经过处理. 需求是这样子的,注册某个网站的账号,然后注册需要邮件内容激活,登录的时候如果不是常用设备的话也需要认 ...

  9. C# 提取Word文档中的图片

    C# 提取Word文档中的图片 图片和文字是word文档中两种最常见的对象,在微软word中,如果我们想要提取出一个文档内的图片,只需要右击图片选择另存为然后命名保存就可以了,今天这篇文章主要是实现使 ...

随机推荐

  1. java.util.Date、java.sql.Date、java.sql.Time、java.sql.Timestamp区别和联系

    java.util.Date.java.sql.Date.java.sql.Time.java.sql.Timestamp区别和联系 栏目:Java基础 作者:admin 日期:2015-04-19  ...

  2. Linux内核解析

     一.Linux内核  一个完整可用的操作系统主要由 4 部分组成:硬件.操作系统内核.操作系统服务和用户应用程序,如下图所示:             用户应用程序:是指那些自处理程序. Inter ...

  3. SPOJ-TTM To the moon

    一句话题意:写一个支持区间修改,区间求和的可持久化数据结构. 考虑使用主席树,然而,区间修改怎么办? 似乎有标记永久化的方法. 对于线段树上完全覆盖标记产生贡献的区间,我们直接打上一个$tag$,而对 ...

  4. 【转】Eclipse 插件 —— RunJettyRun 的安装与使用

    http://www.th7.cn/Program/java/201309/148299.shtml          关于 Jetty 与 Eclipse 的集成,网上很多都是使用 Eclipse ...

  5. idea中java项目增加module后,手动增加xml文件,合并到webapp/WEB-INFO或WEB-INFO(包)

    当手工增加一个module,增加配置文件(如:web.xml)需要合并到文件夹里,要不众多文件在一个src文件夹下,太凌乱. 1. 合并到webapp/WEB-INFO下 a. 首先增加webapp目 ...

  6. NYOJ 喷水装置(二)

    题目转换成,每个水龙头在横坐标方向上覆盖的长度区间,转换后的问题就有点像会场安排问题了,然后接下来选的方案依据贪心,我们队这些个区间进行排序,依照区间的左端点按从小到大排序,然后从左往右选取,条件是当 ...

  7. 39、生鲜电商平台-redis缓存在商品中的设计与架构

    说明:Java开源生鲜电商平台-redis缓存在商品中的设计与架构. 1. 各种计数,商品维度计数和用户维度计数 说起电商,肯定离不开商品,而附带商品有各种计数(喜欢数,评论数,鉴定数,浏览数,etc ...

  8. jquery 操作表格实例

    案例1:隔行变色,滑动,点击变色以(选中取消效果)(addClass(),removeClass(),toggleClass()) Html: <h4>1.隔行变行</h4> ...

  9. The Little Prince

    Chapter 1 That is why, at the age of six, I gave up what might have been a magnificant career as a p ...

  10. Go:json包的坑

    import encoding/json func test() { m := make(map[string]string) a := `{"xiaoming":"男& ...