word可以另存为html文件,通过这个功能,可以快速实现网页展示word内容,特别是表格的编辑,它包含tr.td.th.rowspan.colspan等内容,直接写比较繁琐. 但word转换过来的html默认是带有很多格式代码,那么如何去除这些冗余代码,只保留主内容呢? 本来是打算从网上找工具的,但发现没有现成的,一般都是推荐用工具的文本替换来去除,这样不能复用.因此,本人采用nodejs写了一小段代码,来去除冗余代码. 主要思路是: nodejs读取html文件的文本内容 用substrin