Function LoseHtml(ContentStr) Dim ClsTempLoseStr,regEx ClsTempLoseStr = Cstr(ContentStr) Set regEx = New RegExp regEx.Pattern = "<\/*[^<>]*>" '这是完全去除HTML代码的正则 'regEx.Pattern="/<(\w+)\s[^>]*>/g" '这是简化HTML代码的正则 regEx…
Extractor的工作是从下载的网页中将它包含的所有URL提取出来.这是个细致的工作,你需要考虑到所有可能的url的样式,比如网页中常常会包含相对路径的url,提取的时候需要将它转换成绝对路径.这里我们选择使用正则表达式来完成链接的提取. html标签中的链接地址通常会出现在href属性或者src属性中,所以我们采用两个正则表达式来匹配网页中的所有链接地址. 网页链接提取器Extractor类: using System; using System.Colle…
注:下列代码中的注释都是JUnit4单元测试运行结果. 首先,没有父类的(父类是Object)的类A package Static.of; public class A { { System.out.println("我是父类-----大括号中的代码"); } static{ System.out.println("我是父类-------static代码块"); } public A(){ System.out.println("我是父类A--------…