主要觉得往kindle里加书籍太麻烦了,要下载下来,还要通过邮件发送,特别一些网页文字版的书籍没办法放到kindle里,所以想着还不如自己动手丰衣足食,写一个程序直接抓取网页内容,制作成书籍,然后自动发送到kindle里。

程序首先操作简单“一键推送”,还有就是书籍要带目录。

先做了个winform版的,有时间再编写个Web版的。

程序相关的技术:

1.使用NSoup分析网页

2.爬虫规则设计

3.多线程爬网页

4.生成txt文本和pdf文件

5.使用邮件推送到自己的kindle设备

程序界面效果:

生成的TXT文件

生成的pdf文件

BookRule.xml配置文件

<BookSite Name="纵横小说网" Url="http://book.zongheng.com" charset="utf-8">
<title>.read_con h1</title>
<auther>.read_con a.fb</auther>
<cover></cover>
<introduction></introduction>
<catalog>.read_con .chapterBean a</catalog>
<content>#chapterContent</content>
</BookSite> <SearchSite Name="纵横网搜索" SearchUrl="http://search.zongheng.com/search/bookName/{0}/1.html" charset="utf-8" list=".search_text">
<title>h2</title>
<auther>.rela a</auther>
<cover></cover>
<introduction>.j_info</introduction>
<bookurl eq="1">.search_oprate p span a</bookurl>
</SearchSite>

多线程爬网页参考:http://www.cnblogs.com/kakake/p/4151691.html

生成pdf文件使用了itextsharp.dll组件

public void SavePdf(string filename)
{
FileInfo fileinfo = new FileInfo(filename);
if (fileinfo.Directory.Exists == false)
Directory.CreateDirectory(fileinfo.DirectoryName); Document doc = new Document(PageSize.A5, , , , );
PdfWriter.GetInstance(doc, new FileStream(filename, FileMode.Create));
doc.Open(); //指定字体库,并创建字体
BaseFont baseFont = BaseFont.CreateFont(
"C:\\WINDOWS\\FONTS\\SIMYOU.TTF",
BaseFont.IDENTITY_H,
BaseFont.NOT_EMBEDDED);
iTextSharp.text.Font font1 = new iTextSharp.text.Font(baseFont, );
iTextSharp.text.Font font2 = new iTextSharp.text.Font(baseFont, ); Chapter chapter1 = new Chapter(title, );
chapter1.Add(new Paragraph(title, font2));
chapter1.Add(new Paragraph(auther, font1));
chapter1.Add(new Paragraph(introduction, font1));
for (int i = ; i < catalogs.Count; i++)
{
Section section1 = chapter1.AddSection(catalogs[i].text);
section1.Add(new Paragraph(catalogs[i].page.text, font1));
section1.TriggerNewPage = true;
section1.BookmarkOpen = false;
} chapter1.BookmarkOpen = false;
doc.Add(chapter1);
doc.Close();
}

发送邮件使用的System.Net.Mail中微软封装好的MailMessage类,由于没有自己的邮件服务器,使用QQ邮箱推送到kindle非常不稳定,有时候可以有时候又发送失败。

 /// <summary>
/// 发送kindle的EMail
/// </summary>
/// <param name="toEmail">kindle的EMail地址</param>
/// <param name="type">发送的文件 0:pdf;1:txt</param>
/// <param name="filename">文件名</param>
public void SendMail(string toEmail, int type, string filename)
{
//确定smtp服务器地址。实例化一个Smtp客户端
System.Net.Mail.SmtpClient client = new System.Net.Mail.SmtpClient("smtp.qq.com");
//生成一个发送地址
string strFrom = "****@qq.com"; //构造一个发件人地址对象
MailAddress from = new MailAddress(strFrom, "kakake", Encoding.UTF8);
//构造一个收件人地址对象
MailAddress to = new MailAddress(toEmail, "kindle", Encoding.UTF8); //构造一个Email的Message对象
MailMessage message = new MailMessage(from, to); if (type == )
SaveTxt(filename);
else if (type == )
SavePdf(filename); //得到文件名
string fileName = filename;
//判断文件是否存在
if (File.Exists(fileName))
{
//构造一个附件对象
Attachment attach = new Attachment(fileName);
//得到文件的信息
ContentDisposition disposition = attach.ContentDisposition;
disposition.CreationDate = System.IO.File.GetCreationTime(fileName);
disposition.ModificationDate = System.IO.File.GetLastWriteTime(fileName);
disposition.ReadDate = System.IO.File.GetLastAccessTime(fileName);
//向邮件添加附件
message.Attachments.Add(attach);
}
else
{
throw new Exception("[" + fileName + "]文件没找到!");
} //添加邮件主题和内容
message.Subject = "书籍发送到kindle";
message.SubjectEncoding = Encoding.UTF8;
message.Body = "";
message.BodyEncoding = Encoding.UTF8; //设置邮件的信息
client.DeliveryMethod = SmtpDeliveryMethod.Network;
message.BodyEncoding = System.Text.Encoding.UTF8;
message.IsBodyHtml = false; //如果服务器支持安全连接,则将安全连接设为true。
//gmail支持,163不支持,如果是gmail则一定要将其设为true
client.EnableSsl = true; //设置用户名和密码。
//string userState = message.Subject;
client.UseDefaultCredentials = false;
string username = "user";
string passwd = "****";
//用户登陆信息
NetworkCredential myCredentials = new NetworkCredential(username, passwd);
client.Credentials = myCredentials;
//发送邮件
client.Send(message);
}
}

程序下载地址:http://pan.baidu.com/s/1dDndERB

最近买了个kindle,为了方便阅读,写了个程序抓取网页内容发送到Kindle的更多相关文章

  1. 抓取网页内容生成kindle电子书

    参考: http://calibre-ebook.com/download_linux http://blog.codinglabs.org/articles/convert-html-to-kind ...

  2. 20.multi_协程方法抓取总阅读量

    # 用asyncio和aiohttp抓取博客的总阅读量 (提示:先用接又找到每篇文章的链接) # https://www.jianshu.com/u/130f76596b02 import re im ...

  3. 自定义日志阅读器——包括了一个load取Tomcat日志的分析器

    最近在写往公司产品里添加Tomcat适配器,以支持Tomcat.有一些功能需要摘取到Tomcat的部分日志.没有合适的工具,也不想去网上找了,就自己写了一个. 简单的画了一下设计方案: 下面直接上代码 ...

  4. SpringBoot爬虫小说阅读网站,定时更新小说和抓取功能

    SpringBoot 小说爬虫搭建阅读网站 通过jsoup采集数据到mysql数据.redis作为缓存框架,减轻服务器压力.部署在linux,网站UI套纵横中文网! http://47.107.116 ...

  5. 成功抓取csdn阅读量过万博文

    http://images.cnblogs.com/cnblogs_com/elesos/1120632/o_111.png var commentscount = 1; 嵌套的评论算一条,这个可能有 ...

  6. 阅读笔记——Web应用程序

    Web应用程序与DD文件 Web应用程序 web应用程序是一种可以通过Web访问的应用程序.Web应用程序最大的好处是永和很容易访问应用程序.用户只需要有浏览器即可,不需要安装其他任何软件.一个Web ...

  7. 【Nutch2.2.1基础教程之6】Nutch2.2.1抓取流程 分类: H3_NUTCH 2014-08-15 21:39 2530人阅读 评论(1) 收藏

    一.抓取流程概述 1.nutch抓取流程 当使用crawl命令进行抓取任务时,其基本流程步骤如下: (1)InjectorJob 开始第一个迭代 (2)GeneratorJob (3)FetcherJ ...

  8. WebApp 框架

    Razor 在WebApp 框架的运用   前面有两章介绍了WebApp框架<WebApp MVC,“不一样”的轻量级互联网应用程序开发框架>和<WebApp MVC 框架的开发细节 ...

  9. 你所不知道的 Kindle - 阅读微信公众号文章

    Kindle 是一款非常优秀的阅读设备,它为我们提供了非常舒服的阅读体验,并且配合强大的亚马逊图书资源,应该是目前最好的阅读设备之一.Kindle 在已有的成就下还一直在努力提升用户体验.为中国用户开 ...

随机推荐

  1. cookie入门与学习

    据我对cookie诞生背景的了解,cookie是由网景公司创建的,目的就是将用户的数据储存在客户端上.伴随的HTML5的出现,现在又有另外一个解决数据离线储存的方案,就是HTML5中的Web stor ...

  2. ASP.net知识点

    2 .列举ASP.NET 页面之间传递值的几种方式. 答: (1)QueryString是一种非常简单的传值方式,他可以将传送的值显示在浏览器的地址栏中. 如果是传递一个或多个安全性要求不高或是结构简 ...

  3. 更新日志 - BugHD 与你的应用一起成长

    上周 BugHD Android客户端上线了,下载地址在此,欢迎大家体验并提出反馈.本周增加 BugHD 和 fir.im 的新功能,同时也做出一些体验优化. BugHD 新增功能 1.新增安装量.启 ...

  4. iOS-图片拉伸技巧

    iOS开发中我们会遇到渐变的背景,内容可变的流式标签,聊天气泡(QQ聊天气泡),由于内容是可变的,宽度和高度同样可变,这样就是导致每次出现的尺寸与之前不一样.如果是需要设置的比较的多,估计美工会烦死, ...

  5. wicket基本控件使用笔记

    Label       new Label(“message”,”message content”); MutLineLabel         new MutlineLabel(“message”, ...

  6. Beego源码分析(转)

    摘要 beego 是 @astaxie 开发的重量级Go语言Web框架.它有标准的MVC模式,完善的功能模块,和优异的调试和开发模式等特点.并且beego在国内企业用户较多,社区发达和Q群,文档齐全, ...

  7. Reservoir Sampling 蓄水池抽样算法,经典抽样

    随机读取数据,如何保证真随机是不可能的,因为计算机的随机函数是伪随机的. 但是在不考虑计算机随机函数的情况下,如何保证数据的随机采样呢? 1.系统提供的shuffle函数 C++/Java都提供有sh ...

  8. SIFT 特征提取算法总结

    原文链接:http://www.cnblogs.com/cfantaisie/archive/2011/06/14/2080917.html   主要步骤 1).尺度空间的生成: 2).检测尺度空间极 ...

  9. WHY数学图形可视化工具(开源)

    WHY数学图形可视化工具 软件下载地址:http://files.cnblogs.com/WhyEngine/WhyMathGraph.zip 源码下载地址: http://pan.baidu.com ...

  10. how to read from __consumer_offsets topic

    来自:http://grokbase.com/t/kafka/users/15bs2r0m83/kafka-0-8-2-1-how-to-read-from-consumer-offsets-topi ...