class:Dataserver

  1. string serverIP
  2. string serverPassword
  3. string sqlAccount
  4. string sqlPassword
  5. bool DataUpdate(int id, string key, string content)
  6. #用来更新数据,id用来定位更新的位置 key是要更新的字段 content是要更新的内容
  7. #需要详细考虑多线程的同时调用以及错误处理
  8. setServerIP(string)
  9. setServerPassword(string)
  10. setSqlAccount(string)
  11. setSqlPassword(string)
  12. bool tryToConn()
  13. #尝试连接 返回账户信息设置是否正确
  14. bool checkIfDeal(int id)
  15. #查看是否已经处理过了
  16. void sentSolr( ? )
  17. #用来连接solr服务器
  18. #提供必要相关操作 如果有必要 可以进行拆分

class:Crawler

  1. #可以爬下来数据并且储存到数据库里
  2. string [] startingURLs
  3. void addstartingURLs()string;

class: DataAnalysis

  1. #完成对于数据的分析工作
  2. #多线程
  3. run()
  4. #处理数据
  5. grab()
  6. asscording to type:
  7. pdfHandler() / htmlHandler() / wordHandler()
  8. grab()
  9. #从数据库随机抓取一个文件
  10. pdfHandler()
  11. #处理pdf文档
  12. 。。。
  13. write();
  14. htmlHandler()
  15. #处理html文档
  16. 。。。
  17. write();
  18. wordHandler()
  19. 处理word文档
  20. 。。。
  21. write();
  22. write()
  23. Dataserver 实例
  24. string translator(string aim, string type)
  25. #如果type是0 英译汉 1:汉译英
  26. htmlContentExtraction()
  27. #从html里面提取文本信息出来
  28. wordContentExtraction()
  29. #从word文档里面提取文本信息出来
  30. pdfContentExtraction()
  31. #从pdf里面提取文本信息出来
  32. string denoising(typestring)
  33. #根据类型输入 从文本中删除无关字符 专一化处理
  34. string keyWordSegment(string)
  35. #用词频统计的方法从文本输入中提取关键词出来

tips:

  1. 考虑线程安全
  2. 统一错误输出
  3. 对于需要标准化的东西一致写到readme里面

数据处理项目Beta阶段软件架构建议的更多相关文章

  1. 【软工项目Beta阶段】博客目录

    绝不划水队Beta冲刺阶段博客目录 一.Scrum Meeting 第十周会议记录 第十一周会议记录 二.测试报告 Beta阶段测试报告 三.习得的软工原理/方法/技能? (1)在进行OUC-Mark ...

  2. ASE19团队项目 beta阶段 model组 scrum1 记录

    本次会议于12月2日,18时30分在微软北京西二号楼sky garden召开,持续25分钟. 与会人员:Jiyan He, Kun Yan, Lei Chai, Linfeng Qi, Xueqing ...

  3. 【软工项目Beta阶段】第11周Scrum会议博客

    第十一周会议记录 小组GitHub项目地址https://github.com/ouc-softwareclass/OUC-Market 小组Issue地址https://github.com/ouc ...

  4. 【软工项目Beta阶段】第10周Scrum会议博客

    第十周会议记录 小组GitHub项目地址https://github.com/ouc-softwareclass/OUC-Market 小组Issue地址https://github.com/ouc- ...

  5. ASE19团队项目beta阶段Backend组 scrum6 记录

    本次会议于12月12日,19:30在微软北京西二号楼sky garden召开,持续10分钟. 与会人员:Zhikai Chen, Lihao Ran, Xin Kang 请假人员:Hao Wang 每 ...

  6. ASE19团队项目 beta阶段 model组 scrum report list

    scrum 1 scrum 2 scrum 3 scrum 4 scrum 5 scrum 6 scrum 7

  7. ASE19团队项目 beta阶段 model组 scrum7 记录

    本次会议于12月10日,19时30分在微软北京西二号楼sky garden召开,持续10分钟. 与会人员:Jiyan He, Lei Chai, Linfeng Qi, Xueqing Wu, Kun ...

  8. ASE19团队项目 beta阶段 model组 scrum6 记录

    本次会议于12月9日,19时30分在微软北京西二号楼sky garden召开,持续20分钟. 与会人员:Jiyan He, Lei Chai, Linfeng Qi, Xueqing Wu, Kun ...

  9. ASE19团队项目 beta阶段 model组 scrum5 记录

    本次会议于12月6日,19时30分在微软北京西二号楼sky garden召开,持续20分钟. 与会人员:Jiyan He, Lei Chai, Linfeng Qi, Xueqing Wu, Kun ...

随机推荐

  1. ubuntu下的第一个脚本file.sh

    1.新建空文档,写入shell命令: #!/bin/sh cd /home/plg ./usb 第一行一定要有,一开始参考网上写的#!/usr/bin/sh,会提示错误 bash: ./file.sh ...

  2. URAL 1519 基础插头DP

    题目大意: 给定一个图,一部分点'*'作为障碍物,求经过所有非障碍点的汉密尔顿回路有多少条 基础的插头DP题目,对于陈丹琦的论文来说我觉得http://blog.sina.com.cn/s/blog_ ...

  3. SharePoint 2013 Nintex Workflow 工作流帮助(十二)

    博客地址 http://blog.csdn.net/foxdave 工作流动作 31. Create task(User interaction分组,企业版才有) 该操作用于在Microsoft Ex ...

  4. JVM-对象的存活与死亡

    当Java虚拟机进行垃圾收集的时候,那么它必须要先判断对象,是否还存活,如果存活就不能对它进行回收.所以判断一个对象是否存活是Java虚拟机必须要实现的. 1.对象是否存活 1)引用计数器:给对象添加 ...

  5. 使用sslsplit嗅探tls/ssl连接

    首先发一个从youtube弄到的sslsplit的使用教程 http://v.qq.com/page/x/k/s/x019634j4ks.html 我最近演示了如何使用mitmproxty执行中间人攻 ...

  6. simtrace之探秘SIM卡中的世界

    0×00 关于SIM卡 众所周知SIM卡是一张插在手机上的小卡,其全称为Subscriber Identity Module 客户识别模块.不过,这个世界上并没有多少人知道SIM卡中的操作系统是基于j ...

  7. hbm2ddl

    hbm2ddl工具位于Hibernate核心软件包中,而hbm2java工具位于Hibernate工具包中,因此需要下载Hibernate工具包,文件形式为HibernateTools-X.zip. ...

  8. Balance_01背包

    Description Gigel has a strange "balance" and he wants to poise it. Actually, the device i ...

  9. wdatepicker minDate&maxDate

    示例4-3-2 前面的日期+3天 不能大于 后面的日期 日期从  到        <input type="text" class="Wdate" id ...

  10. Js验证userAgent是否来自手机端

    function GetQueryString(name) { var reg = new RegExp("(^|&)" + name + "=([^&] ...