开源的 NoSQL 数据库 SSDB 已经一岁多了! 在这一年中, SSDB 不断被应用在众多业界知名互联网企业, 创业团队的产品中. 最近, 比亚迪汽车也成为 SSDB 的用户, 其将 SSDB 作为其车联网数据的存储服务器. SSDB 最初的目的是要替代 Redis, 在保证丰富的数据结构和高速的性能的同时, 提供更多大容量的存储. SSDB 使用 C++ 语言开发, 使用 Google 的 LevelDB 作为存储引擎, SSDB 也是开源的.…
本文仅供学习交流使用,如侵立删!联系方式见文末 汽车之家口碑数据 2021.8.3 更新 增加用户信息参数.认证车辆信息等 2021.3.24 更新 更新最新数据接口 2020.12.25 更新 添加追加口碑数据字段,增加追加口碑数据接口 https://******/pm=2&seriesid={car}&grade=0&pageindex={i}&pagesize=20&isstruct=1' 2020.6.10 更新 口碑数据库:888316条 2020.6.…
1.MySQL 5 作为当今最流行的开放源码数据库之一,MySQL数据库为用户提供了一个相对简单的 解决方案,适用于广泛的应用程序部署,能够降低用户的TCO.MySQL是一个多线程.结构化查询语言(SQL)数据库服务器.MySQL的执行性能高, 运行速度快,容易使用. MySQL包括以下几个关键优势: ◆ 可靠的性能和服务MySQL向公众提供所有数据库服务器软件的早期版本,都是利用开放源码进行为期几个月的测试之后才发布作为生产之用. ◆ 易于使用和部署MySQL的结构体系易于定制,运行速度快,其…
誉天全国首推全球市场占有率第二的数据库——MySQL培训课程,阿里巴巴.新浪等知名企业正在使用MySQL数据库系统,而这方面的人才需求也是供不应求,誉天作为国内2014年首批ORACLE官方授权MySQL认证培训中心,隆重推出MySQL数据库管理认证专家课程,提高您的职场竞争力! 一: MySQL 全世界最流行的开源数据库软件 1 介绍十余年来,MySQL 数据库一直是数据库应用的核心,拥有不断增长和需求的客户群.在LAMP架构(Linux,Apache,MySQL,PHP/Perl/Pytho…
应用介绍 项目Github地址:https://github.com/iNuanfeng/node-spider/ nodejs爬虫,爬取汽车之家(http://www.autohome.com.cn/car/)车型数据. 包括品牌,车系,年份,车型四个层级. 使用的node模块: superagent, request, iconv; (网络请求模块,iconv用于gbk转码) cheerio; (和jQuery一样的API,处理请求来的html,省去正则匹配) eventproxy, asy…
一.背景 春节也不能闲着,一直想学一下爬虫怎么玩,网上搜了一大堆,大多都是Python的,大家也比较活跃,文章也比较多,找了一圈,发现园子里面有个大神开发了一个DotNetSpider的开源库,很值得庆幸的,该库也支持.Net Core,于是乘着春节的空档研究一下整个开源项目,顺便实战一下.目前互联网汽车行业十分火热,淘车,人人车,易车,汽车之家,所以我选取了汽车之家,芒果汽车这个店铺,对数据进行抓取. 二.开发环境 VS2017+.Net Core2.x+DotNetSpider+Win10…
一.迟到的下期预告 自从上一篇文章发布到现在,大约差不多有3个月的样子,其实一直想把这个实战入门系列的教程写完,一个是为了支持DotnetSpider,二个是为了.Net 社区发展献出一份绵薄之力,这个开源项目作者一直都在更新,相对来说还是很不错的,上次教程的版本还是2.4.4,今天浏览了一下这个项目,最近一次更新是在3天前,已经更新到了2.5.0,而且项目star也已经超过1000了,还是挺受大家所喜爱的,也在这感谢作者们不断的努力. 之所以中间这么长一段时间没有好好写文章,是因为笔者为参加3…
一.背景 春节也不能闲着,一直想学一下爬虫怎么玩,网上搜了一大堆,大多都是Python的,大家也比较活跃,文章也比较多,找了一圈,发现园子里面有个大神开发了一个DotNetSpider的开源库,很值得庆幸的,该库也支持.Net Core,于是乘着春节的空档研究一下整个开源项目,顺便实战一下.目前互联网汽车行业十分火热,淘车,人人车,易车,汽车之家,所以我选取了汽车之家,芒果汽车这个店铺,对数据进行抓取. 二.开发环境 VS2017+.Net Core2.x+DotNetSpider+Win10…
本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息. 由于这次爬虫的主要目的是使用lxml解析器,所以在信息的查找上面完全只会涉及lxml中选择器的用法,虽然lxml可以同时使用CSS选择器和Xpath选择器,但是为了更加突出效果,暂且只使用Xpath. 爬虫老套路,分为3个步骤: 分析网页信息构成,找到切入点 获取网页,提取有效信息 储存信息 网页分析 网页结构分析的一般思路是先找到第一个需要爬取的链接…
在现代企业技术世界里,开源软件已牢固地确立了自己作为不可忽视的,最大力量之一的地位.由于开源运动的出现,推动了几十年来的一些最著名的技术发展. 不难理解为什么:尽管基于Linux的开源网络标准可能不像专有选项那样受欢迎,但这是来自不同制造商的智能设备可以相互通信的原因.另外许多人同意,开源开发所产生的应用程序要优于专有的应用程序,这就是为什么有可能使用开源数据库开发您喜欢的工具(无论是开源软件还是专有软件)的原因之一. 像任何其他类别的软件一样,开源数据库管理系统的功能和特性可能会相差很大.简而…
本人3年开发经验.18年年底开始跑路找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.汽车之家等公司offer,岗位是Java后端开发,最终选择去了汽车之家. 面试了很多家公司,感觉大部分公司考察的点都差不多,所以将自己的心得记下来,希望能给正在找或者准备找工作的朋友提供一点帮助.另外,目前在汽车之家也做面试官的工作,身份从求职者变为面试官,看问题的很多角度也不一样,所以下文中既有求职者的视角,也有面试官的视角 (PS:感谢大家的支持,问我要完整面试题的希望交流指导的太多,没办法一个个发给大家,…
日前,Uber 开源了基于 web 的自动驾驶可视化系统(AVS),称该系统为自动驾驶行业带来理解和共享数据的新方式.AVS 由Uber旗下负责自动驾驶汽车研发的技术事业群(ATG)开发,目前该系统已在 Voyage.Applied Intuition 等多家公司应用.Uber 在其官网上发布了这一开源消息,雷锋网 AI 科技评论编译如下. 自动驾驶汽车数据不再封闭,Uber 开源新的数据可视化系统 当自动驾驶汽车在城市环境中驾驶时,了解它们感知到了什么对于开发使其能够安全运行的系统至关重要.并…
今日内容概要 使用requests爬取梨视频 requests+bs4爬取汽车之家 bs4遍历文档树 bs4搜索文档树 css选择器 内容详细 1.使用requests爬取梨视频 # 模拟发送http请求的库:requests--->只能发送http请求---->没有解析库-->re.bs4.lxml # requests-html:发送请求+解析xml # 视频m3u8格式,分段--->会员试看6分钟--->只加载了6分钟 # 收费视频:视频解析 ### 完整的视频文件保存…
写在前面 上周去汽车之家面试,拿到这个SQL笔试题顿时感觉到有些陌生,因为好长时间不写SQL语句了,当时只写了表设计,示例数据和SQL语句都没写出来. 汽车之家应该用的SQL Server, 编程题一般都没有固定答案,大家可以按照自己的思路来试试,我在文章底部放出参考的链接. SQL笔试题 参考答案(我个人发在CSDN的帖子) http://bbs.csdn.net/topics/391091585…
转载地址:http://www.infoq.com/cn/news/2013/12/mysql-vs-postgresql 如果打算为项目选择一款免费.开源的数据库,那么你可能会在MySQL与PostgreSQL之间犹豫不定.MySQL与PostgreSQL都是 免费.开源.强大.且功能丰富的数据库.你主要的问题可能是:哪一个才是最好的开源数据库,MySQL还是PostgreSQL呢?该选择哪一个开源数据 库呢? 在选择数据库时,你所做的是个长期的决策,因为后面如果再改变决定将是非常困难且代价高…
Java免费开源数据库.Java嵌入式数据库.Java内存数据库 http://blog.csdn.net/leiyinsu/article/details/8597680…
    网行业风起云涌,先是6月3号汽车之家天价竞购百度PC阿拉丁.接着今天又有消息说易车拿下百度移动阿拉丁.易车拿下百度移动阿拉丁能够想象.但PC阿拉丁被向来不屑流量购买,以自主流量自居的汽车之家拿下.让非常多人大跌眼镜.不少人讨论说是汽车之家要断易车后路,但是易车对PC阿拉丁也没有表现出势在必得.合作了3年,易车应该知道PC阿拉丁的效果在下降.自然不会出离谱的价格.事实上从4月份竞标360 OneBox合作失利后,汽车之家就感受到了易车持续进行流量投入的巨大压力. 近两个月的艾瑞数据能够看出…
前言:之前使用Android内置的数据库,感觉一大堆SQL语句,一不小心就错了,很难受,学习了这个LItePal的开源数据库,瞬间觉得Android内置的数据库简直是垃圾般的存在 LitePal GitHub首页:https://github.com/LitePalFramework/LitePal 配置步骤 1.添加依赖 切换project模式,展开APP的文件夹,找到build.gradle文件,去里面添加依赖,这里我用的是最新版本,可以在LitePal的Github官网上找到最新的版本 2…
一.正题前的唠叨 第一篇实战博客,阅读量1000+,第二篇,阅读量200+,两篇文章相差近5倍,这个差异真的令我很费劲,截止今天,我一直在思考为什么会有这么大的差距,是因为干货变少了,还是什么原因,一直没想清楚,如果有读者发现问题,可以评论写下大家的观点,当出现这样的差距会是什么原因,谢谢大家. 二.分析汽车之家品牌Logo页面 2.1分析页面结构 首先我们打开汽车之家品牌Logo选择页 https://car.m.autohome.com.cn/,我们以华颂为例,实际上我们就是需要将class…
说说这个网站 汽车之家,反爬神一般的存在,字体反爬的鼻祖网站,这个网站的开发团队,一定擅长前端吧,2019年4月19日开始写这篇博客,不保证这个代码可以存活到月底,希望后来爬虫coder,继续和汽车之间对抗. CSDN上关于汽车之家的反爬文章千千万万了,但是爬虫就是这点有意思,这一刻写完,下一刻还能不能用就不知道了,所以可以一直不断有人写下去.希望今天的博客能帮你学会一个反爬技巧. 今天要爬去的网页 https://car.autohome.com.cn/config/series/59.htm…
版权声明:本文为HaiyuKing原创文章,转载请注明出处! 前言 本Demo使用的是LitePal2.0.0版本,对于旧项目如何升级到2.0.0版本,请阅读<赶快使用LitePal 2.0版本吧>,总结起来有三点: 1.如果你是在继承结构中使用了DataSupport,那么就将它改为LitePalSupport: 2.如果你是调用了DataSupport中的静态方法,那么就将它改为LitePal: 3.如果你的项目代码启用了混淆,那么混淆的配置也需要进行相应的修改,将混淆文件中的DataSu…
参考了DotNetSpider示例, 感觉DotNetSpider太重了,它是一个比较完整的爬虫框架. 对比了以下各种无头浏览器,最终采用PuppeteerSharp+AngleSharp写一个爬虫示例. 和上面的博文一样,都是用汽车之家的https://store.mall.autohome.com.cn/83106681.html这个页面做数据采集示例. Headless Browsers A list of (almost) all headless web browsers in exi…
前言:之前使用Android内置的数据库,感觉一大堆SQL语句,一不小心就错了,很难受,学习了这个LItePal的开源数据库框架,瞬间觉得Android内置的数据库简直是垃圾般的存在 LitePal GitHub首页:https://github.com/LitePalFramework/LitePal 配置步骤 1.添加依赖 切换project模式,展开APP的文件夹,找到build.gradle文件,去里面添加依赖,这里我用的是最新版本,可以在LitePal的Github官网上找到最新的版本…
WebMagic学习 遇到的问题 Log4j错误 解决:在src目录下添加配置文件 log4j.properties log4j.rootLogger=INFO, stdout, file log4j.logger.org.quartz=WARN, stdout log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log…
大家好 , 我发起了一个 .Net 开源 数据库 项目 SqlNet . 项目计划 是 用 C# 写一个 关系数据库 . 可以先参考我之前写的 2 篇文章 : 谈谈数据库原理    https://www.cnblogs.com/KSongKing/p/9492315.html 论数据库 B Tree 索引在固态硬盘上的离散存储    https://www.cnblogs.com/KSongKing/p/9501686.html 根据 上面说的 , SqlNet 中的 表数据 和 索引数据 的…
概述 使用jsoup来进行网页数据爬取.jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据. 详细 代码下载:http://www.demodashi.com/demo/10220.html jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方…
有人给我吹牛逼,说汽车之家反爬很厉害,我不服气,所以就爬取了一下这个网址. 本片博客的目的是重点的分析定向爬虫的过程,希望读者能学会爬虫的分析流程. 一:爬虫的目标: 打开汽车之家的链接:https://www.autohome.com.cn/beijing/,出现如下页面 我们的目标是 点击找车,然后出现如下图 我们要把图中的信息抓取到 二:实现过程 我们选择  宝马5系  然后点击找车 注意宝马5系的  data-value  是  65 如下图 因为这个网页需要做翻页,我们就点击翻页.然后…
网站: 汽车之家:http://club.autohome.com.cn/ 以论坛为例 反爬虫措施: 在论坛发布的贴子正文中随机抽取某几个字使用span标签代替,标签内容位空,但css样式显示为所代替的文.这样不会 影响正常用户的阅读,只是在用鼠标选择的时候是选不到被替换的文字的,对爬虫则会造成采集内容不全的影响. 原理分析: 先看一下span标签的样式 截图是火狐浏览器的firebug的html面板.我们可以看到正文中每个span标签的样式都是一个文字,我们只需要找到每个 span标签的cla…
今天给大家分享一款仿汽车之家2015新版焦点图代码.这是一款基于jQuery实现的适合电子商务网站或者企业产品展示功能特效.效果图如下: 在线预览   源码下载 实现的代码. html代码: <div id="box"> <div class="prev"> </div> <div class="next"> </div> <ul class="bigUl"&g…
本篇介绍如何破解汽车之家配置页面的伪元素和混淆的JS. ** 温馨提示:如需转载本文,请注明内容出处.** 本文链接:https://www.cnblogs.com/grom/p/9242156.html (本文分多次编辑,可从原文章查看最新更新) 笔者爬取得网站中,印象最为深刻的就是汽车之家的网站了,也是麻烦最多的网站之一了,特点是页面大面积使用伪元素代替关键字,解析伪元素的JS进行了动态混淆,每次刷新后的JS都是不同的,页面被禁用右键菜单,无法选中或复制. (因为破解了一周,怕分享出来后汽车…