Quantcast
Channel: CNode:Node.js专业中文社区
Viewing all articles
Browse latest Browse all 14821

爬虫那些事,我不是老司机

$
0
0

啰嗦几句

这是我在cnode发的第一个帖子,观望了大半年,从各位大牛的帖子里学到了很多有用的东西。感谢各位大牛的无私奉献~~

这个帖子分享什么

简单的说:这是一个爬虫程序,爬的是pornhub(貌似号称全球最大的xx网站),目前支持边爬边下载视频。

为什么写这个

估计很多童鞋开始学node的兴趣有一部分是为了写爬虫,我也是的,哈哈哈。我记得我正儿八经看node的教程是看@alsotang的《node包教不包会》,其中有一节的内容就是爬虫的,然后就兴趣越来越大了。还有一个原因是,pornhub的爬虫有很多很多了,比如这个WebHubBot,这是用Python写的,把爬到的内容写到mongodb(貌似说可以一天爬500万条数据),但是爬到的下载链接只有半个小时的有效期。所以就想写一个边爬边下载的程序,我的第一个想法就是先写一个根据URL下载文件的模块(在狼叔的小密圈请教过,狼叔一定是太忙了,哈哈哈),虽然这样的轮子已经有很多了,接下来就是爬的时候根据下载链接下载完视频后再去爬下一个视频。其实写这个的初心是,希望能把自己的想法用代码实现,程序员不就好这口么?(Talk is cheap, show me the code.)

项目的代码质量

这个项目的代码质量和楼主的技术水平一样,都是渣到不行,大牛们板砖轻点拍。真的没啥技术含量,爬虫部分主要用superagentcheerio,下载视频部分是自己写的。获取下载链接的时候甚至用了字符串切割,哈哈哈哈~~~~

项目

在这里:pornhub-downloader
还是贴个图吧: progress.png

其他

cnode能发这样的帖子么?会不会被关小黑屋啊!如有不适立删。想不到要说啥了,多看书多撸代码吧。明天要上班了。。。。。


Viewing all articles
Browse latest Browse all 14821

Trending Articles