node.js实现博客小爬虫的实例代码_Javascript教程-查字典教程网

导航

手机

客服中心

投稿赚钱

免费注册

首页

系统安装
WindowsXP 安装基础教程 Ubuntu 安装基础教程 Gparted 分区编辑器操作基础 VMware 虚拟机基础入门教程 VirtualBox 虚拟机基础教程 360安全卫士基础入门教程操作系统 windows10安装教程 windows8安装教程 windows7安装教程 U盘教程 windows2003教程 Linux教程苹果MAC教程其他教程
办公制作
Word 基础入门教程 Excel 基础入门教程 PowerPoint 基础入门教程蒙泰瑶光课件制作基础 OpenOffice.org Writer OpenOffice.org Calc OpenOffice.org Impress 高效办公
图像动画
Photoshop CS 基础入门教程 GIMP 基础入门教程 3DS Max 8.0 基础入门教程 Flash 8.0 基础入门教程 Flash 8.0 脚本基础教程 Ulead Gif Animator 教程图形图像 Painter基础教程 isee基础教程可牛影像基础教程光影魔术手基础教程 Freehand基础教程
音频视频
Goldwave 基础入门教程视频编辑基础入门教程影视制作媒体工具快手抖音
编程开发基础
Visual C++基础入门教程 C++ 基础入门教程 C 基础入门教程 CSS 基础入门教程 VB 基础入门教程 QBasic基础入门教程 HTML 音画帖基础入门教程 Nvu 网站制作基础 FrontPage 网站制作基础 Kompozer 网站制作基础 Kompozer 帮助文档 KompoZer user guide Poedit 翻译基础教程 Ubuntu 命令行基础教程谷歌网站管理员工具操作基础 C#基础教程
网络应用
QQ 聊天基础入门教程 Firefox3 基础入门教程 Discuz! 和 PW 论坛安装教程电子邮件基础入门教程论坛新手基础入门教程其他教程... 网络知识网络基础知识网络应用技术网络故障处理下载工具
电脑基础
iphone教程安卓教程手机软件教程手机技巧微信教程手机知识刷机教程
教学设计
2008-2009学年 2009-2010学年 2010-2011学年 2011-2012学年 2012-2013学年 2013-2014学年 2014-2015学年

当前位置：查字典教程网 >编程开发 >Javascript教程 >node.js实现博客小爬虫的实例代码

node.js实现博客小爬虫的实例代码

摘要：前言爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。这篇文章介绍的是利用n...

前言

爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

这篇文章介绍的是利用node.js实现博客小爬虫，核心的注释我都标注好了，可以自行理解，只需修改url和按照要趴的博客内部dom构造改一下filterchapters和filterchapters1就行了！

下面话不多说，直接来看实例代码

var http=require('http'); var Promise=require('Bluebird'); var cheerio = require('cheerio'); var url='http://www.immaster.cn';//博客地址 function filterchapters1(html) {//解析文章链接 var $ =cheerio.load(html); var post=$('.post'); var content=[]; post.each(function (item) { var postid=$(this).find('.tit').find('a').attr('href'); content.push(postid); }) return content; } function filterchapters(html) {//解析每个文章内的内容 var $ =cheerio.load(html); var tit=$('.post .tit').find('a').text(); var postid=$('.tit').find('a').attr('href'); var commentnum=$('.comments-title').text(); commentnum=commentnum.trim(); // commentnum=commentnum.replace('n',''); var content={tit:tit,url:postid,commentnum:commentnum}; return content; } function getid(url){//爬取首页文章链接 return new Promise(function (resolve,reject) { http.get(url,function (res) { var html = ''; res.on('data',function(data) { html+=data; }); res.on('end',function () { var content=filterchapters1(html) resolve(content); }) }).on('error',function () { reject(e); console.log('抓取出错！') }) }) } function getpageAsync(url) {//爬取单个页面内容 return new Promise(function (resolve,reject) { console.log('正在爬取……'+url) http.get(url,function (res) { var html = ''; res.on('data',function(data) { html+=data; }); res.on('end',function () { resolve(html); }) }).on('error',function () { reject(e); console.log('抓取出错！') }) }) } getid(url) .then(function(postid){ return new Promise(function (resolve,reject) { var pageurls=[]; postid.forEach(function (id) { pageurls.push(getpageAsync(id)); }) resolve(pageurls); }) }) .then(function(pageurls){ return new Promise.all(pageurls);//让promise对象同时开始运行 }) .then(function (pages) { var coursesData=[]; pages.forEach(function (html) { var courses=filterchapters(html); coursesData.push(courses); }) coursesData.forEach(function(v){ console.log('标题：'+v.tit+"n地址："+v.url+"n评论："+v.commentnum) }) })

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家学习或者使用node.js实现爬虫能有所帮助，如果有疑问大家可以留言交流。

【node.js实现博客小爬虫的实例代码】相关文章：

★ jQuery插件bgStretcher.js实现全屏背景特效

★ nodejs调试cmd命令实现复制目录

★ js实现简单锁屏功能实例

★ javasript实现密码的隐藏与显示

★ 精确到分钟的js日历控件,日期选择器代码

★ nodejs实现获取某宝商品分类

★ 使用node+vue.js实现SPA应用

★ jQuery实现div随意拖动的实例代码(通用代码)

★ js实现异步循环实现代码

★ javascript实现Table排序的方法

上一篇：阿里云ecs服务器中安装部署node.js的步骤

下一篇：微信小程序实战小程序实例

相关阅读

更多>>

网友关注

更多>>

网友最新关注视频

更多>>

精品推荐

系统安装

办公制作

图像动画

音频视频

编程开发基础

网络应用

数码

摄影

平面设计

ps

网页设计

室内设计

三维

电脑

电子商务

建站

编程开发

脚本专栏

操作系统

实用技巧

软件教程

网络

硬件教程

分类导航

系统安装

办公制作

图像动画

音频视频

编程开发基础

网络应用

电脑基础

数码

摄影

平面设计

ps

网页设计

室内设计

三维

电脑

电子商务

建站

编程开发

脚本专栏

操作系统

实用技巧

软件教程

网络

硬件教程

视频教程

教学设计

编程开发子分类

最新Javascript教程学习

热门Javascript教程学习