golang 爬虫

golang爬虫框架

简单的爬虫

参考资料

网络爬虫基本原理(一)
网络爬虫基本原理(二)

学习Go语言,便用Go移植了那个用Scala写的爬虫,代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
package main

import (
"fmt"
"io/ioutil"
"net/http"
"regexp"
)

var (
ptnIndexItem = regexp.MustCompile(`<a target="_blank" href="(.+\.html)" title=".+" >(.+)</a>`)
ptnContentRough = regexp.MustCompile(`(?s).*<div class="artcontent">(.*)<div id="zhanwei">.*`)
ptnBrTag = regexp.MustCompile(`<br>`)
ptnHTMLTag = regexp.MustCompile(`(?s)</?.*?>`)
ptnSpace = regexp.MustCompile(`(^\s+)|( )`)
)

func Get(url string) (content string, statusCode int) {
resp, err1 := http.Get(url)
if err1 != nil {
statusCode = -100
return
}
defer resp.Body.Close()
data, err2 := ioutil.ReadAll(resp.Body)
if err2 != nil {
statusCode = -200
return
}
statusCode = resp.StatusCode
content = string(data)
return
}

type IndexItem struct {
url string
title string
}

func findIndex(content string) (index []IndexItem, err error) {
matches := ptnIndexItem.FindAllStringSubmatch(content, 10000)
index = make([]IndexItem, len(matches))
for i, item := range matches {
index[i] = IndexItem{"http://www.yifan100.com" + item[1], item[2]}
}
return
}

func readContent(url string) (content string) {
raw, statusCode := Get(url)
if statusCode != 200 {
fmt.Print("Fail to get the raw data from", url, "\n")
return
}

match := ptnContentRough.FindStringSubmatch(raw)
if match != nil {
content = match[1]
} else {
return
}

content = ptnBrTag.ReplaceAllString(content, "\r\n")
content = ptnHTMLTag.ReplaceAllString(content, "")
content = ptnSpace.ReplaceAllString(content, "")
return
}

func main() {
fmt.Println(`Get index ...`)
s, statusCode := Get("http://www.yifan100.com/dir/15136/")
if statusCode != 200 {
return
}
index, _ := findIndex(s)

fmt.Println(`Get contents and write to file ...`)
for _, item := range index {
fmt.Printf("Get content %s from %s and write to file.\n", item.title, item.url)
fileName := fmt.Sprintf("%s.txt", item.title)
content := readContent(item.url)
ioutil.WriteFile(fileName, []byte(content), 0644)
fmt.Printf("Finish writing to %s.\n", fileName)
}
}

代码行数比Scala版的有一定增加,主要原因有以下几方面原因:

  1. golang 重视代码书写规范,或者说代码格式,很多地方写法比较固定,甚至比较麻烦。比如就算是if判断为真后的执行语句只有一句话,按照代码规范,也要写出带大括号的三行,而在Scala和很多其他语言中,一行就行;
  2. golang 的strings包和regexp包提供的方法并不特别好用,特别是和Scala相比,使用起来感觉Scala的正则和字符串处理要舒服的多;
  3. scala版的爬虫里面用到了Scala标准库中的实用类和方法,它们虽然不是语法组成,但用起来感觉像是语法糖,这里很多方法和函数式编程有关,golang的函数式编程还没有去仔细学习。
  4. 当然golang版的爬虫也有一个优势,就是编译速度很快,执行速度在现在的写法里面体现不出优势;golang的特性goroutine在这里没有用到,这段代码今后会不断改进。
坚持技术分享,您的支持将鼓励我继续创作!

热评文章