爬取器 fetcher 和解析器 parser 与之前相同,模型类也不变。
创新互联公司服务项目包括永泰网站建设、永泰网站制作、永泰网页制作以及永泰网络营销策划等。多年来,我们专注于互联网行业,利用自身积累的技术优势、行业经验、深度合作伙伴关系等,向广大中小型企业、政府机构等提供互联网行业的解决方案,永泰网站推广取得了明显的社会效益与经济效益。目前,我们服务的客户以成都为中心已经辐射到永泰省份的部分城市,未来相信会继续扩大服务区域并继续获得客户的支持与信任!
注意:
见本小节文末分析。
Q1. 为什么在 scheduler 中每一个将 Request 添加到 chan 的任务都开启一个 Goroutine 来执行?
A:在 Go 语言学习9 - Channel 一节描述过,对于无缓冲的 channel, 如果两个 goroutine 没有同时准备好,通道会导致先执行发送或接收操作的 goroutine 阻塞等待 ,假设使用 s.workerChan - request 而不是 go func() { s.workerChan - request }() ,假设开启了 10 个 Worker Goroutine,这 10 个 goroutine 阻塞在 r := -in 阻塞等待获取 Request 上,假设 seeds 大于 10,例如 11,那么当 Engine 的这个循环执行到底 11 个的时候,将陷入等待
,因为所有的10个 Worker goroutine 此时都可能也处于等待中,即 in chan 没有接收方准备好接收数据,所以 engine 作为发送方也要阻塞等待;那么为什么10个 Worker goroutine 都会处于等待中呢?
因为10个 Worker Goroutine 都处理完了请求,并阻塞在 out - result ,由于 Engine 阻塞在 “将第11个 Request 发送到 in” 上,所以其无法进行后续的死循环去开启 result := -out ,到此为止,相互等待死锁形成!!!Engine 等待 Worker 准备好 r := -in ,而10个 Worker 等待 Engine 的 result := -out 。
当使用 go func() { s.workerChan - request }() 之后,Engine Goroutine 将不再阻塞,死锁等待被打破!!!
Q2. scheduler 方法为何使用指针接收者而不是值接收者?
A:在 Go 语言学习5 - 面向接口 中我们详细的介绍了什么时候使用指针接收者,什么时候使用值接收者,其中最重要的两条就是 “ 1. 如果要改变接收者内部的属性值,必须使用指针接收者,因为值接收者是对接收者副本的操作;2. 如果 struct 内一个方法是指针接收者,那么其全部方法都是用指针接收者 ”,在 scheduler 中,我们要将外界的 in chan 赋值给 scheduler 的 workChann,所以需要改变 workChann 的值,需要使用指针接收者。
不是啊,都可以啊,比如C(万能的啥都可以做),C++(也基本是万能的,爬虫不算啥),python(简单,几十行代码能搞定一个小型爬虫),go当然也可以。
没有限制的!
希望我的回答对你有帮助望采纳!
我的思路是这样,因为自己起点低,还精力有限,又想弯道追上技术潮流,所以着眼未来,选择Golang。既然敢叫云技术语言,那么它的性能自然是适合未来发展的,像facebook这样的大公司貌似也挺重视它…最最主要的,赌它未来能全栈应用,期待可以直接上手用Go开发Android和iOS应用的那一天~
框架选择上吗,初级选手建议Revel(开源案例比较多,老框架、Go官方给予了该框架很高的评价),其实Go语言众多框架性能都很卓越,水平高的不用框架直接玩更爽。顺嘴吐一下槽,Go语言框架之多如少女脸上的青春痘~
对了,选择Go语言的好处是,各个社区学习互助氛围比较好,你去哪个网上社区去请教问题,都会有人热情解答~
go严格上说没有多态,但可以利用接口进行,对于都实现了同一接口的两种对象,可以进行类似地向上转型,并且在此时可以对方法进行多态路由分发。慕课网上线的新版Go语言不仅有提到这一点,还提到了Go在不面对对象的情况下是怎么完成封装和继承的,老师讲得很通透,搭配经典算法、典型例题、微型项目深入讲授go语言。然后还会教学员从零开始搭建分布式爬虫系统,学会用go语言处理复杂项目。