上周通过嵩天老师的Mooc简单学了一下爬虫,参考Google和百度的资源和知乎文章,周末两天晚上写好了爬取知乎动态页面的爬虫,今天写了一整个晚上,还没来得及大规模放在服务器上跑,不过还是很有成就感的!(哎,一写代码就废寝忘食hhh,网协开会都忘记了,而且我觉得写(编)代码超过3小时就别写了,头脑就不清晰了)
源码过几天贴Github上,先记录一下实现方法与走的弯路,免得日后忘记了。
准备:
1.requests库,BeautifulSoup库,re库,以及各种库
2.网易云的页面是由js异步加载的,所以不能用普通的方法,加上selenium库
3.selenium的引擎的选择—Chromedriver.exe似乎不是特别灵光,后来换了PhantomJS.exe居然就可以
开始:
1.
(困了,改日补)
你才写了三行就困了?
who are you ?