首页 > python 爬虫1 開始,先拿新浪微博開始_weixin

快速開始,python 爬虫1 開始,先拿新浪微博開始_weixin

互联网 2021-05-13 02:46:39

刚刚開始学。

目的地是两个。一个微博,一个贴吧

存入的话,临时还没想那么多。先存到本地目录吧

分词和推荐后面在整合

mysql mongodb hadoop redius 后面在用

我最终知道为什么大家都推荐用python写爬虫了。。。我擦。一些开源的包实在写的太好了

我開始I还百思不得其解的为什么要用python这种语言。我真的用起来非常”蛋疼“

并且。我用这门语言真的像我当初用c语言一样的用的。纯粹的用面向过程的思想写。

一点一点墨迹。。

。尽管我知道他有面向对象的特性。。

可是怎么都认为不能习惯,不要说和C# .net 来比

我认为和java 的风格也相差非常大啊。并且即使比c或者matlab 尽管编码非常快。可是keyword和执行调试机制还不是非常熟悉。

。。

你懂的。我非常痛苦

直到我调试模拟认证……做过的人肯定会有经验。我之前工作用.net 做过爬虫(当时也就有个概念),

后来在学习过程里又用java 写过爬虫。爬阿里速卖通。结果失败了(我如今明确当时为什么我失败了。我当时都已经拿到Outh的ssid了

这个ssid 是 验证用户password正确后发回的授权代码,仅仅要有这个全局就不用认证。但是就是跳不到指定的页面。我如今认为肯定是自己主动跳转location 

搞鬼,当然可能还有cookie的原因)可是在python包里完美攻克了这两个问题,全然不用你操心。

所有的cookie从第一个页面到最后目的页面所有接住了

所有写到文件,并且,最重要的是从请求登陆到指定主页之间的授权跳转request(不过head头之间的跳转,全然没有页面)全然被自己主动化处理了

就像浏览器自己处理一样,这让我非常是大喜啊。省了非常多中间页面模拟的麻烦啊!

。!

!!

!!。!!!

!!

!!

!!!!

ubuntu14.04  python 自带,

安装了一个beautifulsoup 的 解析器 ,这里我装的是新版本号。不是apt-get自带的版本号

#安装版本号4 apt-get install python-bs4 python-bs4-doc

開始

import cookielib import os import re import urllib import urllib2 import math auth_url = 'http://www.weibo.cn' home_url = 'http://www.weibo.cn'; filename='FileCookieJar.txt' #正則表達式一定要从小往大了写,先配对好配对的部分,先配对特征突出的部分,在往大了写,不然根本写不出来

#[\u4E00-\u9FA5] 这个表示中国字。 之前是没有加一对小括号的。加上表示取出group,在模式串前面写上u 表示unicode 编码的意思?

#之前的大部分样例都是写上个r

reg=u"

免责声明:非本网注明原创的信息,皆为程序自动获取自互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明(版权证明、身份证正反面、侵权链接),站长将在收到邮件24小时内删除。

相关阅读