欢迎来到优知文库! | 帮助中心 分享价值,成长自我!
优知文库
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 优知文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    python-网络爬虫.docx

    • 资源ID:1402862       资源大小:215.56KB        全文页数:66页
    • 资源格式: DOCX        下载积分:9金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: QQ登录
    二维码
    扫码关注公众号登录
    下载资源需要9金币
    邮箱/手机:
    温馨提示:
    快捷下载时,如果您不填写信息,系统将为您自动创建临时账号,适用于临时下载。
    如果您填写信息,用户名和密码都是您填写的【邮箱或者手机号】(系统自动生成),方便查询和重复下载。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    python-网络爬虫.docx

    抓取网页的含义和UR1.基本构成1、网络爬虫的定义网络爬虫,即WebSpider,是一个很形象的名字。把互联网比方成一个蜘蛛网,那么SPider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来找寻网页的。从网站某一个页面(通常是首页)起先,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址找寻下一个网页,这样始终循环下去,直到把这个网站全部的网页都抓取完为止。假如把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上全部的网页都抓取下来。这样看来,网络爬虫就是一个爬行程序,一个抓取网页的程序.网络爬虫的基本操作是抓取网页。那么如何才能为所欲为地获得自己想要的页面?我们先从UR1.起先。2、阅读网页的过程抓取网页的过程其实和读者平常运用IE阅读器阅读网页的道理是一样的。比如说你在阅读器的地址栏中输入baidu这个地址。打开网页的过程其实就是阅读器作为一个阅读的“客户端",向服务器端发送了一次恳求,把服务器端的文件"抓”到本地,再进行说明、呈现。HTM1.是一种标记语言,用标签标记内容并加以解析和区分。阅读器的功能是将获得到的HTM1.代码进行解析,然后将原始的代码咕变成我们干脆看到的网站页面.3、URl的概念和举例简洁的来讲,UR1.就是在阅读器端输入的baid这个字符串。在理解UR1.之前,首先要理解URI的概念。什么是URI?Web上每种可用的资源,如HTM1.文档、图像、视频片段、程序等都由一个通用资源标记符(UniVerSalResourceIdentifier,URI)进行定位。URl通常由三部分组成:访问资源的命名机制;存放资源的主机名;资源自身的名称,由路径表示。如下面的URI:我们可以这样说明它:这是一个可以通过协议访问的资源,位于主机webmonkey上,通过路径7htmlhtml40"访问.4、UR1.的理解和举例UR1.是URl的一个子集。它是UniformResource1.ocator的缩写,译为"统T源定位符".通俗地说,UR1.是Intemet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上。采纳UR1.可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和书目等.UR1.的格式由三部分组成:第一部分是协议(或称为服务方式)。其次部分是存有该资源的主机IP地址(有时也包括端口号)。第三部分是主机资源的具体地址,如书目和文件名等.第一部分和其次部分用"符号隔开,其次部分和第三部分用7"符号隔开。第一部分和其次部分是不行缺少的,第三部分有时可以省略。下面来看看两个UR1.的小例子。1 .协议的UR1.示例:运用超级文本传输协议,供应超级文本信息服务的资源.例:/peopledailychannelwelcome.htm其计算机域名为peopledaily超级文本文件(文件类型为html)是在书目/channel下的welcome.htm.这是中国人民日报的一台计算机。例::/talktalkl.htm其计算机域名为o超级文本文件(文件类型为html)是在书目/talk下的talkl.htm这是瑞得闲聊室的地址,可由此进入瑞得闲聊室的第1室。2 .文件的UR1.用UR1.表示文件时,服务器方式用file表示,后面要有主机IP地址、文件的存取路径(即书目)和文件名等信息。有时可以省略书目和文件名,但7"符号不能省略.例:fileftp.yoyodynepubfilesfoobar.t×t上面这个UR1.代表存放在主机ftp.yoyodyne上的PUb/files/书目下的T'文件,文件名是foobar.t×to例:file:ftp.yoyodyne/pub代表主机ftp.yoyodyne上的书gpubo例:fileftp.yoyodyne/代表主机ftp.yoyodyne的根书目爬虫最主要的处理对象就是UR1.,它依据UR1.地址取得所须要的文件内容,然后对它进行进一步的处理。因此,精确地理解UR1.对理解网络爬虫至关重要。利用urllib2通过指定的UR1.抓取网页内容所谓网页抓取,就是把UR1.地址中指定的网络资源从网络流中读取出来,保存到本地.类似于运用程序模拟IE阅读器的功能,把UR1.作为恳求的内容发送到服务器端,然后读取服务器端的响应资源。在Python中,我们运用urllib2这个组件来抓取网页。urllib2是Python的一个获得UR1.s(UniformResource1.oCatOrS)的组件。它以urlopen函数的形式供应了一个特别简洁的接口。最简洁的urllib2的应用代码只须要四行。我们新建一个文件urllib2.testl.py来感受一下urllib2的作用::/baidu2response=urllib2.urloen(3htnl-response.read()4. printhtnl按下F5可以看到运行的结果:_7iPythonSheillefdiShelebgQptionsWindowsyelwimu="+p;img.src="ttp:/nsclck.babds.coran.user;funccioIn_addTJ(obj)(addEV(obJr"mousedown"function(e)<vare=e11window.event;varItargete.targete.SrcElenient;ns_c(fm,:,behslr,cab,:target.na11etj-user,Ir,unSencodeURICoaponent(un););for(var1=0;1<u.length;i+÷)(addTJ(uiI);>for(var三0;<nv.length;*÷)(nv(i).name,tj_,tj_nv(i;)for(vari三0;1<Ik.length;i÷+)(lki.na11e三tj-÷tjlJci;)();(functlon()<varIinIIcs三(,rj-newa:(word9hccp:/news.bans7tn三newsfccl三24rn三204ct三ie三uItf-8'tjtleba':'kw',"http:/tieba.baidu.eom/f7ie三utf-8,r'tjZidao':'woIrd,rhrtp三zhdao.basearch2pn三04rn*104111三0')r,cj-11>3:(key*,hccp:/I/music.baidu.consearc7frps6ieucf-8',ttjiJ11g':wordtr'http:/image.baidu.Icom2cr三201326592&cl=24nc三141m=-i4st三-lfctn=baduiEage4i3cype三2ifm=pv=iz=04ie=uItf-8')z'tjvideol:'word'r'http:/video.b:?*)+wd+,'encodeURICo11ponent(key);target.href-url;)else(target.href-targeIz.ref.match(newRegExp(*hctp:/.+.baidu.com")0;neie&&ns_c(rm':bIehs,r,cab,:name,query1:encodeURICoraponent(key)z,un':encodeURICo11<>onent(bds.cIorra.user);>)();addEV(wr"load"function()Jc.focus();w.onunload=funcIton()<);</script><scriptcype,text/javascrpthsrc-"http:/sl.bdatar

    注意事项

    本文(python-网络爬虫.docx)为本站会员(王**)主动上传,优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知优知文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 yzwku网站版权所有

    经营许可证编号:宁ICP备2022001189号-2

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知优知文库网,我们立即给予删除!

    收起
    展开