欢迎来到山村网

用Python程序抓取网页的HTML信息的一个小实例

2019-03-02 12:15:58浏览:175 来源:山村网   
核心摘要:  这篇文章主要介绍了用Python程序抓取网页的HTML信息的一个小实例,用到的方法同时也是用Python编写爬虫的基础,需要的朋友可以

  这篇文章主要介绍了用Python程序抓取网页的HTML信息的一个小实例,用到的方法同时也是用Python编写爬虫的基础,需要的朋友可以参考下

  抓取网页数据的思路有好多种,一般有:直接代码请求http、模拟浏览器请求数据(通常需要登录验证)、控制浏览器实现数据抓取等。这篇不考虑复杂情况,放一个读取简单网页数据的小例子:

  目标数据

  将ittf网站上这个页面上所有这些选手的超链接保存下来。

201552150315618.png (600×587)

  数据请求

  真的很喜欢符合人类思维的库,比如requests,如果是要直接拿网页文本,一句话搞定:

  ?

1 doc = requests.get(url).text

  解析html获得数据

  以beautifulsoup为例,包含获取标签、链接,以及根据html层次结构遍历等方法。参考见这里。下面这个片段,从ittf网站上获取指定页面上指定位置的链接。

  ?

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 url = 'http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category =100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_ Page='+str(page) doc = requests.get(url).text soup = BeautifulSoup(doc) atags = soup.find_all('a') rank_link_pre = 'http://www.ittf.com/ittf_ranking/' mlfile = open(linkfile,'a') for atag in atags: #print atag if atag!=None and atag.get('href') != None: if "WR_Table_3_A2_Details.asp" in atag['href']: link = rank_link_pre + atag['href'] links.append(link) mlfile.write(link+'n') print 'fetch link: '+link mlfile.close()

注< >:更多精彩教程请关注山村编程

(责任编辑:豆豆)
下一篇:

在Mac OS上部署Nginx和FastCGI以及Flask框架的教程

上一篇:

用Python编写简单的定时器的方法

  • 信息二维码

    手机看新闻

  • 分享到
打赏
免责声明
• 
本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们 xfptx@outlook.com