文档介绍:python 中如何提取网页正文啊 谢谢
import  
url=""  
response=(url)  
page=()  
python提取网页中的文本
import os,sys,datetime   
import httplib,urllib, re   
from sgmllib import SGMLParser   
  
import types   
  
class Html2txt(SGMLParser):   
    def reset(self):   
         = ''  
         = True  
         (self)   
    def handle_data(self,text):   
        if :   
             += text   
  
    def start_head(self,text):   
         = False  
    def end_head(self):   
         = True  
  
  
if __name__ == "__main__":   
     parser = Html2txt()   
     (("").read())   
     ()   
    print ()  
python 下载网页
import httplib  
conn=("")
("GET","/")
r1=()
print ,
data=()
print data
用python下载网页,超级简单!
from urllib import urlopen
webdata = urlopen("").read()
print webdata
深入python里面有
python 下载网页内容,用python的pycurl模块实现
用python 下载网页内容还是很不错的,之前是使用urllib模块实验的,但听说有pycurl这个模块,而且比urllib好,所以尝试下,废话不说,以下是代码
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import StringIO
import pycurl
def write):
  f=open(x,'w')
  (fstr)
 
html = ()
c = ()
myurl=''
 
(, myurl)
 
#写的回调
(, )
 
(, 1)
 
#最大重定向次数,可以预防重定向陷阱
(, 5)
 
#连接超时设置
(, 60)
(, 300)
 
#模拟浏览器
(, "Mozilla/ (compatible; MSIE ; Windows NT ; SV1; .NET CLR )")
 
 
 
#访问,阻塞到访问结束
()
 
#打印出 200(HTTP状态码,可以不需要)
print ()
 
#输出网页的内容
print ()
#
write(),"")
的