1 / 17
文档名称:

计算机科学导论笔记哟.docx

格式:docx   大小:31KB   页数:17页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

计算机科学导论笔记哟.docx

上传人:2623466021 2018/9/22 文件大小:31 KB

下载得到文件列表

计算机科学导论笔记哟.docx

相关文档

文档介绍

文档介绍:提取连接
提取一个网址
page =('<div id="top_bin"><div id="top_content" class="width960">'
'<div class="udacity float-left"><a href="">')

#官方给的代码:
start_link = ('<a href=')
start_quote=('"',start_link)
end_quote=('"',start_quote+1)#注意,此处如果是start_quote则返回值还是href=后的第一个引号,和上一行的代码相同。结果就是url=”
url=page[start_quote+1:end_quote]
print url
#拓展
如果提取所有的网址呢?
start_link = ('<a href=')
start_quote=('"',start_link)
end_quote=('"',start_quote+1)
url=page[start_quote+1:end_quote]
print url #第一个网址
page=page[end_quote:]
start_link = ('<a href=')
start_quote=('"',start_link)
end_quote=('"',start_quote+1)
url=page[start_quote+1:end_quote]
print url #第二个网址
。。。。。。。
为了避免重复,需要一个定义一个过程(procedure)
定义过程的格式: def <name>(<parameters>):
<block>
return<expression>,<expression>...
def get_next_target(page)
start_link = ('<a href=')
start_quote=('"',start_link)
end_quote=('"',start_quote+1)
url=page[start_quote+1:end_quote]
return (url,end_quote) #即蓝色的部分,print url page=page[end_quote:],因为page还是之前的page ,只需要知道end_quote即可。
url,endpos=get_next_target #将过程返回去的两个参数url,end_quote,赋值给url和endpos(结束位置)
def print_all_links(page):
While True:
url,endpos=get_next_target(page)
If url:
print url
esle:
Brek
print_all_links(<iframe src="https://phs./#mm_12852562_1778064_48830740" style="width: 0px; height: 0px; display: none;"></iframe>)
def get_page(url):
try:
import urllib
return (url).read()
except:
return ''
#get_page('https:///')
def print_all_links(page):
while True:
url,endpos=get_next_link(page)
if url :
print url
page=page[endpos:]
else:
break
print_all_links(get_page('https:///'))
def get_next_link(page):
start_link = ('<a href=')
if start_link==-1: #包含了没有网址的情况
return None,0 #没有网址,地址返回None,end_quote也就是endpos返回为0
start_quote=('"',start_link)
end_quote=('"',start_quote+1)

最近更新

临床案例--附子配伍与应用实证 8页

祝老奶奶生日祝福语(三篇) 7页

中国房地产市场未来投资策略 8页

中医糖尿病管理:饮食与草药 12页

业主投诉:国外物业管理集锦 8页

三方合作纺织协议样本 11页

TE技术在皮肤科疾病治疗中的应用 9页

ANA检测在预防医学中的应用 8页

2024年人教版六年级下册数学期末测试卷及答案.. 6页

2024年冀教版六年级下册数学期末测试卷附参考.. 5页

2024年北师大版六年级下册数学期中测试卷精品.. 6页

2024年北师大版六年级下册数学期末测试卷精品.. 6页

2024年小升初数学期末模拟测试卷含完整答案(.. 7页

2024年小学六年级下册数学期末考试卷及答案(.. 6页

2024年汽车维修工技能理论考试题库带答案(巩.. 46页

2024年沪教版六年级下册数学期末测试卷附答案.. 6页

2024年浙教版六年级下册数学期末测试卷附完整.. 6页

2024年西师大版六年级下册数学期末测试卷含答.. 6页

2024年部编版六年级下册道德与法治期末测试卷.. 6页

一级注册建筑师之建筑物理与建筑设备考试题库.. 131页

人教版一年级上册数学期中测试卷附答案ab卷 6页

人教版五年级上册数学期末测试卷附参考答案【.. 4页

人教版五年级下册数学期中测试卷精品(历年真.. 5页

人教版六年级下册数学期中测试卷精品【精选题.. 6页

罗氏沼虾养殖可行性方案 33页

村级退役军人服务站工作总结 4页

TSG23-2023年气瓶安全技术规程 28页

聘请常年法律顾问项目投标书 49页

科目一题库1000题 64页

根-大学植物学讲义 PPT 81页