51学通信论坛2017新版

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 4103|回复: 0
打印 上一主题 下一主题

[第8章:Python计算生态] 基本html数据提取:

[复制链接]

 成长值: 15613

  • TA的每日心情
    开心
    2022-7-17 17:50
  • 2444

    主题

    2544

    帖子

    7万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    74104
    跳转到指定楼层
    楼主
    发表于 2019-6-23 14:59:32 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
    基本html数据提取:
    1. # Example_8_1.py
    2. def getHTMLlines(htmlpath):
    3.     f = open(htmlpath, "r", encoding='utf-8')
    4.     ls = f.readlines()
    5.     f.close()
    6.     return ls

    7. def extractImageUrls(htmllist):
    8.     urls = []
    9.     for line in htmllist:
    10.         if 'img' in line:
    11.             url = line.split('src=')[-1].split('"')[1]
    12.             if 'http' in url:
    13.                 urls.append(url)
    14.     return urls
    15.    
    16. def showResults(urls):
    17.     count = 0
    18.     for url in urls:
    19.         print('第{:2}个URL:{}'.format(count, url))
    20.         count += 1
    21.    
    22. def saveResults(filepath, urls):
    23.     f = open(filepath, "w")
    24.     for url in urls:
    25.         f.write(url+"\n")
    26.     f.close()
    27.    
    28. def main():
    29.     inputfile  = 'nationalgeographic.html'
    30.     outputfile = 'nationalgeographic-urls.txt'
    31.     htmlLines = getHTMLlines(inputfile)
    32.     imageUrls = extractImageUrls(htmlLines)
    33.     showResults(imageUrls)
    34.     saveResults(outputfile, imageUrls)

    35. main()
    复制代码
    结果,生成一个txt文件,提取出所有的jpg文件url。



    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    Archiver|手机版|小黑屋|51学通信技术论坛

    GMT+8, 2025-1-31 14:44 , Processed in 0.060136 second(s), 33 queries .

    Powered by Discuz! X3

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表