51学通信论坛2017新版

标题: 基本html数据提取: [打印本页]

作者: admin    时间: 2019-6-23 14:59
标题: 基本html数据提取:
基本html数据提取:[attach]5803[/attach]
[attach]5802[/attach]
  1. # Example_8_1.py
  2. def getHTMLlines(htmlpath):
  3.     f = open(htmlpath, "r", encoding='utf-8')
  4.     ls = f.readlines()
  5.     f.close()
  6.     return ls

  7. def extractImageUrls(htmllist):
  8.     urls = []
  9.     for line in htmllist:
  10.         if 'img' in line:
  11.             url = line.split('src=')[-1].split('"')[1]
  12.             if 'http' in url:
  13.                 urls.append(url)
  14.     return urls
  15.    
  16. def showResults(urls):
  17.     count = 0
  18.     for url in urls:
  19.         print('第{:2}个URL:{}'.format(count, url))
  20.         count += 1
  21.    
  22. def saveResults(filepath, urls):
  23.     f = open(filepath, "w")
  24.     for url in urls:
  25.         f.write(url+"\n")
  26.     f.close()
  27.    
  28. def main():
  29.     inputfile  = 'nationalgeographic.html'
  30.     outputfile = 'nationalgeographic-urls.txt'
  31.     htmlLines = getHTMLlines(inputfile)
  32.     imageUrls = extractImageUrls(htmlLines)
  33.     showResults(imageUrls)
  34.     saveResults(outputfile, imageUrls)

  35. main()
复制代码
结果,生成一个txt文件,提取出所有的jpg文件url。
[attach]5804[/attach]







欢迎光临 51学通信论坛2017新版 (http://bbs.51xuetongxin.com/) Powered by Discuz! X3