博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
简单网页爬虫
阅读量:4313 次
发布时间:2019-06-06

本文共 2658 字,大约阅读时间需要 8 分钟。

目录

爬虫

安装requests模块:pip install requests

1.文字爬虫

import re           # 导入re模块import requests     # 导入request模块response = requests.get('https://ishuo.cn/')  # 获取网页内容源代码data = response.text     # 将网页内容源代码存放在文本格式记录data文件中result_list = re.findall('
(.*?)
',data) # 找到要爬取的内容(.*?)前后的共同点写入列表'''
与人a1人间的信任,就像是纸片,一旦破损,就不会再回到原来的样子。
(.*?)
一年奔波,尘缘遇了谁;一句珍重,天涯别了谁;一点灵犀,凭栏忆了.
(.*?)
'''for result in result_list: print(result) # 分别读取

2.图片爬虫

import reimport requestscount= 0for i in range(2,4):    # 'http://pic.netbian.com/index_{i}.html'跳转下一页继续爬    respone = requests.get(f'http://pic.netbian.com/index_{i}.html') #获取网址源代码内容    data = respone.text #文本形式记录    # print(data)    result_list = re.findall('src="(.*?)"',data) #从data中获取所要爬的共同的东西(图片)    for result in result_list:        if result.endswith('jpg'):   # 判断挑选需要的图片的格式              result = f'http://pic.netbian.com{result}' # 图片的网址              # print(result)              img_respone = requests.get(result)  # 获取图片的内容(二进制记录的内容)              img_name = result.split('/')[-1] # 每次循环分别记录图片名称              img_data = img_respone.content  # 以字符形式记录图片              # print(img_data)              with open(img_name,'wb') as f:  # 创建名字为img_name的图片并打开                  f.write(img_data)  # 以字符形式写入图片                  f.flush()              count+=1              print(f'爬取了{count}张图片')

3.视频爬虫

import reimport requestsresponse = requests.get('https://www.ku6.com/index') # 获取网址代码data = response.text  # 文本形式记录网页代码count = 0# print(data)result_list = re.findall('',data) # 找到视频网址的共同地方for result in result_list:    # print(result)    if result.startswith('/video'):        # print(result)        result = f'https://www.ku6.com{result}' # 补满视频网址        # print(result)        detail_response = requests.get(result)   # 获取单个视频网址代码        detail_data = detail_response.text      # 文本形式记录单个视频网页代码        # src="https://rbv01.ku6.com/wifi/o_1dab1luo5oao1jnk1bpnk321hevckvs" >< / video >(????)# flvURL: "https://rbv01.ku6.com/wifi/o_1dab1luo5oao1jnk1bpnk321hevckvs"# flvURL: "https://rbv01.ku6.com/wifi/o_1dab1luo5udcici1r2vefj1jksbkvs"        video_url = re.findall('flvURL: "(.*?)"',detail_data) # 找到单个视频网址代码        # print(video_url)        video_response = requests.get(video_url[0]) # video_url是包含一个元素的列表        video_data = video_response.content    # 以二进制保存视频        video_name = f"{video_url[0].split('/')[-1]}.mp4"  # 编辑视频名字        with open(video_name, 'wb') as fw:    # 打开文件            fw.write(video_data)          # 写入视频            fw.flush()        count += 1        print(f'爬取了{count}个视频')

转载于:https://www.cnblogs.com/yellowcloud/p/10858775.html

你可能感兴趣的文章
JS高级用法
查看>>
public static final 的用法
查看>>
使用TortoiseGit同步代码到github远程仓库
查看>>
Django中HtttpRequest请求
查看>>
K-Means聚类和EM算法复习总结
查看>>
彻底卸载MySql
查看>>
[转]Bat脚本处理ftp超强案例解说
查看>>
P3901 数列找不同
查看>>
poj2516
查看>>
输出的文本实现对齐
查看>>
C#WPF实现回溯算法解决八皇后问题
查看>>
EXT.NET Toolbar GridPanel主动宽度和高度的解决规划,引入Viewport
查看>>
the security settings could not be applied to the database(mysql安装error)【简记】
查看>>
搭建无线局域网:因地制宜
查看>>
利用无线网络数据包分析无线网络安全
查看>>
MEMBER REPORT
查看>>
[HAOI2006]受欢迎的牛
查看>>
使用jquery去掉时光轴头尾部的线条
查看>>
算法(转)
查看>>
IT职场人生系列之十五:语言与技术II
查看>>