python爬取B站弹幕并制作词云图[使用函数和面向对象思想进行编程](2021年-6月) 1、建立面对对象模型 2、要想爬取网页信息,基本套路:获取其url并设置请求头
##*1、***为你想要爬取的B站网页,按下F12点击Network,在Name下随意单击一条,在Headers下找到user-agent后面的一串代码不包括前面那个冒号 *2、resp=requests.get(url)向url对应的服务器发送相应的get请求,获得对应的相应,其中的headers=headers传入请求头参数并返回一个<Response [200]>响应状态码,然后使用content是将requests.get(url, headers=headers)请求到的存储为字节码,.decode(‘utf-8’)是将字节码使用utf-8解码
*3、BeautifulSoup(response,‘lxml’)把response解析为BeautifulSoup对象并使用lxml解析器加速,然后使用findAll(name=‘d’)查找BeautifulSoup(response,‘lxml’)中所有d标签
*4、因为.text可以返回当前节点所包含的所有文本内容,包括当前节点的子孙节点,所以使用for并将i.text for i in soup加[]转换为列表并赋值给danmuku
当然,这还不够因为还需要
放在前面 3、包装为一个函数并使danmuku为返回值
4、获取到数据后,存储数据以便后用
5、打包为一个函数
6、
##*1处理数据,先使用with open与read等函数读取文本
*2将文本内容处理去标点空字符分词等
(1)、###为你自己所创造的停用词表 *3整理分好的词
*4打包为函数、并返回sentence
*5需要:
7、
##*1、了解WordCloud函数中参数的作用并设置
(1)、***为你所设计的词云图图案(.png)文件路径 (2)、&&&为词云图词语的字体的文件路径如: *2、制作词云,并展现与保存
*3、打包为函数
*4、需要:
8、在建立构造函数,使初始化时就进行所有函数
9、(1)、与用户交互输入cid初始化
(2)、若不想交互
本文地址:http://xiaoguoguo.dbeile.cn/quote/856.html 多贝乐 http://xiaoguoguo.dbeile.cn/ , 查看更多