商务服务
爬取微博热搜榜
2024-10-31 10:53

一、主题式网络爬虫设计方案
1.主题式网络爬虫名称:爬取微博热搜榜
2.主题式网络爬虫爬取的内容:微博热搜前十
3.主题式网络爬虫设计方案概述:确定爬取网页,将爬取数据保存到csv文件中,并对数据进行清理处理,将数据进行可视化并建立回归方程。知识掌握不充分,对网页爬取还有很多不懂。

爬取微博热搜榜

二、主题页面的结构特征分析
1.主题页面的结构与特征分析


2.Htmls页面解析

三、网络爬虫程序设计

1.数据爬取与采集

import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import reurl = 'https://tophub.today/n/KqndgxeLl9'
headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
response = requests.get(url,headers=headers)
html = response.content.decode('utf-8')
html = response.text
titles = re.findall('<a href=https://www.cnblogs.com/redbigbaby/p/.*? target="_blank" .*?>(.*?)</a>',html)[3:13]
hot = re.findall('<td>(.*?)</td>',html)[0:10]
a = []#创建空列表
for i in range(10):
    a.append([i+1,titles[i],hot[i][:-1]])
#完成创建
file = pd.Dataframe(a,columns = ['排名','标题','热度(单位:万)'])
print(file)
file.to_csv('微博热搜.csv')#保存文件


2.对数据进行清洗和处理

s = pd.Dataframe(pd.read_csv('微博热搜.csv'))
s.head()
s.drop('热度(单位:万)',axis = 1,inplace=True)#删除无效列
s.head()
s.duplicated()#查找重复值
s.isna().head()#统计缺失值NaN
s.describe()#使用describe查看统计信息

4.数据分析与可视化

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['Arial Unicode Ms']#用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False#用来正确显示负号
data=np.array([431.3,135.5,128.0,114.0,112.8,97.0,95.5,93.1,89.9,89.3])
index=['1','2','3','4','5','6','7','8','9','10']
s = pd.Series(data,index)
s.name='微博热搜条形图'
s.plot(kind='bar',title='微博热搜条形图')
plt.show()

5.根据数据之间的关系,分析两个变量之间的相关系数,画出散点图,并建立变量之间的回归方程(一元或多元)

import numpy as np
import scipy as sp
import matplotlib.pyplot as plt
import matplotlib
from scipy.optimize import leastsq
filename = '微博热搜.csv'
colnames=["排名","热度(单位:万)","标题"]
df = pd.read_csv(filename,skiprows=1,names=colnames)
X=df.排名
Y=df.标题
def fit_func(p,x):
    a,b,c=p
    return a*x*x+b*x+c
def error_func(p,x,y):
    return fit_func(p,x)-y
p0=[2,4,6]
para=leastsq(error_func,p0,args=(X,Y))
a,b,c=para[0]
plt.figure(figsize=(8,4))
plt.scatter(X,Y,color="pink",label=u"热搜数据",linewidth=2)
x=np.linspace(0,25,20)
y=a*x*x+b*x+c
plt.plot(x,y,color="blue",label=u"拟合直线",linewidth=2)
plt.title("微博热搜回归方程")
plt.legend()
plt.show()

7.将以上各部分的代码汇总,附上完整程序代码

import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import re
url = 'https://tophub.today/n/KqndgxeLl9'
headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
response = requests.get(url,headers=headers)
html = response.content.decode('utf-8')
html = response.text
#print(html)
#解析网页与抓取信息
titles = re.findall('<a href=https://www.cnblogs.com/redbigbaby/p/.*? target="_blank" .*?>(.*?)</a>',html)[3:13]#正则表达
hot = re.findall('<td>(.*?)</td>',html)[0:10]
a = []#创建空列表
for i in range(10):
    a.append([i+1,titles[i],hot[i][:-1]])
#完成创建
file = pd.Dataframe(a,columns = ['排名','标题','热度(单位:万)'])
print(file)file.to_csv('微博热搜.csv')#保存文件
s = pd.Dataframe(pd.read_csv('微博热搜.csv'))
s.head()
s.drop('热度(单位:万)',axis = 1,inplace=True)#删除无效列
s.head()
s.duplicated()#查找重复值
s.isna().head()#统计缺失值NaN
s.describe()#使用describe查看统计信息
#绘制条形图
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['Arial Unicode Ms']#用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False#用来正确显示负号
data=np.array([431.3,135.5,128.0,114.0,112.8,97.0,95.5,93.1,89.9,89.3])
index=['1','2','3','4','5','6','7','8','9','10']
s = pd.Series(data,index)
s.name='微博热搜条形图'
s.plot(kind='bar',title='微博热搜条形图')
plt.show()
#绘制拟合曲线
import numpy as np
import scipy as sp
import matplotlib.pyplot as plt
import matplotlib
from scipy.optimize import leastsq
filename = '微博热搜.csv'
colnames=["排名","热度(单位:万)","标题"]
df = pd.read_csv(filename,skiprows=1,names=colnames)
X=df.排名
Y=df.标题
def fit_func(p,x):
    a,b,c=p
    return a*x*x+b*x+c
def error_func(p,x,y):
    return fit_func(p,x)-y
p0=[2,4,6]
para=leastsq(error_func,p0,args=(X,Y))
a,b,c=para[0]
plt.figure(figsize=(8,4))
plt.scatter(X,Y,color="pink",label=u"热搜数据",linewidth=2)
x=np.linspace(0,25,20)
y=a*x*x+b*x+c
plt.plot(x,y,color="blue",label=u"拟合直线",linewidth=2)
plt.title("微博热搜回归方程")
plt.legend()
plt.show()

四、结论

1.经过对主题数据的分析与可视化,可以得到哪些结论?

这有助于我们清晰的了解微博热搜的变化

    以上就是本篇文章【爬取微博热搜榜】的全部内容了,欢迎阅览 ! 文章地址:http://xiaoguoguo.dbeile.cn/news/14.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 多贝乐移动站 http://xiaoguoguo.dbeile.cn/mobile/ , 查看更多   
最新新闻
“最难就业季”的当下,哪些高薪职业需要研究生学历?
这几年每年都在喊着“最难就业季”,本科毕业生忧,研究生毕业也愁,博士毕业生也抱怨就业很难。很多人说“教育的价值很难去评估
2024就业前景好的10大专业 就业率最高的是哪些
就业前景好的10大专业有工程管理、计算机科学与技术、口腔医学、通信工程、材料成型及控制工程统计学、教育学、软件工程、信息工
计算机就业率跌出前五!2024届就业率排名TOP20专业一览表出炉!
2024年最新的各专业就业数据发布了,值得各位家长考生留意。在1700+的专业中,能源与动力工程专业以81.12%的超高就业率成为了名
海洋渔业科学与技术专业怎么样_就业方向及前景分析
  海洋渔业科学与技术专业怎么样?很多考生和家长都对这个问题比较关注,想要充分了解海洋渔业科学与技术专业,就要看海洋渔业
去到日本没有银行卡可不行!办理流程需知道
很多同学在出国之前肯定都是比较紧张自己生活的方方面面,特别是生活费问题!可是没有银行卡,爸爸妈妈怎么把钱打过来呀!?不要急
找工作在哪个app找比较真实可靠:探索真实有效的求职App
在现在这个竞争激烈的社会,找一份好工作不容易,尤其是最近这几年。你可能会遇到各种困难和挑战,比如信息不足、简历投递无果、
适合女生的专业薪资排行榜 哪些专业工资高
适合女生工资高的专业有:金融学类专业、设计类专业、动漫类专业、土木工程专业、通信工程专业、电子信息工程专业、同声传译专业
出国打工选择哪个国家呢?
选择出国打工的国家应该根据个人情况和职业规划来决定。以下是一些比较受欢迎的出国打工目的地国家:美国、加拿大、澳大利亚、新
女生学什么专业工资高?2019女生专业就业薪水排名榜出炉!
女生学什么专业工资高?2019女生专业就业薪水排名榜出炉!   又到了高考填报志愿的时候了,女生在选择专业时要对专业感兴趣而
清代中国与日本江户时期的经济文化交流
  ——日本关西大学松浦章教授在外交学院演讲  作者:谢晶(外交学院外交学系2013级硕士研究生)日本关西大学松浦章教授在外