业界动态
python3.6.国家政策文本分析代码
2024-11-19 03:05

根据学习至今的python,和导师吩咐的方向,一共做了5件事

python3.6.国家政策文本分析代码

1.政府网http://www.gov.cn/index.htm中养老政策特殊文本爬取与保存。

2.基于的TF/IDF多文档关键词抽取。

-基于TF-IDF算法的关键词抽取(原文:https://blog.csdn.net/zhangyu132/article/details/52128924

  import jieba.analyse

  jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())     –sentence 为待提取的文本     –topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20     –withWeight 为是否一并返回关键词权重值,默认值为 False     –allowPOS 仅包括指定词性的词,默认值为空,即不筛选

-基于TextRank算法的关键词提取

    jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’)) 直接使用,接口相同,注意默认过滤词性。     –基本思想:     1,将待抽取关键词的文本进行分词     2,以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图

 

topK=15表示每篇文章抽取频率最高的前15个词。下一步处理共现时词与词中间需要'/',否则无法共现,然后将每篇抽取的放入同一个xlxs中,抽取结果如图

3.关键词共现矩阵的生成。

结果如图

4.政策词云图的生成(这是一段单独的程序,也可以把上下步骤加进来

5.关键词网络关系图生成。

做关系图时要把生成的nxn共现矩阵转换为一个nx3的矩阵,如下图,然后将所有数取倒数,(取倒数前将所有0置为0.01),我认为两词距离越近那么他们之间值应该也越小,而上面得出的共现矩阵以加法形式进行计算。

以下是得出的结果

    以上就是本篇文章【python3.6.国家政策文本分析代码】的全部内容了,欢迎阅览 ! 文章地址:http://xiaoguoguo.dbeile.cn/news/1006.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 多贝乐移动站 http://xiaoguoguo.dbeile.cn/mobile/ , 查看更多   
最新新闻
手机热点不稳定(手机热点不稳定,总是断开)
  关于手机热点不稳定的问题  一、引言  随着移动互联网的普及,手机热点已成为我们日常生活中重要的网络接入方式之一。然
手机自动检测(手机自动检测在哪里)
  关于手机自动检测的文章  随着科技的飞速发展,智能手机已经成为我们日常生活中不可或缺的一部分。为了更好地服务用户,手
手机流量包(如何购买联通手机流量包)
  关于《手机流量包》的文章  随着移动互联网的普及,手机流量已经成为我们日常生活中不可或缺的一部分。为了满足不同用户的
手机桌面宠(手机桌面宠物软件)
  文章标题:《手机桌面宠:一种全新的数字伴侣体验》  随着科技的快速发展,智能手机已经渗透到我们日常生活的方方面面。在
怎样清理手机壳(怎样清理手机壳周围的黑)
  《怎样清理手机壳》  随着智能手机的普及,手机壳成为了保护手机不可或缺的一部分。然而,长时间使用会导致手机壳变脏或积
3000以下的手机(3000以下的手机实用耐用)
  关于《三千元以下手机》的文章  随着科技的快速发展,智能手机已经成为我们日常生活中不可或缺的一部分。如今,市场上充斥
手机换硬盘(手机换硬盘多少钱)
  关于手机换硬盘的文章  随着科技的快速发展,智能手机已成为我们日常生活中不可或缺的一部分。然而,随着使用时间的增长,
国产折叠手机(国产折叠手机性价比排名)
  国产折叠手机:革新科技与未来展望  随着科技的飞速发展,智能手机作为现代生活的必需品,不断推陈出新。近年来,国产折叠
手机当扫描仪(手机当扫描仪扫描头部数据)
  文章标题:《手机当扫描仪:科技革新下的便捷之选》  随着科技的飞速发展,智能手机的功能已经远远超越了单纯的通话和娱乐
手机怎么与电视投屏(手机怎么与电视投屏?)
  《手机怎么与电视投屏》  随着科技的飞速发展,我们的生活越来越离不开各种智能设备。其中,手机与电视作为家庭娱乐的主要