1 次浏览

爬取财经证券网页热词

爬取财经证券网页热词

            怎样快速爬取获取财经证券网页上的关键词/热词,及时布局和跟踪热点?

以下是实现的源代码。如有疑问,可关注“投资如意帮”公众号咨询。

import pandas as pd #导入pandas库
import jieba
import jieba.analyse
import re
from urllib.request import Request, urlopen

“””
方法一. 使用pandas 爬取网页数据
“””

“””

html = “https://www.cfi.net.cn” #将要爬取数据的网站网址复制到此
#html = “https://www.if18.vip/weibo/archives/351.html”  换成这个网址或百度网址或其他某些网址时,程序运行会报错: ValueError_ No tables found,这其中原因主要可能是因为此方法是在网页html源代码中循环寻找table标签,然后把每个table标签中内容以列表方式输出。如果没找到table标签,或在循环找table时意外出错,这时便会报错。这时可以换下面方法二可以大概率解决!
date = pd.read_html(html) #运用pd.read_html读取网站数据
#date = pd.read_html(html, encoding=”utf-8″)[0]
#print(date)
print(type(date))
#print(date[4]) #输出爬取到的数据
#print(type(date[4])) #输出爬取到的数据
#print (date[2])

#datew = “,”.join(date)
#wf = open(’13.txt’,’w+’)
#wf.write(date)
#wf.close()
“””

#print(“以上是作为列表的date的数据输出显示”)

 

“””
方法2.使用urllib爬取网页数据并写入Excel表
“””
import urllib.request #导入urllib库

#url = urllib.request.urlopen(“https://industry.cfi.cn/BCA0A4127A4128A4138.html”) #这个网址若用第一方法,将抓不到主要内容。

#url = urllib.request.urlopen(“https://www.if18.vip”)  #方法一报错的网址,方法二能顺利打开。
url = urllib.request.urlopen(“https://baijiahao.baidu.com/s?id=1759764887790748768&wfr=spider&for=pc”)
data = url.read()
dt1 = open(“D:/wst/2.xls”,”wb”) #xls表的位置,会自动生成xls表
dt1.write(data) #将数据以全面覆盖方式写入D:/wst/2.xls表中。注意如用excel打开查看若是乱码的话,可以用记事本打开查看。
dt1.close()
print(data)

 

“””
#下面是sam结合“python实现简单中文词频统计示例.py”改造。
keywords = jieba.analyse.extract_tags(date[2].iat[0,0])
# 访问提取结果
print(keywords)
#访问上述列表(keywords)中的每个元素
for item in keywords:
# 分别为关键词和相应的权重
print(item[0], item[1])
“””

发布日期:

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注