博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
获取全部校园新闻
阅读量:4882 次
发布时间:2019-06-11

本文共 4141 字,大约阅读时间需要 13 分钟。

1.取出一个新闻列表页的全部新闻 包装成函数。

2.获取总的新闻篇数,算出新闻总页数。

3.获取全部新闻列表页的全部新闻详情。

import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport re# 获取新闻点击次数def getNewsId(url):    newsId = re.findall(r'\_(.*).html', url)[0][-4:]    clickUrl = 'http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'.format(newsId)    clickRes = requests.get(clickUrl)    # 利用正则表达式获取新闻点击次数    clickCount = int(re.search("hits'\).html\('(.*)'\);", clickRes.text).group(1))    return clickCount# 获取新闻细节def getNewsDetail(newsUrl):    resd = requests.get(newsUrl)    resd.encoding = 'utf-8'    soupd = BeautifulSoup(resd.text, 'html.parser')    content = soupd.select('#content')[0].text    info = soupd.select('.show-info')[0].text    # 调用getNewsId()获取点击次数    count = getNewsId(newsUrl)    # 识别时间格式    date = re.search('(\d{4}.\d{2}.\d{2}\s\d{2}.\d{2}.\d{2})', info).group(1)    # 识别一个至三个数据    if(info.find('作者:')>0):        author = re.search('作者:((.{2,4}\s|.{2,4}、){1,3})', info).group(1)    if(info.find('审核:')>0):        check = re.search('审核:((.{2,4}\s){1,3})', info).group(1)    if(info.find('来源:')>0):        sources = re.search('来源:(.*)\s*摄|点', info).group(1)    # 用datetime将时间字符串转换为datetime类型    dateTime = datetime.strptime(date, '%Y-%m-%d %H:%M:%S')    # 利用format对字符串进行操作    print('发布时间:{0}\n作者:{1}\n审核:{2}\n来源:{3}\n点击次数:{4}'.format(dateTime, author, check, sources, count))    print(content)def getListPage(listUrl):    res = requests.get(listUrl)    res.encoding = 'utf-8'    soup = BeautifulSoup(res.text, 'html.parser')    for new in soup.select('li'):        if len(new.select('.news-list-title')) > 0:            title = new.select('.news-list-title')[0].text            description = new.select('.news-list-description')[0].text            newsUrl = new.select('a')[0]['href']            print('标题:{0}\n内容:{1}\n链接:{2}'.format(title, description, newsUrl))            # 调用getNewsDetail()获取新闻详情            getNewsDetail(newsUrl)            breaklistUrl = 'http://news.gzcc.cn/html/xiaoyuanxinwen/'getListPage(listUrl)res = requests.get(listUrl)res.encoding = 'utf-8'soup = BeautifulSoup(res.text, 'html.parser')listCount = int(soup.select('.a1')[0].text.rstrip('条'))//10+1for i in range(2,listCount):    listUrl= 'http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html'.format(i)    getListPage(listUrl)

4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。

import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport jieba newsurl = 'http://tv.cctv.com/cctv5/'  def sort(text):    str = '''一!“”,。?;’"',.、:\n'''    for s in str:        text = text.replace(s, ' ')    wordlist = list(jieba.cut(text))    exclude = {
'这', '\u3000', '\r', '\xa0', '的', '_', ' ', '将', '在', '是', '了', '一', '还', '也', '《', '》', '(', ')'} set2 = set(wordlist) - exclude dict = {} for key in set2: dict[key] = wordlist.count(key) dictlist = list(dict.items()) dictlist.sort(key=lambda x: x[1], reverse=True) print("top5关键词:") for i in range(5): print(dictlist[i]) def getContent(url): res = requests.get(url) res.encoding = 'utf-8' soup2 = BeautifulSoup(res.text, 'html.parser') for news in soup2.select('.l_a'): if len(news.select('.author'))>0: author=news.select('.author')[0].text print("作者",author) content = soup2.select('.la_con')[0].text.rstrip('AD_SURVEY_Add_AdPos("7000531");') print("正文:", content) sort(content) def getNewDetails(newsurl): res = requests.get(newsurl) res.encoding = 'utf-8' soup = BeautifulSoup(res.text, 'html.parser') for news in soup.select('.item'): # print(news) title = news.select('a')[0].attrs['title'] a = news.select('a')[0].attrs['href'] brief = news.select('h5')[0].text.rstrip('[详细]') time = news.select('h6')[0].text dt = datetime.strptime(time, '%Y-%m-%d %H:%M') print("新闻标题:", title) print("链接:", a) print("内容简介:", brief) print("时间:", dt) getContent(a) print('\n') # break res = requests.get(newsurl)res.encoding = 'utf-8'soup = BeautifulSoup(res.text, 'html.parser')getNewDetails(newsurl)

 

转载于:https://www.cnblogs.com/168-hui/p/8795920.html

你可能感兴趣的文章
jsp/post中文乱码问题
查看>>
C# 插入或删除word分页符
查看>>
数据库数据的查询----连接查询
查看>>
找不到可安装的ISAM ,asp.net读取数据丢失,解决的一列里有字符与数字的
查看>>
Java学习笔记三(对象的基本思想一)
查看>>
Java程序(文件操作)
查看>>
KMP算法 最小循环节 最大重复次数
查看>>
Proving Equivalences (强连通,缩点)
查看>>
Period (KMP算法 最小循环节 最大重复次数)
查看>>
sgu 103. Traffic Lights
查看>>
poj 3621 Sightseeing Cows
查看>>
hdu 3666 THE MATRIX PROBLEM
查看>>
TopCoder SRM 176 Deranged
查看>>
Javascript中数组与字典(即map)的使用
查看>>
C++不完整的类型
查看>>
memcached(十三)注意事项
查看>>
ITerms2在mac系统下的安装和配色,并和go2shell关联
查看>>
nginx常见面试题1
查看>>
小白用shiro(1)
查看>>
微服务化之无状态化与容器化
查看>>