专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
新机器视觉  ·  工业现场相机坐标系和机械手坐标系的标定 ·  21 小时前  
机器学习研究组订阅  ·  顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭 ... ·  23 小时前  
人工智能那点事  ·  粉丝已破百万!北大“韦神”突然开号?评论区成 ... ·  3 天前  
51好读  ›  专栏  ›  AI科技评论

开发 | 我做了12万条的影评分析,告诉你《战狼Ⅱ》都在说些啥

AI科技评论  · 公众号  · AI  · 2017-08-17 08:51

正文

请到「今天看啥」查看全文


这个是影评的起始页:豆瓣影评

以下是Python爬虫的代码:

import requests
import re
import pandas as pd
url_first='https://movie.douban.com/subject/26363254/comments?start=0'
head={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)Ubuntu Chromium/59.0.3071.109 Chrome/59.0.3071.109 Safari/537.36'}
html=requests.get(url_first,headers=head,cookies=cookies)

cookies={'cookie':'你自己的cookie'}  #也就是找到你的账号对应的cookie

reg=re.compile(r'') #下一页

ren=re.compile(r'(.*?).*?comment">(.*?)
.*?
.*?(.*?).*?(.*?).*?title="(.*?)">.*?title="(.*?)">.*?class=""> (.*?)\n',re.S)  #评论等内容
while html.status_code==200:    url_next='https://movie.douban.com/subject/26363254/comments'+re.findall(reg,html.text)[0]                                zhanlang=re.findall(ren,html.text)    data=pd.DataFrame(zhanlang)    data.to_csv('/home/wajuejiprince/文档/zhanlang/zhanlangpinglun.csv', header=False,index=False,mode='a+') #写入csv文件,'a+'是追加模式    data=[]    zhanlang=[]    html=requests.get(url_next,cookies=cookies,headers=head)

以上代码注意设置你自己的User-Agent,Cookie,CSV保存路径等。

爬取的内容保存成CSV格式的文件。保存的文件内容如下:

数据清洗

本文用R语言来处理数据。虽然在爬取的时候已经非常注意爬取内容的结构了,但是还是不可避免的有一些值不是我们想要的,比如有的评论内容会出现在评论者这一项中。所以还是有必要进行一下数据的清洗。

首先加载要用到的所有包:

library(data.table)
library(plotly)
library(stringr)
library(jiebaR)
library(wordcloud2)
library(magrittr)

导入数据并清洗:

dt







请到「今天看啥」查看全文