开发 | 我做了12万条的影评分析，告诉你《战狼Ⅱ》都在说些啥

AI科技评论 · 公众号 · AI · 2017-08-17 08:51

正文

请到「今天看啥」查看全文

这个是影评的起始页：豆瓣影评

以下是Python爬虫的代码:

import requests
import re
import pandas as pd
url_first='https://movie.douban.com/subject/26363254/comments?start=0'
head={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)Ubuntu Chromium/59.0.3071.109 Chrome/59.0.3071.109 Safari/537.36'}
html=requests.get(url_first,headers=head,cookies=cookies)

cookies={'cookie':'你自己的cookie'}  #也就是找到你的账号对应的cookie

reg=re.compile(r'') #下一页

ren=re.compile(r'(.*?).*?comment">(.*?).*?.*?(.*?).*?(.*?).*?title="(.*?)">.*?title="(.*?)">.*?class=""> (.*?)\n',re.S)  #评论等内容
while html.status_code==200:
    url_next='https://movie.douban.com/subject/26363254/comments'+re.findall(reg,html.text)[0]                             
    zhanlang=re.findall(ren,html.text)
    data=pd.DataFrame(zhanlang)
    data.to_csv('/home/wajuejiprince/文档/zhanlang/zhanlangpinglun.csv', header=False,index=False,mode='a+') #写入csv文件,'a+'是追加模式
    data=[]
    zhanlang=[]
    html=requests.get(url_next,cookies=cookies,headers=head)

以上代码注意设置你自己的User-Agent，Cookie，CSV保存路径等。

爬取的内容保存成CSV格式的文件。保存的文件内容如下:

数据清洗

本文用R语言来处理数据。虽然在爬取的时候已经非常注意爬取内容的结构了，但是还是不可避免的有一些值不是我们想要的，比如有的评论内容会出现在评论者这一项中。所以还是有必要进行一下数据的清洗。

首先加载要用到的所有包：

library(data.table)
library(plotly)
library(stringr)
library(jiebaR)
library(wordcloud2)
library(magrittr)

导入数据并清洗：

dt

请到「今天看啥」查看全文

推荐文章

宝玉xp · 如果色情行业开始应用了就快了，否则还早-20250609005835

17 小时前

新机器视觉 · 工业现场相机坐标系和机械手坐标系的标定

21 小时前

机器学习研究组订阅 · 顶会0篇，一夜RLHF爆文刷屏！他靠写作逆袭AI圈，院士都说好

23 小时前

机器之心 · 6大模型决战高考数学新一卷：豆包、元宝并列第一，OpenAI o3竟惨败垫底

昨天

人工智能那点事 · 粉丝已破百万！北大“韦神”突然开号？评论区成许愿池……

3 天前

钛媒体 · 你戴的3M口罩，一年卖了一亿个，曾经是个胸罩

8 年前

教育百师通 · 提高孩子阅读能力，这个方法值得一试！

8 年前

冲蒌老伍 · 美女授课，教你活出精彩！！

8 年前

洞见 · 轰动全球的短文：《年轻》

8 年前

环球时报 · 美国要再给韩国一件神器，韩国自己先吓坏了

8 年前