邪不压正评分持续走低 上万条网友评论揭秘 是救救姜文还是救救观众

《邪不压正》评分持续走低 上万条网友评论揭秘 是救救姜文还是救救观众?

万众期待的《邪不压正》已上映有一周时间。

但上映当日早上开画8.2,上映不到一天闪崩到7.1的评分好像已经给这部片子本该大展拳脚的片子,戴上了一个结结实实的囚具。

首日票房虽然过亿,却依旧不敌多日日票房冠军《我不是药神》;难道姜文又搞砸了?不管如何,姜文的电影总能掀起影评人高涨的评论热情。

本文就看看网友对这部姜文电影的感受到底怎么样。接下来,笔者将会用猫眼上万条评论数据来分析,网友对这部电影的反响究竟如何?整体思路,将会从数据获取、数据处理、数据可视化三部曲来进行:

数据获取

关于如何获取网页的数据,笔者一直也是推荐三步走:下载数据、解析数据、保存数据。在下载数据之前,我们看看猫眼官网的网页结构,看看网友的评论数据界面究竟在哪?

然而,打开猫眼网页(http://maoyan.com/films/248566)只有寥寥几个评论,那它的数据会不会是通过json格式保存到服务器中呢?无奈只能通过抓包猫眼APP来找其数据界面。

最后,发现其数据界面为:http://m.maoyan.com/mmdb/comments/movie/248566.json?_v_=yes&offset=1,其中258566属于电影的专属id,offset代表页数

最后检验,这个界面只给展示1000页数据,如下:

界面找到后,开始写爬取数据代码,详情代码如下:

数据处理

获取数据后发现,会有一些数据重复,如下图:

因此需要脚本批量对数据进行去重处理,详情代码如下:

每天可以不定时(每隔四五小时获取一次数据,基本每次可获取900多条数据),最终笔者获取到7/15-7/18之间上万条来作为数据集分析。

数据可视化

今天我们就用pyecharts将清理过后的万条评论数据来实现可视化。pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒,pyecharts 是为了与 Python 进行对接,方便在 Python 中直接使用数据生成图。(详情请看:http://pyecharts.org/)。

粉丝北上广及沿海一带居多。

由上图,可以看出北上广一带的用户相对较多,这些地方的互联网用户基数本来就大,同时沿海一代的三四线城市也成为票房贡献者的一部分。

详情代码如下:

评论两极分化相对严重

获取到近几日的网友上万条评论数据后,我们切换到今天主题,看看网友对这部电影究竟评论如何?

我们将数据集中的评论内容提取出来,将评论分词后制作如下词云图:

可以看出,排名靠前的热词分别是姜文、不错、好看、彭于晏、剧情、看不懂等,可以看出大家对电影的评价还不错,同时估计还有一大部分粉丝是专门看国民老公彭于晏的裸奔与八块腹肌的(哈哈哈)。

至于剧情方面,相对于《让飞》,《邪不压正》用了更“姜文”更癫狂的方式来讲了一个相对简单的故事。

从砰砰砰几枪打出片名的那一刻起,影片就在一个极度亢奋的节奏之下不停向前推进著,伴随着应接不暇的戏谑台词,姜文无时无刻不在释放自己的任性,太疯了,甚至有些极端。对于普通观众来说,太难消化了,上一秒还没琢磨明白,下一秒又迎来了一个亢奋且莫名的环境和台词中(也验证评论中一部分网友对剧情看不懂的评价)。

详情代码如下:

一星级影评占比高达20%

图中可以看出,五星级比例接近40%,而一星级比例与四星级比例几乎差不多,几乎为都为20%。(备注:一星级数量等于1与0.5的总和,以此类推)

很明显,姜文再次掀起了影评人和观众的论战,尽管姜文对影评人并不友好,但影评人还是愿意去袒护姜文。其实,姜文的电影关键在于你期待什么?类型片?姜文拍的从来都不是类型片。艺术片?姜文的电影里的艺术不是一遍就可以看懂的。他的电影就是带着一种“后摇风格”,浓烈、生猛。

姜文和观众都很自我,姜文端著,不肯向市场低头;观众正是因为没端著,所以看姜文的电影过于疲惫。谁都没错,谁都不用救。

详情代码如下:

关于《邪不压正》网友评论数据就分析到此结束!

你觉得《邪不压正》不好看是对的,因为它太姜文了。你若觉得《邪不压正》好看也是对的,因为它真的太姜文了。成也姜文,败也姜文!但这也许就是他孤傲的世界吧。

声明:本文转载自恋习Python,版权归对方所有。




猜你喜欢