
关于
60行代码爬取知乎“神回复”句句戳中泪点
作者:万博 发布时间:2019-10-03 16:11 点击数:
发布后,引发了大家热烈的反响。很多朋友觉得很神奇,在后台问强哥是怎么做到的,有的朋友还表示不太相信。其实爬取知乎神回复很简单,这篇文章我们就来揭晓一下背后的原理。
大家看出什么规律了么?短小精辟有没有?赞同很多有没有?所以爬取知乎神回复我们只要爬取那些赞同多又字数少的回答就可以。简单的两个步骤就能实现,第一步爬取知乎回答,第二部筛选回答。是不是很easy?
第一步我们爬取知乎上的回答。知乎上的回答太多了,一下子爬取所有的回答会很费时,我们可以选定几个话题,爬取这几个话题里的内容。
get_answers_by_page函数有两个参数,第一个参数是话题的id,第二个参数表示爬的是第几页的内容。
上面的代码会筛选所有赞同大于1000、字数小于50的回答,筛选出来的结果就是短小精辟的神回复。以上是核心代码,完整代码已上传github。
代码写完了,我们来运行下看看。恰好昨天是程序员节,我们就来筛选一下和程序员有关的神回复。结果如下,一共75条搞笑段子
相关阅读:万博
