再见，高考；你好，大学（一）

爬虫俱乐部 · 公众号 · · 2018-07-12 08:30

正文

请到「今天看啥」查看全文

说起爬虫，我们会首先使用 copy 命令抓网页源代码，但是当我们找到网页的源代码之后，通过检索相关信息，发现源代码中并没有我们需要的目标数据。

出现这样的结果，是因为这时我们找到的并不是网页的真实链接，要想继续寻找网页的真实链接，接下来我们需要谷歌浏览器的帮助。

在谷歌浏览器中，我们点击鼠标右键，会出现一个“ 检查 ”选项，单击“ 检查 ”，得到如下界面。

点击 network ，再按 F5 刷新，这样工具列表中就会出现许多与网页相关的链接，如下图所示：

对于这个网页，我们在左侧找到我们需要的链接并单击，查看它的 Response 即返回信息，发现其返回信息和我们所分析的网页信息相同，如下图:

现在，我们就可以在 Headers 中找到网页的真实链接了（ RequestURL ）。如下图：

同时，我们可以发现，该网页的请求方式为 get 方式，网页的一些参数直接在网页的链接里边，找到网页的真实链接之后，我们当然又会想到我们的 copy 命令。所以我们继续使用 copy 抓网页源代码：

copy "https://data-gkcx.eol.cn/soudaxue/queryschool.html?messtype=jsonp&callback=jQuery1830992755553502749_1530151399470&province=&schooltype=&page=8&size=30&keyWord1=&schoolprop=&schoolflag=&schoolsort=&schoolid=&_=1530151399697" temp.txt, replace

我们发现stata报错了：

服务器拒绝了我们的访问！使用 copy 始终没有抓取到源代码，那么接下来，就轮到我们的爬虫神器——“ curl ”出场了！

二、使用curl抓网页源代码

要想得到这个网页的源代码，就需要我们使用curl模拟浏览器进行抓取。

curl的安装和使用案例在前面的推文中已经有所介绍（详见《爬虫神器"curl"》、《一起来揪出网页真实链接！》、《爬虫神器curl继续带你抓网页》），接下来我们来谈一谈curl在这次爬虫中的具体应用。

右击左侧我们需要的链接，单击 Copy as cURL ( cmd )，然后复制到 do 文件或者 sublimetext ，就得到了下面一条命令：

请到「今天看啥」查看全文

昨天

彬彬有理 · 热搜上“高考吃避孕药”的福建女孩，撕开了多少人的青春伤痛

昨天

彬彬有理 · 哈佛版“董小姐”引爆热搜，精英们的傲慢已经藏不住了……

2 天前

金羊毛工作坊 · 关于新周期，国务院高层智囊如是说

7 年前

全球宏观与市场 · 朱民：金融科技再塑未来金融生态监管必须从机构监管走向功能监管

7 年前

汽车立体声节目 · 每日车谈10.9 | 2018款途安L\/新JEEP牧马人华颂品牌或被出售

7 年前

知漫 · 【知漫】vol.3 虚渊玄的英雄本色

8 年前

生物通 · 《Nature》：抑制RNA聚合酶竟然可以延长寿命？！

7 年前