您的当前位置:首页>全部文章>文章详情

【Python】第五章 Ajax数据爬取

CrazyPanda发表于:2023-12-03 21:35:21浏览:655次TAG:

目录


  • 使用requests获取的是原始HTML文档

  • 浏览器中的页面是JavaScript处理数据后生成的结果

  • 数据的来源

    • 通过Ajax加载

    • 包含在HTML文档中

    • 经过JavaScript和特定算法计算后生成

  • Ajax加载数据

    • 原始页面最初不包含某些数据

    • 当原始页面加载成功后,再向服务器请求某个接口获取数据

    • 然后将数据处理并呈现在网页上

    • 发送Ajax请求

    • 方式:异步

1. 什么是Ajax

  • Ajax(Asynchronous JavaScript and XML):异步的 JavaScript 和 XML

    • 不是一门编程语言

    • 利用 JavaScript 在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术

1.1 实例引入

  • 下滑查看更多

  • 下滑后加载的动画:Ajax 加载的过程

1.2 基本原理

  • 从Ajax请求到网页更新的这个过程可以分为3步

    • 发送请求

    • 解析内容

    • 渲染网页

发送请求

  • JavaScript对Ajax最底层的实现

var xmlhttp;
if (window.XMLHttpRequest) {
    xmlhttp = new XMLHttpRequest();
} else {
    xmlhttp = new ActiveXObject("Microsoft.XMLHTTP");
}

// 监听服务器返回响应
xmlhttp.onreadystatechange = function() {
    // 解析响应内容
    if (xmlhttp.readyState == 4 && xmlhttp.status == 200) {
        document.getElementById("myDiv").innerHTML = xmlhttp.responseText;
    }
}

// 打开服务器链接
xmlhttp.open("POST", "/ajax/", true);

// 向服务器发送强求
xmlhttp.send();

解析内容

var xmlhttp;
if (window.XMLHttpRequest) {
    xmlhttp = new XMLHttpRequest();
} else {
    xmlhttp = new ActiveXObject("Microsoft.XMLHTTP");
}

xmlhttp.onreadystatechange = function() {
    // 解析响应内容
    if (xmlhttp.readyState == 4 && xmlhttp.status == 200) {
        document.getElementById("myDiv").innerHTML = xmlhttp.responseText;
    }
}

xmlhttp.open("POST", "/ajax/", true);
xmlhttp.send();

渲染网页

var xmlhttp;
if (window.XMLHttpRequest) {
    xmlhttp = new XMLHttpRequest();
} else {
    xmlhttp = new ActiveXObject("Microsoft.XMLHTTP");
}

xmlhttp.onreadystatechange = function() {
    if (xmlhttp.readyState == 4 && xmlhttp.status == 200) {
        // 更改网页内容
        document.getElementById("myDiv").innerHTML = xmlhttp.responseText;
    }
}

xmlhttp.open("POST", "/ajax/", true);
xmlhttp.send();

2. Ajax分析方法

2.1 分析案例

  • 微博 (weibo.cn)

  • Ajax 的请求类型:xhr

  • 如果 Request Headers 中有一个信息为XMLHttpRequest,则此请求就是 Ajax 请求

    • 以 getIndex 开头的请求

  • 可以在 Preview 查看响应的内容

  • 也可以在 Response 查看真实返回的数据

2.2 过滤请求

  • 点击 Network 中的 XHR 选项,显示所有的 Ajax 请求

3. Ajax分析与爬取实战

  • 爬取 Scrape | Movie

    • 数据请求是通过 Ajax 实现的

    • 页面内容通过 JavaScript 渲染出来的

    • 只是呈现样式是一样的

    • 与 2.5(Scrape | Movie)不同

3.1 爬取目标

  • 爬取电影的名称、封面、类别、上映时间、评分、剧情简介等内容

  • 分析页面数据的加载逻辑

  • 用 requests 实现 Ajax 数据的爬取

  • 将每部电影数据分别保存到 MongoDB 数据库

3.2 初步探索

import requests

url = "https://spa1.scrape.center/"
html = requests.get(url).text

print(html)
  • 获取到的 html 资源较少

  • 整个页面都是JavaScript渲染得到的,浏览器执行了HTML中引用的JavaScript文件,JavaScript通过调用一些数据加载和页面渲染方法,才最终呈现出浏览器中的显示效果

  • 数据一般是通过Ajax加载的,JavaScript在后台调用Ajax数据接口

3.3 爬取列表页

分析

  • 请求URL的limit恒定为10,offset为已经已经翻过的电影数量(( 当前页数 − 1 ) ∗ 10 (当前页数-1)*10(当前页数−1)∗10)

  • 版权声明:本文为CSDN博主「His Last Bow」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

  • 原文链接:https://blog.csdn.net/BlackOrnate/article/details/134735396

  • 根据响应内容可以发现所需数据皆在其中

实现

基础配置
import logging

logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s %(levelname)s: %(message)s')

INDEX_URL = "https://spa1.scrape.center/api/movie/?limit={limit}&offset={offset}"
爬取页面内容(获取页面的JSON内容)
import requests

def scrape_api(url):
    logging.info(f"scraping {url}...")
    try:
        response = requests.get(url)

        if response.status_code == 200:
            return response.json()
        logging.error(
            f"Status code: {response.status_code} while scraping {url}")
    except requests.RequestException:
        logging.error(f"Error while scraping {url}", exc_info=True)
爬取列表页(爬取指定列表页)
LIMIT = 10

def scrape_index(page):
    url = INDEX_URL.format(limit=LIMIT, offset=LIMIT * (page - 1))
    return scrape_api(url)

合并

import logging
import requests

logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s %(levelname)s: %(message)s')

INDEX_URL = "https://spa1.scrape.center/api/movie/?limit={limit}&offset={offset}"
LIMIT = 10


def scrape_api(url):
    logging.info(f"scraping {url}...")
    try:
        response = requests.get(url)

        if response.status_code == 200:
            return response.json()
        logging.error(
            f"Status code: {response.status_code} while scraping {url}")
    except requests.RequestException:
        logging.error(f"Error while scraping {url}", exc_info=True)


def scrape_index(page):
    url = INDEX_URL.format(limit=LIMIT, offset=LIMIT * (page - 1))
    return scrape_api(url)

3.4 爬取详情页

分析

  • url:最后的一个参数为此电影的id

  • 电影的id:Ajax请求返回的数据中含有电影对应的id

实现

爬取详情页
DETAIL_URL = "https://spa1.scrape.center/api/movie/{id}"


def scrape_detail(id):
    url = DETAIL_URL.format(id=id)
    return scrape_api(url)
串联调用
TOTAL_PAGE = 10


def main():
    for page in range(1, TOTAL_PAGE + 1):
        index_data = scrape_index(page)

        for item in index_data.get("results"):
            id = item.get("id")
            detail_data = scrape_detail(id)
            logging.info(f"detail data {detail_data}")
            

if __name__ == "__main__":
    main()

合并

import logging
import requests

logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s %(levelname)s: %(message)s')

INDEX_URL = "https://spa1.scrape.center/api/movie/?limit={limit}&offset={offset}"
DETAIL_URL = "https://spa1.scrape.center/api/movie/{id}"
LIMIT = 10
TOTAL_PAGE = 10


def scrape_api(url):
    logging.info(f"scraping {url}...")
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.json()
        logging.error(
            f"Status code: {response.status_code} while scraping {url}")
    except requests.RequestException:
        logging.error(f"Error while scraping {url}", exc_info=True)


def scrape_index(page):
    url = INDEX_URL.format(limit=LIMIT, offset=LIMIT * (page - 1))
    return scrape_api(url)


def scrape_detail(id):
    url = DETAIL_URL.format(id=id)
    return scrape_api(url)


def main():
    for page in range(1, TOTAL_PAGE + 1):
        index_data = scrape_index(page)

        for item in index_data.get("results"):
            id = item.get("id")
            detail_data = scrape_detail(id)
            logging.info(f"detail data {detail_data}")


if __name__ == "__main__":
    main()

3.5 保存数据(MongoDB)(后期补充)


猜你喜欢

【Python】使用Python编写并实现一个具备人工智能的聊天机器人
聊天机器人是一种人工智能,它通过应用程序或消息来模拟与用户的对话。本文我们将使用Pytho的chatterbot库来实现聊天机器人。该库生成对用户输入的自动响应。响应基于库中实现的机器学习算法。机器学习算法使聊天机器人在收集用户响应时更容易随着时间的推移改进和优化响应。这些功能使聊天机器人更容易通过不同的移动应用程序和网站进行对话。它会保存来自用户的数据并随着时间的推移,聊天机器人响应的准确性会提高。创建功能聊天机器人的步骤:1、创建一个聊天机器人:这是使用create_bot函数完成的。该函数
发表于:2024-01-22 浏览:274 TAG:
【Python】如何使用Python实现二分查找算法
如何使用Python实现二分查找算法?二分查找算法,也称为折半查找算法,是一种高效的查找算法。它适用于有序的数组或列表,通过将目标值与数组中间位置的元素进行比较,从而缩小查找范围。下面将介绍如何在Python中实现二分查找算法,并提供具体的代码示例。算法思路:将目标值与数组中间位置的元素进行比较;如果相等,则返回元素位置;如果目标值大于中间位置的元素,则在右半部分继续查找;如果目标值小于中间位置的元素,则在左半部分继续查找;不断将查找范围缩小一半,直到找到目标值或者查找范围为空。代码实现:下面是
发表于:2024-01-16 浏览:294 TAG:
【Python】如何在Python中进行日志处理和调试的最佳实践和技巧
如何在Python中进行日志处理和调试的最佳实践和技巧引言在编写大型Python应用程序时,日志处理和调试是非常重要的,它们能够帮助我们追踪问题、诊断错误和改进代码。本文将介绍在Python中进行日志处理和调试的最佳实践和技巧,以及具体的代码示例。使用标准库loggingPython内置了一个日志处理模块-logging,它提供了一套全面的API来处理日志记录,使用起来非常方便。下面是一个基本的日志记录示例:import logging创建一个日志器logger = logg
发表于:2024-01-20 浏览:368 TAG:
【Python】如何在Python中进行数据可靠性存储和恢复
如何在Python中进行数据可靠性存储和恢复在开发Python应用程序时,数据的可靠性是一个非常重要的考量因素。合理的数据存储和恢复策略可以防止数据丢失、提高应用程序的稳定性。本文将介绍在Python中进行数据可靠性存储和恢复的几种常用方法,并提供具体的代码示例。数据存储的几种方式(1)文本文件存储:将数据以文本的形式存储到文件中。这种方式简单易实现,适用于小规模的数据。但是,由于文本文件存储的结构比较简单,不适用于复杂的数据结构。代码示例:def save_to_file(data,
发表于:2024-01-20 浏览:298 TAG:
【Python】图形绘制利器——matplotlib安装教程
图形绘制利器——matplotlib安装教程一、简介matplotlib是一个功能强大的Python绘图库,用于生成各种类型的图形,包括折线图、散点图、柱状图、饼图等。它的安装非常简单方便,本文将介绍如何安装matplotlib并给出具体的代码示例。二、安装matplotlib安装Python首先,确保你的电脑已经安装了Python。可以在Python官网(https://www.python.org/downloads/)上下载并安装最新版本的Python。安装pipPip是Python的包管
发表于:2024-01-12 浏览:313 TAG:
【Python】Python中使用len函数的用法和常见应用场景
Python中len函数的用法和应用场景在Python中,len函数是用于获取对象的长度或项数的内置函数。len函数主要用于字符串、列表、元组、字典和集合等数据类型,通过返回一个整数来表示对象的长度或者项数。在本文中,我们将详细介绍len函数的用法和应用场景,并给出具体的代码示例。字符串(str)类型在Python中,字符串是由一系列字符组成的对象,可以使用len函数获取字符串的字符数。下面是一个示例代码:string = "Hello, World!&q
发表于:2024-01-15 浏览:321 TAG:
【Python】Django的优势与特点:为什么选择它作为Web开发框架
Django是一个高效、健壮、易于扩展的Python Web开发框架。自从2005年问世以来,Django已经成为了很多企业级应用领域的首选框架。那么,Django为什么如此受欢迎呢?这篇文章将会深入分析Django的优势和特点,并为大家提供一些具体的代码示例。一、Django的优势易于上手Django是一个非常易于使用的框架。它提供了一个简单并易于理解的架构。因此,即使是初学者也能够快速掌握Django的基本知识。Django的API文档也非常完整,可以帮助开发者更快地学习。自带Web服务器D
发表于:2024-01-19 浏览:405 TAG:
【Python】如何在系统中安装pandas库
快速入门:Python安装pandas库的方法,需要具体代码示例一、概述Python是一种广泛使用的编程语言,它拥有强大的开发生态系统,其中包括许多实用的库。而pandas是其中一款非常受欢迎的数据分析库,它提供了高效的数据结构和数据分析工具,使得数据处理和分析变得更加简单。本文将介绍如何在Python中安装pandas库,并提供相应的代码示例。二、安装Python在安装pandas库之前,首先需要安装Python。Python官方网站提供了最新版本的Python的安装包,可以根据自己的操作系统
发表于:2024-01-09 浏览:300 TAG:
【Python】Pandas轻松读取SQL数据库中的数据
数据处理利器:Pandas读取SQL数据库中的数据,需要具体代码示例随着数据量的不断增长和复杂性的提高,数据处理成为了现代社会中一个重要的环节。在数据处理过程中,Pandas成为了许多数据分析师和科学家们的首选工具之一。本文将介绍如何使用Pandas库来读取SQL数据库中的数据,并提供一些具体的代码示例。Pandas是基于Python的一个强大的数据处理和分析工具。它提供了丰富的数据结构,如Series和DataFrame,以及各种各样的功能,例如数据清洗、过滤、统计、可视化等。同时,Panda
发表于:2024-01-09 浏览:322 TAG:
【Python】查看pandas版本的方法
如何查看pandas版本信息,需要具体代码示例Pandas是Python中一个十分受欢迎的数据处理库,广泛应用于数据分析、数据清洗和数据转换等领域。在使用pandas之前,我们通常需要了解当前所安装的pandas版本以确保我们使用的是最新版本或兼容的版本。本文将介绍如何查看pandas版本信息,并提供具体的代码示例。要查看pandas版本信息,我们可以使用pandas库中提供的__version__属性。下面是一段简单的示例代码:import pandas as 
发表于:2024-01-10 浏览:309 TAG: