我的梦想
不是每个人都应该像我这样去建造一座水晶大教堂,但是每个人都应该拥有自己的梦想,设计自己的梦想,追求自己的梦想,实现自己的梦想。梦想是生命的灵魂,是心灵的灯塔,是引导人走向成功的信仰。有了崇高的梦想,只要矢志不渝地追求,梦想就会成为现实,奋斗就会变成壮举,生命就会创造奇迹。——罗伯·舒乐
【Scrapy】Scrapy教程7——存储数据 【Scrapy】Scrapy教程7——存储数据
上一节我们对爬虫程序的默认回调函数parse做了改写,提取的数据可以在Scrapy的日志中打印出来了,光打印肯定是不行的,还需要把数据存储,数据可以存到文件,也可以存到数据库,我们一一来看。 存储数据到文件首先我们看看如何将数据存储到文件,
2025-04-23
【Scrapy】Scrapy教程6——提取数据 【Scrapy】Scrapy教程6——提取数据
前一小节我们拿到了页面的数据,那页面中那么多内容,我们想要其中的部分内容,该如何获取呢?这就需要对我们下载到的数据进行解析,提取出来想要的数据,这节就讲讲如何提取数据。 引入我们编辑保存下来的shouye.html文件看下,发现这是什么鬼,
2025-04-16
【Scrapy】Scrapy教程5——第一个Scrapy项目 【Scrapy】Scrapy教程5——第一个Scrapy项目
通过前几节的学习,我们已经了解了Scrapy的基本操作,下面我们开始第一个项目,我以本人的网址为例进行爬虫讲解,之所以用我自己的网站,是因为我这个网站本来就是做知识分享用的,共大家学习,不会去限制爬取,现在很多网站为了防止爬虫,都会做很多限
2025-04-16
SQLite数据库操作封装 SQLite数据库操作封装
功能描述 初始化时需传入数据库文件 提供执行单条sql语句的方法 提供执行sql文件的方法 执行单条sql或sql文件时,是自动打开数据库,执行后自动关闭数据库,若不需要该功能,可自行注释 self.__open_db()和self.__c
使用jieba快速提取文章关键词 使用jieba快速提取文章关键词
说到快速提取文章关键词,我在网上百度了下,推荐的方法基于两种,基于统计的关键词提取方法和基于机器学习的关键词提取方法。基于统计的关键词提取方法,是根据统计信息,如词频,来计算得到文档中词语的权重,按权重值排序提取关键词,相关的算法有TF-I
2024-12-05
【Scrapy】Scrapy教程4——命令行工具 【Scrapy】Scrapy教程4——命令行工具
上一节我们了解了如何安装Scrapy,安装后如何用呢?这节开始学习。在Scrapy中提供一个命令行工具,可以控制scrapy进行各种操作,实现不同功能。本节要先学习这个命令行工具,这样我们就能快速创建scrapy项目和爬虫程序,并进行相关调
【Scrapy】Scrapy教程3——Scrapy的安装 【Scrapy】Scrapy教程3——Scrapy的安装
前面了解了什么是Scrapy和其工作原理,下面先开始安装Scrapy。 版本说明本教程使用的Scrapy版本为2.11(目前最新的),需要使用Python3.8版以上的版本,支持CPython或PyPy的实现。 使用Python的pip安装
【Scrapy】Scrapy教程2——工作原理 【Scrapy】Scrapy教程2——工作原理
在学习Scrapy前,我们需要先了解其架构和工作原理,这样才能很好的去使用Scrapy。Scrapy的整体架构如下图所示,同时也标注出了其各个组件和数据流。 数据流Scrapy的数据流由引擎控制,流程如下: 引擎Engine从爬虫Spi
【Scrapy】Scrapy教程1——简介 【Scrapy】Scrapy教程1——简介
学python,玩爬虫的人,肯定绕不开一个流行的爬虫框架——Scrapy。Scrapy其发音为(/ˈskreɪpaɪ/),是一个开源、协作的框架,用于网络抓取和结构化数据提取,广泛应用与数据发掘、信息处理、历史存档、监测
Python环境安装 Python环境安装
Windows安装PythonWindows上安装Python很方便,直接到官网下载最新的Python安装包 进入官网,找到“Download Python x.xx.x”按钮,如下图 点击后会直接下Windows上的Python安装包,
2024-11-05