25
2025
04
常见的http状态码出现原因200、301、302、403、404、500、503
101 websocket协议websocket长连接协议,通常用来即时通讯。如视频会议、直播、弹幕等200 请求被成功处理成功请求301 永久性重定向比如建设一个网站后,将网站的url变换了,重新申请一个域名,但是希望之前的用户访问之前url仍然可以访问到,就可以做一个重定向新的url下面。比如京东最早域名www.360buy.com名重定向到现在www.jd.com302 临时性重定向比如用户在未登录时访问个人中心页面,这时可以临时重定向到登录的url。304 Not Modified当客户
作者:hqy | 分类:技术文章 | 浏览:141 | 评论:0
25
2025
04
AI爬虫拖垮整个网站!开发者崩溃:禁了整个巴西的访问,才勉强救回来
时下,AI 爬虫把各种网站折腾得不轻,不是让其崩了就是卡了,导致运行也变得极为不稳定,哪怕更改了用于规定搜索引擎抓取工具可以访问网站上哪些网址的 robots.txt 文件、屏蔽已知的爬虫标识(User-Agent)、甚至过滤可疑流量,它们还是能绕过封锁,伪造身份、用住宅 IP 代理,怎么都拦不住......随着 AI 技术的快速迭代,不少小型开发商、开源开发者发出怒吼,他们称自己正被 AI 爬虫逼到崩溃边缘,而这究竟是怎么一回事?个人开发者:实在没办法的话,只能关服务器了身为技术教育者、AI
作者:hqy | 分类:技术文章 | 浏览:100 | 评论:0
25
2025
04
Scrapy:应对反爬虫机制
Scrapy是一个用于Python的快速、高层次的网络爬虫框架。它提供了强大的功能,使开发者能够轻松地构建爬虫,并能够处理各种常见的反爬虫机制。在爬取网站数据时,我们必须遵守法律法规和网站的robots.txt文件规定,尊重网站所有者的权益。然而,许多网站都采取了各种反爬虫机制来防止未经授权的数据抓取。因此,了解和应对这些反爬虫机制是必要的。以下是一些常见的反爬虫机制及其在Scrapy中的应对方法:检测并限制请求频率:有些网站会检测爬虫的请求频率,如果请求过于频繁,就会被暂时或永久封禁。Scra
作者:hqy | 分类:技术文章 | 浏览:108 | 评论:0
25
2025
04
Scrapy:网页抓取的神器,使用方法和注意事项详解!
信息的获取对于内容创作来说是至关重要的。但是,想要从海量的信息中筛选出有价值的内容并不是一件容易的事情。这时候,一个好用的网页抓取工具就能够帮助我们事半功倍。本文将为大家介绍一款强大的网页抓取神器——Scrapy,并详细讲解它的使用方法和注意事项。1. Scrapy简介Scrapy是一个为了爬取网站数据、提取结构性数据而编写的应用框架。使用Scrapy可以快速高效地抓取网页信息,并且支持多种数据格式导出。它基于Twisted框架,采用异步IO模型,具有高度定制化和可扩展性。2.安装Scrapy在
作者:hqy | 分类:技术文章 | 浏览:122 | 评论:0
25
2025
04
Python爬虫之Scrapy如何应对网站反爬虫策略
1.爬虫的基本概念爬虫:自动获取网站数据的程序,关键是批量的获取反爬虫:使用技术手段防止爬虫程序的方法误伤:反爬技术将普通用户识别为爬虫,如果误伤过高,效果再好也不能用成本:反爬虫需要的人力和机器成本拦截:成功拦截爬虫,一般拦截率越高,误伤率越高2.反爬虫的目的初级爬虫:简单粗暴,不管服务器压力,容易弄挂网站数据保护:具有知识产权的数据失控的爬虫:由于某些情况下,忘记或者无法关闭的爬虫商业竞争对手:防止被对手爬走了数据3.爬虫和反爬虫的经典应对场景(重点)4.随机更换User-Agent通过之前
作者:hqy | 分类:技术文章 | 浏览:90 | 评论:0
25
2025
04
爬虫之scrapy框架
一、认识scrapy框架 何为框架,就相当于一个封装了很多功能的结构体,它帮我们把主要的结构给搭建好了,我们只需往骨架里添加内容就行。scrapy框架是一个为了爬取网站数据,提取数据的框架,我们熟知爬虫总共有四大部分,请求、响应、解析、存储,scrapy框架都已经搭建好了。scrapy是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架,scrapy使用了一种非阻塞的代码实现并发的,结构如下:1、引擎(EGINE)
引擎负责控制系统所有组件之间的数据
作者:hqy | 分类:技术文章 | 浏览:98 | 评论:0
25
2025
04
Scrapy爬虫框架,入门案例(非常详细)「建议收藏」
目录一、概述二、Scrapy五大基本构成:三、整体架构图四、Scrapy安装以及生成项目五、日志等级与日志保存六、导出为json或scv格式七、一个完整的案例一、概述Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 后台也应用在获取API所返回的数据(例如 Amazon Associates Web Ser
作者:hqy | 分类:技术文章 | 浏览:109 | 评论:0
25
2025
04
Scrapy,一个强大的Python爬虫神器!
Scrapy,一个超级牛的Python爬虫框架。有了它,你可以轻松地从网页上抓取数据,就像是拿着个“数据吸尘器”,嗖嗖嗖地把网页上的内容都吸进来!初识ScrapyScrapy 是一个快速、高层次的网页抓取和网页解析框架,用于抓取网站并从页面中提取结构化的数据。你可以把它想象成一个流水线,网页内容从一头进去,你想要的数据从另一头出来,还帮你整理得整整齐齐的。安装Scrapy首先,你得有Python环境,这个就不用多说了吧。然后,用pip来安装Scrapy:pip install 
作者:hqy | 分类:技术文章 | 浏览:124 | 评论:0
25
2025
04
真是操你妈的,你爬站就爬站,频率放低一些就是了,非把服务器搞的都慢得不行,再爬你全家都死了!再爬你就爬到你妈坟前蹦迪!
真是操你妈的,你爬站就爬站,频率放低一些就是了,非把服务器搞的都慢得不行,再爬你全家都死了!再爬你就爬到你妈坟前蹦迪!Damn it. If you climb the station, just climb the station. Just lower the frequency. If you have to make the server too slow, your whole family will die! If you climb again, you will climb to
作者:hqy | 分类:技术文章 | 浏览:101 | 评论:0
24
2025
04
【BootCDN/Staticfile投毒分析】供应链投毒后,我们的选择还剩下哪些?
前言从早前的LNMP、OneinStack到XZ Utils,再到现在的Staticfile、BootCDN;供应链攻击总是让人猝不及防。纵观这些被攻击的项目,往往都是无处不在,经常被大家所使用,但是却并没有给提供者带来什么收入。在突然有一天,提供者感到疲惫不堪,却又迫于用户们的压力无法关停服务的情况下,突然有新的组织/个人来帮助一起进行开发或提供服务,甚至是直接的现金收购/服务赞助;在这种情况下,接受帮助自然是首选的方案。我认为建立有效的捐助途径不失为缓解这一问题的良方,正如AlmaLinux
作者:hqy | 分类:技术文章 | 浏览:116 | 评论:0
24
2025
04
申请 AnyFastCloud 的免费 IPv6 VPS 的图文教程
在上篇文章中,我讲解了 2023 年末新开的一家云服务器提供商 —— HokoHost。经过了我的博客发布和论坛介绍了之后,不到 1 小时就把库存抢光了。这篇文章就来介绍另外一个提供商 —— AnyFastCloud。这个云提供商是最近才建立的。这篇文章就来讲解如何去申请 AnyFastCloud 的免费 IPv6 VPS准备材料一枚邮箱申请步骤打开申请的网址:https://www.anyfastcloud.com/index.php?rp=/store/2us ,然后点击“立即订购
作者:hqy | 分类:VPS | 浏览:110 | 评论:0
24
2025
04
申请 HokoHost 的免费 IPv6 VPS 的图文教程
提示:目前网站在测试中,随时可能会变动准备材料一枚邮箱申请步骤打开:https://ca.hokohost.com/order/main/packages/kvm/?group_id=3 ,然后选择 Starter 计划,输入 VPS 的名称、主机名和密码,选择付款方式(随便选)。然后输入个人信息创建自己的账户,最后点击“Create account”按钮同意协议,然后点击“Continue”按钮确认订单,然后点击“Continue”按钮打开自己的邮箱,然后收取验证邮件选择支付方式(随
作者:hqy | 分类:VPS | 浏览:100 | 评论:0
24
2025
04
浅谈vpn、vps、Proxy以及shadowsocks之间的联系和区别
提到fq(现在应该说“科学上网”或者“爱国上网”),有几个词很常见,即vpn、vps、Proxy和shadowsocks。我刚接触翻墙那会儿,对这个词的意思非常混淆,傻傻分不清。想必不仅是我,不少新手应该都有过这样的困惑。这里,我们就在尽可能忽略那些晦涩难懂的技术细节的情况下,简单地讨论下这个问题。翻墙原理在讨论vpn、Proxy这些之前,我觉得有必要先提一下目前主流fq手段的实现原理。GFW实现网络封锁的手段主要有两种:dns劫持和ip封锁(除此之外,还有dns污染和关键词过滤,这里我们不讨论
作者:hqy | 分类:vpn | 浏览:110 | 评论:0
24
2025
04
IP、域名、DNS和VPS之间的关系
IP、域名、DNS和VPS之间的关系IP:相当于住房地址。公网IP在全世界都是唯一的,内网IP在内部也是唯一,不同内网可以有相同的内网IP。这概念应该很好理解:你家的住址(对应公网IP)在全世界范围内都是唯一可以直接定位的,但是小区的编号可以是相同的(对应内网IP),比如3号楼1单元203。域名:IP太难记了,于是有了域名,可以理解为人名。XX省XX市XX县XX小区XX单元XX号这样的地址,记起来很费劲,用“狗蛋的家”来表示,就容易记住了。一个地址可以住多个人,一个人也可以住在多个地址。因此一个
作者:hqy | 分类:VPS | 浏览:115 | 评论:0
24
2025
04
Hax VPS 白嫖教程
Hax这个网站提供了免费的IPV6 VPS,以及免费的网络虚拟空间的服务。本篇文章就来和大家分享白嫖Hax IPV6 VPS的过程及连接方法注册VPS打开官网,点击右上角的“Register”注册在Telegram上打开@HaxTG_bot,输入/getid命令获取自己的Telegram ID,复制粘贴到网页中,点击“Submit”按钮稍后会在Telegram上收到bot发来的验证码,输入验证码,设置密码,登录账号设置好VPS参数之后,点击“Create VPS”按钮等待1-3分钟,然后就出现了
作者:hqy | 分类:VPS | 浏览:123 | 评论:0
24
2025
04
介绍一个方便好用的CronTab定时器
介绍一个方便好用的CronTab定时器这是一个使用CronTab表达式的定时器,使用C++编写的,可以在指定时间点触发定时器事件,也可以在一段时间之后触发定时器事件。特点:对时间的表达能力强,毕竟CronTab表达式已经在Linux平台上广泛使用,久经考验。使用方便,一个头文件搞定一切,拷贝过去就可以使用,不依赖第三方库,Windows、Centos、Ubuntu、Mac都可以运行。一行代码添加一个定时器,可传入成员函数,携带自定义参数。精度高、误差不累积。性能好,对于定时器内的对象个数,时间判
作者:hqy | 分类:开源分享 | 浏览:96 | 评论:0
24
2025
04
软路由玩宽带双线叠加
家里两个宽带,都是联通的下行200Mbps,上行40M下行300Mbps,上行30Mbps最近玩了个宽带叠加,目前测速下来是下载626Mbps,上传96Mbps方法是使用ROS,整个网络是这样的NetGear R6300的端口映射数量最多只能有20个,早就不够用了,现在R6300退休了,当做备机。软路由是最近几年开始玩的,做到了:LEDE路由器富强,家里的网络就全在墙外了,手机电脑上都不用安装富强软件,更流畅RouterOS宽带叠加,目前两个宽带可以完美叠加RouterOS上的Kid Contr
作者:hqy | 分类:Network | 浏览:166 | 评论:0
24
2025
04
谷歌云服务器申请永久免费使用最新图文教程
✍️ 写在前面竟然才发现,原来最良心的竟然是 谷歌云(GCP),2023年9月21日 谷歌云 宣布每月 200 GB 免费标准层互联网数据传输,这200G流量配合 永久免费 的实例,白嫖真香 ? 。谷歌云 (Google Cloud)身为云服务器行业翘楚,从诞生以来一直以免费赠金的试用活动活跃在中文互联网上,关于谷歌云(GCP)的注册申请话题经久不衰 ?️ 。但在2020年谷歌云(GCP)作出了改变:免费服务时长由1年改为了3
作者:hqy | 分类:VPS | 浏览:136 | 评论:0
24
2025
04
记录一次与Linux病毒的斗争过程
记录一次与Linux病毒的斗争过程症状前阵子我的Centos7服务器(10.0.0.5)出问题了,表现如下:使用下列命令查看当前运行着哪些进程ps -elf结果发现了几个奇怪的进程比如.sshd
/tmp/gitlab使用以下命令查看最近被修改过的文件,以及大小[root@damogame dpkgd]# ls -alt /usr/bin | head -n 30
总用量 392772
dr
作者:hqy | 分类:Linux | 浏览:98 | 评论:0
24
2025
04
玩转云服务:Google Cloud谷歌云永久免费云服务器「白嫖」 指南
慷慨的海外云厂商还有很多,比如微软Azure、亚马逊AWS等。但对比了一圈后发现,原来最良心的竟然是谷歌云(Google Cloud,GCP):2023 年 9 月 谷歌云就宣布每月免费 200 GB 标准层互联网数据传输。这 200G 配合上 永久免费 的实例,可香否?本次分享,就带着大家在谷歌云上,跑通账号注册,申请一台虚拟机实例,完成服务器配置,体验谷歌的永久免费云服务。1.有哪些限制条件?身为云服务器行业翘楚,谷歌云(GCP)的免费体验活动还是相当慷慨的,新用户注册会
作者:hqy | 分类:VPS | 浏览:594 | 评论:0