上云无忧 > 文档中心 > 天翼云爬虫管理中回源HOST、过滤参数、网站白名单等概念解析
爬虫管理
天翼云爬虫管理中回源HOST、过滤参数、网站白名单等概念解析

文档简介:
回源HOST: 回源host决定回源请求访问到源站上的具体某个站点。 例1:源站是域名源站为www.a.com,回源host为www.b.com,那么实际回源是请求到www.a.com解析到的IP,对应的主机上的站点www.b.com。 例2:源站是IP源站为1.1.1.1,回源host为www.b.com,那么实际回源的是1.1.1.1对应的主机上的站点www.b.com。
*产品来源:中国电信天翼云。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

CNAME记录

CNAME ( Canonical Name ),即别名,用于把一个域名解析到另一个域名,当DNS系统在查询CNAME 左面的名称的时候,都会转向CNAME右面的名称再进行查询,一直追踪到最后的PTR或A名称,成功查询后才会做出回应,否则失败。例如,您有一台服务器,使用docs.example.com访问,您又希望通过documents.example.com也能访问该服务器,那么就需要在您的DNS解析服务商添加一条CNAME记录,将documents.example.com指向docs.example.com,添加该条CNAME记录后,所有访问documents.example.com的请求都会被转到docs.example.com,获得相同的内容。

DNS

DNS即Domain Name System,是域名解析服务的意思。它在互联网的作用是:把域名转换成为网络可以识别的ip地址。人们习惯记忆域名,但机器间互相只认IP地址,域名与IP地址之间是一一对应的,它们之间的转换工作称为域名解析,域名解析需要由专门的域名解析服务器来完成,整个过程是自动进行的。比如:上网时输入的www.baidu.com会自动转换成为220.181.112.143。

常见的DNS解析服务商有:阿里云解析,万网解析,DNSPod,新网解析,Route53(AWS),Dyn,Cloudflare等。

边缘安全节点

边缘安全节点是相对于网络的复杂结构而提出的一个概念,指距离最终用户接入具有较少的中间环节的网络节点,对最终接入用户有较好的响应能力和连接速度。其作用是将访问量较大的网页内容和对象保存在服务器前端的专用Cache设备上,以此来提高网站访问的速度和质量。

回源HOST

回源host决定回源请求访问到源站上的具体某个站点。

例1:源站是域名源站为www.a.com,回源host为www.b.com,那么实际回源是请求到www.a.com解析到的IP,对应的主机上的站点www.b.com。

例2:源站是IP源站为1.1.1.1,回源host为www.b.com,那么实际回源的是1.1.1.1对应的主机上的站点www.b.com。

协议回源

协议回源指回源时使用的协议和客户端访问资源时的协议保持一致,即如果客户端使用 HTTPS 方式请求资源,当CDN节点上未缓存该资源时,节点会使用相同的 HTTPS 方式回源获取资源;同理如果客户端使用 HTTP 协议的请求,CDN节点回源时也使用HTTP协议。

过滤参数

过滤参数是指当URL请求中带“?”并携带参数请求到CDN节点的时候,CDN节点在收到该请求后可根据配置决定是否将该带参数的URL请求回源站。当开启过滤参数时,该请求到CDN节点后会截取到没有参数的URL向源站请求。并且CDN节点仅保留一份副本。如果关闭该功能,则每个不同的URL都缓存不同的副本在CDN的节点上。

示例:

客户端发起请求“http://www.test.com/a.jpg?x=1”到CDN节点

开启“过滤参数”功能:

CDN节点收到客户端请求后,向源站发起请求为:“http://www.test.com/a.jpg” (忽略参数x=1),待源站响应“http://www.test.com/a.jpg”请求指向的内容、且CDN节点获取到该内容后,CDN节点保留一份所获取内容的副本,然后向终端返回该内容。此后,在该内容副本的有效期内,客户端所有类似“http://www.test.com/a.jpg?参数” 的请求,CDN节点均返回存储的“http://www.test.com/a.jpg”副本。

关闭“过滤参数”功能:

对于所有类似“http://www.test.com/a.jpg?参数”的请求,每个不同的URL都缓存不同的副本在CDN的节点上。例如:“http://www.test.com/a.jpg?x=1”和“http://www.test.com/a.jpg?x=2”会缓存两份副本,根据源站返回的内容,这两份副本可能相同,也可能不同。

Web安全

相关Web应用层面的安全问题与事件,包括各种Web组件、协议、应用等。

正则防护

经验规则集,自动为网站防御SQL注入、XSS跨站、Webshell上传、命令注入、后门隔离、非法文件请求、路径穿越、常见应用漏洞攻击等通用的Web攻击。

网站白名单

通过设置网站白名单,可以让满足条件的请求不经过任何Web应用防火墙防护模块的检测,直接访问源站服务器。

IP黑名单

支持一键阻断来自指定IP地址、IP地址段以及指定地理区域的IP地址的访问请求。

0day漏洞

0Day是指在系统商在知晓并发布相关补丁前就被掌握或者公开的漏洞信息。

CC安全防护

根据访问者的URL,频率、行为等访问特征,智能识别CC攻击,迅速识别CC攻击并进行拦截,在大规模CC攻击时可以避免源站资源耗尽,保证企业网站的正常访问。

防敏感信息泄露

帮助网站过滤服务器返回内容(异常页面或关键字)中的敏感信息(例如身份证号、银行卡号、电话号码和敏感词汇),脱敏展示敏感信息或返回默认异常响应页面。

网络爬虫

又称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

挖矿

借助大量计算能力来计算产生虚拟货币。

相似文档
  • 智能|安全可靠的防护能力: 机器学习结合威胁情报,构建一体化爬虫防护,精准管理Bot流量。 特色|特色的安全防护: 敏感信息回显脱敏,保护用户的身份证号、手机号和卡号等敏感信息。 撞库攻击防护,防止网站撞库攻击,保护网站用户数据安全。 全面|多种场景防护能力: 结合各类终端爬虫行为特点,针对多种业务场景定义防护策略。
  • 合法爬虫: 用户可以通过配置该功能,使合法爬虫(例如搜索引擎、市场分析等)可以正常获取网站数据,也可以基于业务需求对特定的爬虫进行处置。 威胁情报库: 依托天翼云网络安全经验和大数据情报,精准识别拨号池IP、IDC机房IP、恶意扫描工具IP等多种维度的爬虫威胁情报规则,方便您在全域名或指定路径下设置阻断恶意爬虫的访问请求。
  • 爬虫管理把爬虫管理能力赋能到边缘云安全节点,协助客户积极管控肆虐的BOT流量,对抗BOT流量背后的黑灰产产业链,同时提供防御撞库拖库、敏感信息泄露等多种业务安全风险,防止用户个人账号信息被盗,及引发精准诈骗风险,保证客户业务内容的安全。
  • 金融平台对业务可用性要求非常高,同时需要保障用户个人数据和资金安全,一旦发生安全问题,也可能会引发投资人恐慌,对公司造成很大的影响。同时对新注册用户有一定的理财优惠,如年收益率翻倍、发现金红包等,容易被黑产觊觎爬取,使得优惠无法发放到正常目标客户,极大损害了商家的利益。
  • 政企行业的门户网站作为政府、企业的互联网信息服务的重要渠道,有着很重要的作用,要求网站需要保证稳定的运行。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部