涉及到网站设(shè)计(jì)就不得不提一(yī)下网(wǎng)站恶意(yì)镜像(xiàng)了。镜(jìng)像我们(men)的网(wǎng)站就像是(shì)一面镜子一样,自己的网站有什么东(dōng)西,对方网站就(jiù)会同步出现(xiàn)什么东西,比如你自己(jǐ)网站新增了一篇新闻后,只要有人访问了该篇新闻(wén),那么(me)镜像(xiàng)你的网站(zhàn)也会(huì)同步更新上去了该篇新闻,这采(cǎi)集网站还不太(tài)一样,是不是(shì)很讨厌吧。
什么是恶(è)意镜像的网站(zhàn)?
镜像网站指的是(shì)和你的(de)网站基(jī)本一样、并且(qiě)实时同步的(de)其它网(wǎng)站(zhàn)。就(jiù)像照镜子一样,所以名为镜像。
有的镜像网站是没有恶意的,很可能(néng)是你自己设置的,为了(le)方便用户能从多(duō)个域名访问网站(zhàn),被封了一个(gè),还有其它的域名。比如(rú)著(zhe)名的草(cǎo)榴社区,好像就有(yǒu)很多镜像可以访(fǎng)问。
有(yǒu)的镜像,也就(jiù)是这里讨论的(de)镜像,是不(bú)怀(huái)好意的,通常(cháng)是(shì)别人设置(zhì)的,要么为了(le)负面SEO你的网(wǎng)站,要么为了利用你(nǐ)的内容(róng)获得(dé)排名,然后把用(yòng)户转向到敏(mǐn)感、非法(fǎ)内容网站上去。
网(wǎng)上有(yǒu)的文章把采(cǎi)集和镜像混在一起。虽然表现形式差不多,但(dàn)严格来(lái)说,采(cǎi)集和镜像实(shí)现方法、表现形式是有区(qū)别的。
采集的网站一(yī)般是提前抓取别人网站的内容(róng),放(fàng)入自己数据库,再用程序调(diào)用到页面(miàn)上。被采集网站(zhàn)有新(xīn)内(nèi)容(róng)时(shí),采集网站并不能实时同步更新,要再采集之(zhī)后才能出现。一(yī)旦被采(cǎi)集,内容已经在对(duì)方数据库里了(le),从技术上是(shì)无法阻止采集网站显示这些内容的。这篇帖子说的不(bú)是这种。
镜像网站并不事先抓取内容,而(ér)是有人访(fǎng)问(wèn)网站时,实时从(cóng)被镜像的网站调取(qǔ)内容,做些处(chù)理(替(tì)换URL、文字,加文(wén)字、加JS等(děng)),然(rán)后实时显示。被镜像的(de)网站有任何更新(xīn),镜像(xiàng)网站是实时同步的。
网上有卖用于镜像网站的小偷(tōu)程序(xù)的。小偷程序通常(cháng)也可以(yǐ)用来做采集。为了不给他们做宣传(chuán),就不提名字了(le)。从他们的官(guān)网摘取(qǔ)几条程序功能,有助于理解后面(miàn)的内(nèi)容:
全自动分析,内外链接(jiē)自动转换、图片(piàn)地址(zhǐ)、css、js,自动分(fèn)析CSS内的图(tú)片
内置强大替换和过滤功能,标签过滤、站内外过滤、字符串替换、等等
伪原(yuán)创,近义词替换有利于seo(什么(me)是网(wǎng)站(zhàn)SEO)
增(zēng)加URL路由,实现全站URL变换,个(gè)性化本站(zhàn)URL地(dì)址
超级模板增加(jiā)移动模板、自定(dìng)义栏目功能
增加自动获取301、302重(chóng)定向的采集,解决跳WWW,跳https采(cǎi)集
代理IP、伪造IP、随机(jī)IP、伪造user-agent、伪造referer来路、自定义cookie,以便应对防(fáng)采集措施
其实我(wǒ)是挺迷惑,网(wǎng)信办(bàn)为什(shí)么不责令关闭卖小偷程序的(de)网站,这种网站才是真正(zhèng)该关的,而不是另外一些网站。
被镜像(xiàng)有什么危险?
从SEO角度看,权重不高的小站、新站,被(bèi)镜像意味着有其它网站和你的网站内容基本一样,搜索引擎有可能(néng)认为你的网站不是原版,镜像网站才是,所(suǒ)以(yǐ)把排名、流量(liàng)给了镜像(xiàng)网站。
对(duì)有一定历史、权重(chóng)的网站,镜像(xiàng)网站取代原版网站的可能性(xìng)微乎其微。但从心(xīn)情(qíng)角度(dù)考虑,被(bèi)别人(rén)镜像(xiàng),内(nèi)容被别人偷(tōu)走,即使没有其它明显后果,也还(hái)是(shì)挺烦人的(de)一件事。
另一个(gè)烦人的事是,镜像网站一般来说并不是要和你提供同样的产品或(huò)服务,而是把用户转到赌(dǔ)博、色(sè)情(qíng)等服务上去。有的是通过JS把赌博、色情内容显示给用户,有的直接把(bǎ)用户转向到另外的(de)网(wǎng)站上去。
怎(zěn)样发现自(zì)己网站被镜像了有时候(hòu)注意到被镜(jìng)像了是因(yīn)为自(zì)己网站排(pái)名下降,怀疑有人(rén)负面SEO。有时候是搜索品牌名称,看到镜像网站。已经知道自己被镜像了好办,直接看下面怎么(me)处理部分。
很多(duō)站长(zhǎng)则完全不知道自(zì)己网站是否(fǒu)被镜像了。有几个我常用的(de)检查方法。
一是百度统计后台:
受访(fǎng)域名(míng)部分(fèn)列出了使用(yòng)相同百(bǎi)度统计代码的(de)域名。其中出现快照、百度/谷(gǔ)歌翻(fān)译等(děng)是正常的,但出现一些奇奇怪怪的域名就(jiù)要查(chá)看(kàn)一下了,比如上图(tú)里的第5、7、8个,访(fǎng)问一(yī)下就知道都是镜(jìng)像SEO每(měi)天一帖,引诱用(yòng)户赌博的网站(zhàn),然后站长把(bǎ)SEO每(měi)天一帖的统计代码(mǎ)也照抄过去了。
看看上面列出的小偷出现功能(néng)就知道,其实统(tǒng)计代码很容易替换或删除的(de)。所以在受访域(yù)名只能看到一小部分镜像网站(zhàn)。
第(dì)二是(shì)搜索网站的特征句子。最容易想到的是(shì)网(wǎng)站品牌名称(chēng)、首页标题等,确(què)实可以发(fā)现一些镜(jìng)像网站。但(dàn)如前所述,品牌名(míng)绝大多数是会被替换(huàn)的,所以我更(gèng)喜欢(huān)搜索一些页(yè)面(miàn)上的特征句(jù)子,比(bǐ)如本博客最上面的副标(biāo)题:Zac的(de)SEO博客(kè),坚持12年,优化成为(wéi)生活。