维基百科:失效链接

(重定向自Wikipedia:LINKROT

同多数大型网站一样,维基百科也时常遭遇失效链接这一现象,即常用作参考和引用的外部链接,由于所引用的网站消失、变更内容或者移动,导致内容变得不相关或者链接直接损坏。这对维基百科的可靠性列明来源的要求来说,是个极大的威胁。

防止失效链接显然比修复或减少失效链接要容易得多。因此,对于失效链接的防止巩固了百科全书。该指导给出了预防失效链接的一些策略。这其中包括使用网络存档服务,以及审慎地使用引用模板。

但是,失效链接不可能完全被根除,因此该指引还给出如何减少失效链接的方法,如寻找之前的存档链接和使用替代来源。

请不要仅仅因为来源链接失效,就删除事实性的信息。 Wikipedia:可供查證方针并没有要求所有信息都需有效链接佐证,也没有要求来源必须来自网络。

除了在外部链接部分,未用来支持条目内容的网址外,不要仅仅因为网址失效,就删除它。有相关的复原、修复选项和工具。

防止链接失效

当你撰写条目时,可以采取多种方式防止链接失效。首先,你可以尽可能多地使用引用模板中的参数,记录参考的作者、来源、出版者、发布日期等信息,而不是简单地放置一个链接。如果将来链接失效,这些额外的信息可以帮助其他维基百科人(编者或读者)找到原始文本的新来源,无论是来自网络还是印刷资料。如果只有一个简单的URL地址,这就不太可能了。本地或者学校的图书馆是寻找线下信息的好去处。许多当地图书馆有室内的查阅处,或者电子数据库、馆内借阅协议,这样一些难以查找的来源变得更易取得。

网络存档服务

网络存档服务可以存档网页的目前状态,供以后查阅。最常用的服务有:Wayback Machine(经常自行主动抓取)和 archive.is。这两个服务都可以按用户请求保存页面。此外,搜尋引擎提供的頁庫存檔功能也能用來存取某些失效連結,不過需注意搜尋引擎也會定期清除放置過久的網頁存檔。这些服务都在收集和存储网络页面,以防将来原页面被移动、修改、删除或者需要付费访问。当引用页面极为不稳定或者时常变动时,比如时效性很强的新闻报道或者财务困难的公司支持的页面,网络存档的重要性愈发凸显。一旦你找到了网络页面的存档网络地址,只需要在引用模板中加入archive-url=archive-date=参数标明存档的URL和存档时间即可。模板会自动将存档链接加入到参考中。 例如:

不过,并不是所有的网络页面都可以存档。网络管理员或者出版商可能会使用robots.txt拒绝存档,或者用复杂的JavaScriptflash和其他代码使得页面内容难以轻易被复制。在此种情况下,可以采用存储数据的替代方案。有時存檔服務所在的國家的IP可能會被一些網站拒絕访问,又或者某些网站设立了登录墙login wall),造成存檔失敗或存檔到跳轉頁面,此時建議使用別的存檔服務英语Wikipedia:List of web archives on Wikipedia

网页存档服务对比

网页存档服务对比

以下列出上面提到的三个存档服务的详细特征。“书签”提供一个便于使用的书签小程序,“格式”提供URL存档格式,而“存在”则给出如何构造URL寻找已有链接的存档。

  • Wayback MachineWP:WAYBACK
    • 书签javascript:void(open('https://web.archive.org/save/'+document.location))
    • 格式https://archive.org/web/YYYYMMDDHHMMS/URL
    • 存在https://archive.org/web/*/URL(也可以使用通配符 * 匹配 URL 前缀);bot可使用API
    • 支持 HTML、PDF 和纯文本等多种格式,另有一个通用的存档库可以自行上载文件。
    • 具有主动爬虫功能,抓取和访问均受 robots.txt 限制(因此已经抓取的页面也可能无法访问)。
  • WebCiteWP:WEBCITE
    • 书签javascript:void(open('http://www.webcitation.org/archive?url='+encodeURIComponent(document.location)+'&email=USER_EMAIL_HERE'))
      • 请在实际使用时将USER_EMAIL_HERE改为实际邮件地址。
    • 格式http://www.webcitation.org/query?url=URIEncode(URL)&date=YYYY-MM-DD
    • 存在:按格式请求,但不指定日期。
    • 处理完成后会发送邮件到指定的邮件地址。仅在抓取时受 robots.txt 限制。
  • archive.isWP:ARCHIVEIS英语WP:ARCHIVEIS
    • 书签javascript:void(open('https://archive.fo/?run=1&url='+encodeURIComponent(document.location)))
    • 格式http://archive.is/URL; http://archive.is/时间/URL 时间格式
      • 注意 archive.is 会对于 URL 的不同 #fragment 后缀分开看待。
    • 存在:对 URL 使用不带时间的格式;另可以使用通配符 * 匹配子域名和 URL 前缀。对Bot支持Memento Project API。
    • 支持 HTML 和纯文本,保存样式、图像、脚本和网页截图,以及保存脚本请求的内容。不支持 PDF,存档大小限制 50M。
    • 能够将经由 webcache 或其他存档服务商存档的内容分进原页面的存档列表,适合在原始资料刚刚消失但还能在网页快照中找到时使用。
    • archive.is会不带"robot"标签抓取内容,因此对于在美国拥有版权的内容可能构成未经许可转载,以至于违反DMCA。对于这些内容请谨慎使用。

可替代方案

大多数引用模板里含有quote=参数,此参数用来存放从来源材料中引用的少量文本。这对于没有网络存档可用的来源极其有用,这亦可防患选定的网络存档服务出现问题。 例如:

当使用quote参数存储参考文本时,请尽可能选择最精炼、关系最密切的材料。将来源的所有文本都存储进来不符合合理使用方针,因此请务必选取最重要的、最能支持文中论述的部分。

引述文本也可以在原来源消失的时候,帮助其他人更方便地寻找其他在线版本来源。

如果可用的话,公有领域的材料可以放置到维基文库中。

修复失效链接

还有很多方法可以修复失效链接。一般来说,网页因为迁移到新的服务器上,或是站点维护会被移动。网站目录可以帮你方便地查找到移动的页面。在搜索引擎中对站内进行标题查找,也可能会找到该页。例如上例,可以使用Google这样搜索:site:http://freakonomics.blogs.nytimes.com/ "Wall Street Journal Paywall Sturdier Than Suspected"

如果这样还不行,请前往存档服务寻找该页的存档版本。

减少失效链接

有时,所有修复链接的尝试都会以失败告终。此种情况下,请考虑寻找替代来源替换之前的失效链接,这样就不至于影响到条目的可查证性。有关常见话题的替代来源十分容易寻找。可能只需要简单地使用搜索引擎查询一下,就能够找到一个合适的替代来源,但是请特别注意,不要引用维基百科及其镜像站点的内容,这将有损可供查证的原则。

但是有的时候无法找到合适的替代来源,或者需要付出更多的查找精力,例如前往图书馆或者使用需付費的数据库。在此种情况下,可以前往Wikipedia:互助客栈询问其他维基百科编者。或者,你也可以尝试联系专家,或者对与之相关专题有兴趣的编者。

保留失效链接

一个失效、未存档的链接可能还有用处。这样的链接至少意味着,相关信息(可能)过去曾经是可供查证的,而此链接可能提供给有更多资源或更为专业的用户足够多的信息去寻找参考资料。而且失效链接可能会自行恢复。有了失效链接,也可以查出它是否在其他地方被引用过,或者可以联系该来源的最初负责人。例如,如果 http://www.cs.yale.edu/~EliYale/Defense-in-Depth-PhD-thesis.pdf[失效連結] 失效,那么编者可以联系耶鲁大学计算机科学部门。请直接在失效链接后放置{{dead link}}模板进行标识。

参见