编者按:本文来自微信公众号“链闻ChianNews”,作者: Lynn Lee ,36氪经授权发布。
对于从未进入过暗网的人,一定很好奇暗网究竟长什么样?现在,有家大数据公司要揭开这个总与比特币和犯罪活动联系在一起的黑暗网络的秘密。这家大数据公司名为 Hyperion Gray,最近公布了一张暗网地图,让人们对这个经常被人误解和谴责的网络有更直观的了解。
点击放大或缩小这张地图 www.hyperiongray.com/dark-web-map/ 你可以看到上面罗列出一大堆基于 Tor 网络的网站主页图。地图一共显示了今年 1 月的 6608 个暗网网站主页。无需多言,其中多以各种五花八门的色情内容、非法信用卡复制产品、比特币骗局等等,此外还有很多基于 SecureDrop 服务的揭秘爆料网站,甚至也包括很多媒体的爆料平台。
也正因为如此,Hyperion Gray 的免责声明已明确表示:「这些网站包括有色情、暴力、种族偏见等成人/攻击性内容。」
除了大比重的非法信息之外,对于揭密网站和个人主页,Hyperion Gray 创始人首席技术官 Alejandro Caceres 表示:「Tor 令我欣赏的地方就在于这种科技保护了政治自由、隐私和言论自由。」但他也承认,地图给出的数据显示出,暗网仍然是把双刃剑,除了言论自由之外,垃圾内容也的确不少。他认为,使用 Tor 浏览器有多种原因,但隐藏服务绝不应该是 Tor Project 的核心。
据今年 1 月 TIME 杂志出版的网络安全特刊,不要混淆暗网、深度网络的概念,暗网包含只能通过使用特殊软件访问的网站,现有三种主要的暗网技术:Tor、I2P、Freenet,其中 Tor 最流行和最活跃
据今年 1 月 TIME 杂志出版的网络安全特刊,不要混淆暗网、深度网络的概念,暗网包含只能通过使用特殊软件访问的网站,现有三种主要的暗网技术:Tor、I2P、Freenet,其中 Tor 最流行和最活跃。
这张暗网地图其实是以美国国防部高级研究计划局 DARPA 的 Memex 项目为部分基础而绘制的。Memex 是 DARPA 最近几年推出的一项计划,其目的是为做出可以搜索暗网内容的搜索引擎,这非常有助于警方调查人口贩卖的犯罪活动。 很多美国执法机构都在使用它们的搜索技术,而 Memex 背后的技术团队同样是以黑客自称的 Hyperion Gray 公司,他们开发的技术还包括很多先进的网络信息采集和抓取技术。他们推出的搜寻暗网上的犯罪活动解决方案名为「SourcePin」,而他们面对的主要技术困难是通常无法采集到,需要用户动作才会激活的动态内容。
Alejandro Caceres 与 Amanda Towler 夫妇
「我们解决这个问题的办法是构建一个系统,把网络看作是一个使用浏览器的人类用户,模仿人类的行为,用浏览器去搜集网页信息,甚至可以下拉页面或停留在页面上看会弹出什么更多不同的内容。最后我们的系统可能会想一群机器人实习生,为你在网络上寻找信息,而你只要看看好玩的猫咪视频就行了」Caceres 说。
Alejandro Caceres 和女友 Amanda Towler 创办了这家软件公司。他们推出的免费搜索引擎 PunkSpider,能扫描整个网络,找出网络存在的漏洞,可能会让窥探隐私者和骗子们窃取数据,堪称是暗网界的 Google。
开发者可通过 Punkspider 来检测自己的网站中是否存在安全隐患。2014 年 5 月,PunkSpider 进行了持续四天的测试,通过云服务器向超过 9800 万个网站发出垃圾数据看是否会出现错误,而结果在他意料之中,存在安全隐患的网站多达 340 万个。
之后,他们的搜索也面向了暗网。只是在没有合适的监管授权情况下,这样的扫描行为触犯了美国计算机欺诈和滥用法案规定。好在有一个开源网络游说组织 Electronic Frontier Foundation 为他们提供了一些建议,至今未收到法律的干扰。Punkspider.org 网站会对搜索的网站给出评级 0-5 分,建议超过 2 分以上的网站,不要访问。
参与 Memex 的还有很多赫赫有名的合作人,其中就包括 Carnegie Mellon 大学,投资了 360 万用于开发能够学习算法的机器,对网站上的性服务广告进行分析,帮助警方调查相关性交易案件,而国家安全技术供应商 Sotera Defense Solutions 则开发了浏览器 DataWake 供该项目使用。Memex 一共有 17 个合作方,只是大部分都没有对外公布是谁。
这次的暗网数字地图完全是由私人资助完成的。Hyperion Gray 的计算机学家 Mark Haase 是这张地图背后的支持者。Hasse 从 6 万个 Tor 地址,也就是大家说的以 onion 后缀的洋葱网址,通过编写了脚本把这些网站的主页都存储下来并进行截屏。
暗网地图可达约 27 亿像素,你可以在地图上移动并放大查看感兴趣的网站截屏
从地图上可以看到,有些网站聚集在一起,这是根据一种「相似度算法」来划分的,它给每个网页按 0.0-1.0 分进行评分,而这种相似度以网站代码结构为基础。排列算法会把相似的网站靠得很近,不相似则距离远一些,所以就出现了现在地图上一团一团的样子。两个网站有可能在 HTML 结构上是相似的,但网站的内容却是完全不同。
这张地图即使无法精细完整地勾勒整个暗网的构造,但它确实让人可以从更全面的角度去分析。比如说,许多洋葱网站域名其实并不会链接到网页,而是指向文件或聊天服务器。还有很多隐藏的信息。许多洋葱域名并不是链接到网页,而是链接到文件或聊天服务器。
Hasse 预计暗网地图可能会有两类用户,一类是对暗网只是有模糊认识的新用户,通过地图,他们可能对暗网会有更直观的了解。