网络抓取一直用于创收,开拓新的竞争途径,甚至建立全新的业务。然而,网络抓取还可以充当民主的监察者、调查者和保护者。这一方面虽然重要性明显不亚于其他方面,却少有人提及。
任何工具的性质都是如此。网络抓取的独特之处在于,它甚至可以帮助规模相对较小的团队收集大量公共信息,使他们能够处理原本极耗资源的数据。
什么是网络抓取?
网络抓取是从公开可用的来源自动收集数据的过程。其中大部分来源将是我们日常遇到的普通网站。开发人员创建脚本来自动浏览网页,并下载机器人遇到的数据。
这些数据常常是非结构化的且难以理解,原因在于网页需要在浏览器中呈现出色的效果,而不是用于数据分析。解析器是一种将杂乱数据转变为半结构化或结构化格式的工具,常用于方便理解。
不过,最有趣的地方还在于数据的使用方式。企业常常将定价和产品数据用于情报和战略目的。但可能的潜力远不止于创收。
非政府组织、大学和其他许多非营利组织都会使用网络抓取。在这些领域,网络抓取还没有完全确立主要数据收集过程的地位,但也正在实现这一目标。在宏观经济研究和其他研究领域都有运用。
现在,网络抓取正在向全新的受众突破:监察者。虽然网络抓取一直用于打击数字犯罪,但也可以抵御老式的普通类型犯罪活动。
从大事件开始入手
十亿价格项目(Billion Prices Project,简称 BPP)最初是作为衡量通胀的替代方式而发起的。虽然其方法可能并不完美,因为它仅捕获电商平台中的价格波动,而不会捕获货币价值的变化情况,但后续研究表明,其中得出的结论对于常规指标相当准确。
以这种方式衡量通胀的意外结果就是能够对受到篡改的官方统计数据进行纠偏。因此,十亿价格项目衍生出几个新的项目,也就是旨在衡量阿根廷和委内瑞拉通胀的项目。
这两个国家都曾在发布通胀指标之前对其进行“创造性解读”,导致报告的数据与对人口的现实效果之间不符。这些有可能是源于政府出于维持权力的目的而淡化其政策对经济的负面影响。
没有网络抓取,这些都无法做到。十亿价格项目表明,它可以实现维护真相和透明度的崇高目的,即使是在强权企图压制的情况下。
小事情也值得重视
但网络抓取并不需要仅仅用于对抗政府压迫或其他重大战斗。有许多小事情也可以通过使用网络抓取来解决,这些事情的负面影响力并不低。
复制、粘贴、立法很可能已成为利用网络抓取实现公益的最突出例子之一。调查记者使用网络爬虫来揭示特殊利益团体(即说客)企图在美国所有 50 个州中推行相同法律。甚至还赢得了调查性新闻报道奖项。
另一方面,路透社使用网络抓取来发现贩卖领养儿童的地下市场。跟踪工具会发现那些愿意让被领养者“失踪”在一个新家的人发出的零散广告。利用路透社的报道,最终有多起绑架案被破获。
网络抓取甚至可以帮助政府机构。例如,影子经济在几乎每个国家都是一个紧迫问题。影子经济有很大一部分是通过现金支付完成的,因为这些活动常常不会在任何地方进行记录,这就为洗钱和未申报收入带来很大空间。
虽然大规模洗钱很可能发生在机构层面,但较小规模活动也可在网上发现。部分影子经济通过分类广告平台转移,其中可以利用网络抓取实现极好的效果。
如果政府机构要跟踪未申报收入的潜在违法行为,可以使用网络抓取估算影子经济的规模,甚至发现潜在的违法人员。鉴于分类广告的性质(即,牵涉的人员必须留下联系人信息),这个过程很容易实施。
结论
这些只是网络抓取已经或可以惠及公共利益的几个例子。自动数据收集的威力就在于,规模相对较小的团体也能获得大量的公开可用信息。
因此,网络抓取不应该视为只有大型公司为了促进自己的目标才能做的事情。网络抓取能够开拓全新的潜力,方便开展调研,发现检测犯罪的新方式,并追求社会公正。
作者:Andrius Palionis,Oxylabs.io 企业销售部副总裁