在2017年1月,有消息传出,亚马逊已经成功地阻止了沃尔玛的机器人,这将使亚马逊的上市 “每天几百万次”。在路透社的报道中,总部位于纽约的在线批发商Boxed的首席执行官谈到每20分钟刮擦竞争对手的价格并进行相应的调整,他说: “如果我们的价格不合理,我们几乎会立即看到 (销售下降)。”
抓取网页是个秘密。财富500强公司使用的原始增长黑客来保持价格竞争力,告知策略并衡量客户情绪。
知识就是力量。
最初是一种单向工具,用于提取网络数据并为消费者的利益增加竞争,这引发了一场军备竞赛,目标网站试图破坏数据收集以获得竞争优势。已经出现了第三方服务,以帮助目标网站识别并阻止竞争对手抓取其数据。
更狡猾的是提供伪造的信息-例如,为机器人提供高于实际价格的服务-以挫败scraper的计划,而不是机制。
为了避免伪造信息 (也称为欺骗或掩盖) 或被阻止的问题,公司已经使用了代理网络,代理网络是基于数据中心的路由器,通过它们路由或代理其请求以隐藏其身份。然而,这些网络可以被精明的公司识别。对解决方案的需求以对等网络 (p2p) (也称为住宅ip网络) 的形式出现。
p2p网络由消费者组成,他们愿意通过其Ip路由一些商业请求以换取利益 (例如: 免费使用应用程序,无广告浏览,使用p2p网络本身以及更多)。因此,通过此类网络收集情报的公司可以看到消费者看到的网络,而不会有被欺骗或阻止的风险。
刮擦的潜力远远超出了价格战。互联网上充斥着等待被窃听的非结构化数据。
公司如何使用数据抓取
一些公司产生高质量的销售线索,而不是购买联系人列表,并在此过程中获得更高质量的前景。一些招聘委员会来寻找正在成长的公司,他们监控刚刚获得资金的公司的社交媒体。
例如,经过验证的是一家护肤公司,它会刮擦客户评论以创建高度个性化的产品。他们已经建立了一个不断更新的数据库,800万评论,100,000美容产品和4,000关于护肤和产品中使用的成分的科学文章。他们的机器学习算法发现了这些之间的联系,以开发清洁剂,奶油和调色剂,高度定制年龄,皮肤类型,种族和痤疮等条件。客户填写一份问卷,以使他们适合AI辅助的皮肤轮廓,并建议他们使用护肤方案。
军备竞赛在网络广告业也十分猖獗。例如,大型广告发布者需要确保黑客不会使用其程序化广告平台向最终用户传播病毒和恶意软件。因此,他们不断抓取传入的广告服务器,以确保内容是安全和合法的。
问题是,当黑客认识到出版商正在调用他们的服务器时,他们会发送一个真实的广告,这样看起来一切都很好。如果广告发布者可以以常规在线用户的身份出现,则它将被提供欺诈性广告,然后他们可以阻止其发布。作为普通消费者扫描广告服务器的能力是他们如何保护受众免受欺诈性和潜在危险广告的侵害。
发挥创造力,您就可以通过刮擦来破坏任何行业。
值得战斗吗?最重要的是,网络抓取正在秘密地推动比您意识到的更多的在线商务。财富500强公司通过算法根据市场调整价格来保持竞争力,这是一项不可能完成的任务。
这些数据收集机器被目标网站误导意味着基于虚假信息进行定价。这是企业赢得这场刮痧之战的足够强大的动力。