Tax Takers在Spiders中发送

世界各地的网站正在Googlebots和雅虎网络蜘蛛中吸引新的计算机化访客:税务员。一个五国税务执法卡特尔一直在悄悄地打击可疑的互联网税务欺诈,使用复杂的网络爬行程序来监控拍卖网站上的交易,并跟踪在线商店,扑克和色情网站的运营商。

“氙气”是指“氙气”。程序 - 提到点亮暗处的超亮汽车前灯 - 于2004年由荷兰的IRS,Belastingdienst在荷兰开始。在阿姆斯特丹的数据挖掘公司Sentient Machine Research的帮助下,奥地利,丹麦,英国和加拿大的国际税务机构已经扩大和加强了这一点。

氙气主要是蜘蛛:a下载网页的程序,然后遍历其链接并下载这些链接,无限制地。通过这种方式,蜘蛛可以创建庞大的网络资料数据集,同时保留网页被蜘蛛网之间的关系 - 这可以揭示制作网页的人们的很多信息。

它'尚不清楚氙气在产生调查线索方面的效果如何。由有线新闻联系,加拿大和英国的税务部门确认参与该计划,但拒绝进一步评论。

Dag Hardyson,瑞典税务机关Skatteverket的电子商务国家项目负责人,更加即将到来。 Skatteverket计划今年加入Xenon项目,而Hardyson表示网络爬行非常适合税务执法。

“互联网对工具来说是开放的”,哈迪森说。 “It'比现实世界更容易处理。”

Xenon,Sentient的Marten den Uyl解释说,在某种程度上与Google' s web crawler相反,它遍历一个链接树并抓取它看到的所有东西的副本。 Xenon对链接选择和上下文很聪明,并使用“慢搜索范例”。他说。

像Googlebot这样的蜘蛛可能会在一秒内击中成千上万的网站,“使用Xenon可能需要几分钟,几小时甚至几天来进行慢速搜索。”

慢速搜索可以防止抓取工具在网站上创建过多的流量,或者在网站中引起注意'服务器日志。 Den Uyl拒绝透露Xenon软件自己报告的用户代理,但它可能在税务调查员身上可变或可配置。

蜘蛛也可以配置和培训,以查看特定的经济利基 - 一个有用的功能,用于编制传统上具有高申请率的行业的业务清单。 “例如,体重控制(产量)85,000次点击,一些用于产品......还有服务,”瑞典' s Hardyson说。

一旦网页被屏幕删除,Xenon' s身份信息提取模块就会与包含街道和城市名称等信息的国家数据库连接。它使用该数据自动识别其已抓取的网站上存在的邮件地址和其他身份信息,并将其放入可与国家税务记录大量匹配的数据库中。

如同氙气一样明亮对于税务人员来说,数据挖掘工作对公民隐私构成了危险,Par Strom是瑞典IT界着名的隐私权倡导者。

上一篇:帕奎奥与梅威瑟的关系能否最终发生? 下一篇:没有了

本文URL:http://www.taobaocp.com/zuiredanpin/kujia/201908/1340.html

Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。