Google 处理采集数据的一些分析
点击跟踪
Google logs 把全部用户在其服务产品上的引导点击(广告,行动,功能点击等等)都记录起来。
形式 -随着用户输入数据的形式直接进入(用户名,密码等),Google 记录了时间和日期以及提交的位置。
注册 Google 帐号时的表单
输入类型是隐藏的,使用户不会看到或进入特定领域的数据
向用户发送后提交 (隐藏) 的位置
输入类型是隐藏的,所以用户不会看到或进入到特定数据里头。
用户使用引用数据,并通过表格获得怎样才把”注册”放在什么位置用户会点击
Cookies
Google 把它所有网站属性的 Cookie 都用上了,此外,他还留下了广告 Cookie 来跟踪用户在网站上的行为。通过这种方法,Google 就可以在有 doubleclick 和AdSense 广告的网站下跟踪该网站上任何一个用户的网站行为。
存储的cookies列表
存储在日志文件的服务器请求
每一个向 Google 服务器发出的请求都存储在日志文件里头,而存储的内容取决于发出请求的类型。
日志文件
URL - http://www.google.com/search?hl=en&q=seomoz&ie=UTF-8
从用户付出的请求而获得的 IP 地址,可以根据这个IP 地址定位该用户的具体地理位置。
日期,时间和时区偏移的用户
用户的语言
用户的操作系统
用户的浏览器
其他信息就没有那么重要但是必须具体的描述向服务器发出的请求,服务器的响应和转译引擎。
Javascript
Google 有小部分的 JavaScript 已经嵌入到互联网上众多的网站上面。当用户的浏览器执行背景中的脚本时候,Google 就能够知道很多关于这个用户浏览习惯等重要信息(地理位置,操作系统,浏览器类型和版本等)
网站信标
Google 向很多结算屏幕嵌入小尺寸的透明 gif 图片,就好像 JavaScript 一样,一个用户下载隐形的图片并且向 Google 发送他们的电脑信息。
网站信标样例(什么?你看不到?这才是重点)
了解一下 Google 是怎样处理这些数据
存储
Google 使用一个内部数据库叫 BigTable 扩展到近乎 100W 个服务器
Google Data In 2006 | |
Data |
Size (TB) |
Crawl Index |
800 |
Google Analytics |
200 |
Google Base |
2 |
Google Earth |
70 |
Orkut |
9 |
Personalized Search |
4 |
这压缩的数据的大小接近 TB(1024GB)。而 Google 透露的数据大小超过 1PB(1048576GB)。这甚至不需要考虑 AdSense,Gmail,Google Map,街景,Google图片,或者其他私有数据库。并且这些数据都是超过2年前的。
大量的数据分析
这就有点像 Charlie and the Chocolate Factory (电影《查理与巧克力工厂》)。我们都知道有很多数据都进入到 Google 那里,我们也知道有大量处理好的数据会导出来。我们就只是不知道两者之间是发生了什么,是怎么转换的。
我们也知道 Google 本身有很多运算法则组织他的数据,Page Rank 就是最出名的了。据说,Google 也有很多复杂的 spam 的过滤系统,内容复制过滤系统,类型侦查运算法则,自然语言解析程序,图像识别软件,和其他大量的复杂的软件。
永久备份
Google 上的数据最终的栖息地可能会在永久存储。Google 的隐私政策提示某些用户数据永远都不会完全被删除,因为已经被永久的备份。
理解Google收集特定用户的数据情况
以下都是一些当用户与很多网站交互的时候 Google 收集到的用户的资料的清单列表。这意味着其实有更多的数据被 Google 收集而却又没有公开的。不过其实无知就是幸福,当你看完之后,你或许会感觉很不爽:
Google用户数据收集情况汇总:Google用户数据收集情况汇总
你能相信 Google 会帮你保密一切信息么? 你敢相信 Google 会遵守所有保密要求么?
原文地址:http://semwatch.org/2009/11/evil-of-google-data
相关文章
- 你的网站为什么百度不采集呢?其实原因很多,网站内容重复太多,seo过度、改版等等,对于这种现象我们该怎么应对呢?现在说说百度不采集你的网站的原因和解决办法,需要的2014-12-30
- 目前站长圈内,比较流行的采集工具有很多,但是总结起来,比较出名的免费的就这么几个,这里简单给大家介绍下, 方便需要的朋友2014-11-01
- 最常规的防止网页被搜索引擎收录的方法是使用robots.txt,但是这样做的弊端是要将所有已知的搜索引的爬虫信息都罗列进去,难免有疏漏。2010-07-16
- 利用采集来添加网站并没有什么不对,不仅小网站在做大网站也在做采集,而真正能体现网站价值的是网站带给用户的便利,这也是不同网站利用采集来的信息,有的能为用户所接受2010-02-25
- 虽然采集站的SEO比较难。但踏实的写文章,在国内这种氛围下,很少会有人去做。2009-07-18
- 现在很多网站都有抄袭和采集的行为,有了采集工具和目标网站以后内容再也不是什么头疼的事。倒是如何提高采集内容的排名成为了站长们最为头疼的问题,如何提高采集内容的排2009-05-26
- 业余站长成功率真的很低很低,如果哪个业余站长在三年之内侥幸成功了,可以告诉我。不要把数万IP的垃圾站发我就行了。如果垃圾站有数万IP是不足不奇的,你的网站能在三年后2009-04-02
- 听人说,百度最近封杀了采集的网站,难到采集文章的网站一定没有出路吗? 个人觉得未必。 QQ空间 站是本人的网站。里面的内容全是采集来的。记得第一次百度两个星期左2008-12-31
- 我是一个习惯在互联网上阅读的人,遇到上好的文章就另存到我的电脑上,久之电脑的资料就显得很零乱,当时就想建立一个数据库,把这些文章保存起来,就这样开始了我的站长的2008-11-04
- 很多站长都在为自己的站发愁。为什么我的站流量那么低?为什么我的站收入那么少?原因很明显,你建立的是垃圾站。 那么什么是垃圾站呢?网上关于垃圾站的定义和判断标准2008-11-03
最新评论