上文《您的应用是否真的需要Flex?》我们提到了“Flex开发的基于flash的页面是索引不了的”,所以今天我们来说说为什么搜索引擎搜索不到Flash里面内容的,和大家探讨下其中的原因。
大家都知道SWF是二进制的,其不像HTML/js这样是文本的,故而搜索引擎的爬虫的不认识我们写在SWF文件中的文本信息,所以搜索不到,这个很显见,我就不多说。实际上,这个其实还是比较好解决的,大家都知道,SWF是开放的格式,任何人都可以研究SWF规范,编写自己的SWF读取器/生成器,Google/Baidu完全可以开发一个SWF爬虫直接读取SWF自行解析其搜索到的SWF文件的内容,对其中的文本信息进行索引,只不过当前大部分的SWF文件都是多媒体内容,SWF搜索需求还不强烈,相对文本的搜索来说成本太大,现在他们不这么做而已(Update20070310,写本文的时候我没注意调查,其实他们早就已经这么做了,只不过做得还不够优秀,这里对所有阅读过本文的朋友致歉!)。
退一步说,即使现在可以搜索SWF中的包含的文本内容,而我们往里面看的更深入一点,我们FLEX开发的应用,其数据都是通过Xml或二进制方式的方式由后台获取的,爬虫得到的SWF文件其实只是一个壳而已,就算解析了其中的内容,获取的也只是其中静态内容,至多只是一些界面字符或帮助信息,虽然有用(定位网站主题),但是Flex应用大部分数据都是由后台实时获取的,搜索引擎的爬虫不可能监控你前后台的数据交换过程,所以这基本就没有任何意义,其实基于ajax的网站同样也有这样的问题(动态内容由XMLHttpService异步从后台载入,Ajax同样不适合所有的网站),所以我们看到的AJAX技术一般都是用于网站的用户交互部分居多,内容为王的站点最终都是生成静态的页面(当然这样可以降低服务器资源耗用),这才是摆在我们的眼前更加艰难的问题,这也是Flash内容搜索不到的最深层次的原因。
个人陋见,不妥之处,欢迎拍砖!
O comments at "为什么搜索引擎搜索不爱搭理您的FLASH内容?"
Comment Now!