BrowseAtWork.com:   [ UP ]   [Manage cookies]

2007-05-17

Google启用通用搜索及试验搜索结果页

GOS报道,昨天Google在总部搞了个搜索学(Searchology)大会,探讨了搜索技术的过去、现在和未来(实话实说?),他们说搜索还是个很困难的课题,有许多问题要解决,但搜索仍将是Google的核心竞争力。

同时,Google发布了新设计的“通用搜索”(Universal search)结果页面,上面把新闻、图片、视频、图书甚至本地的一些内容都当作正常的搜索结果按其重要程度列出,而不再是只列出网页结果,也就是说结合 了所有的内容源,要“最精确地”满足用户的搜索需求。

GOS报道中给出的例子搜索词“Nosferatu”,结果页上确实有视频,来自Google video,同时,比GOS的抓图更进一步,原来显示多少条结果的那个蓝条也进行了重新设计,变成漂亮的有一点3d效果的条,上面会显示Web News Image和Video,具体显示什么似乎各个词不太一样。

而原来出现在搜索框上的Web image等特定搜索页的链接已经和Google的其他服务一起跑到了页面的左上角,上面列出了所有的服务,最前面列出用户最常用的──应该是登录后会根 据个人使用情况动态变化,这个设计很有用,最后的more是个下拉菜单,里面的其他的那些。这个设计在Gmail里也有,中文版似乎也有了。据说这个设计 将出现在所有Google服务上。

Google还推出了搜索实验页,专门让大家看各种设计的结果页,有按时间线显示的,显示在地图上的,还有键盘快捷键(又是Vim规则,充分说明了Vim的影响力 )。下面插播一条广告:

Vim好就好在低可当记事本,高可以编程控制,中间还有无数命令可用,
并且自由开源,学习一次终生受益,各硬件平台统吃,永无找Key之烦恼
──采自水母新软版,略改。
另外还有把搜索导航条设计到左边或右边的实现。

按Gos的报道,Google还将试验一定程度的语义搜索,即当用户输入一串搜索词句后,主动猜测它的中心意思,变换搜索词,再来提交结果,并且还将试验翻译用户搜索词,用其他11种语言进行搜索。不知道这些猜测含义的工作能走到哪一步,是否还要像翻译一样,承认“100%正确翻译的理想仍然没有实现”,然后加上用户提交校正的按钮呢?

这些还是比Google中国推出的东西要吸引人,像最近推出的相关主题,大家试了后会看到那个more:选项,自然会在more前面加上其他词试一下,不想结果上方的相关还是都给加了“车主”什么的,犯晕啊。现在英文搜索上也有“Searches related to:”,倒没有这个more算法。

2007-05-15

现在汉语词汇数量及字数

有水木网友把前一段谷歌拼音1.0.15版中的词库给搞了出来,就是在网有争议现在没消息的那一版。总结这些词可真也不容易,总数快有34万,应该比较能反映(大陆)汉语的现状(不知道他们分析时抓的网页有没有包括港台以及海外中文网页),也就是说常用词汇有这么34万,一般正规词典上收词不过3/4万。当然,这里面有许多不是非常严格的词,而是个短语,包含了不同的句子成分,不过既然人民这样用了,那就得承认。

总计词汇数:33,9100
单字:0
二字词:12,0603, 35.6%
三字词:11,5229, 34.0%
四字词:9,2813, 27.4%
五字词:5564, 1.6%
六字或更多字:4891, 1.4%

数字都按4位点了点,这样符合汉语习惯,一下就能读出多少万,再上一点的话就是亿,再上面是万亿。英语用3位就要进一下,分别是千、百万和十亿,所以他们才用3位点个点的写法。

可以看到二字词、三字词占了绝大多数,都超过了1/3,四字词也接近1/3,再多字的就是少数。按这样的词汇数量,也和西方拼音文字的词汇量不相上下了,当然不包括那些无聊的专用名词。

单字字数没个定论,下面是各个计算机处理汉字用的标准所收录的文字数。这些字数都很大,一般人——包括太祖——其实都用不到这么多,3000字足以。

GB2312,6763字
GBK,21003(21886)非国家标准,CP936
GB13000,20902字(也就是ISO的标准)
GB18030,27533字
BIG5,13461字
Unicode CJK,20902字,两个扩展区,总数七万多字。

把这些词全部写成单个的字,sort|uniq之后,发现共用了 5800个 不同的汉字。这5800字按重复次数排序(没有排除一字在同一词内重复的情况),出现最多的前一百字是:

人 不 一 大 中 的 在 学 国 有 上 了 生 机 电 业 子 工 小 网 出 来 会 下 发 我 文 动 天 行 家 理 新 用 性 心 法 分 作 水 成 公 高 化 地 开 时 品 金 无 市 者 能 自 经 为 方 过 信 是 力 制 可 好 年 长 海 三 手 到 数 多 美 体 之 产 通 合 面 山 本 车 部 要 得 物 后 个 安 路 事 说 全 教 区 外 件 道 明 名

其中,“人”字出现 7270 次,“名”字出现也有 1741 次。

2007-05-09

写写更健康

看到个很弱智的讨论,俺大光其火,很愤怒地敲下了数百字的评论,希望他们不要再随便地代表"绝大多数人",不要再随便认定"有利于整个世界",可惜积极的入世分子总是太多,每个人都认为自己的想法最有利于世界,代表了绝大多数人所向往的道路,自我感觉之好实在令人震惊。

我想这一个思维定式基本可以解决许多历史疑案,比如为什么我国历史上没有产生统一的宗教,那是因为人人都自认是上帝;为什么老有人说我们没有信仰,那是因为每个人都信自己。就是这个据说普遍比别国高10个点的智商,造成了许多小聪明的后果。

比如我们一代又一代地推出我们的人间上帝,他一出来就连人家留什么发型穿什么衣服都要管。而他一出来,原来认定什么代表"绝大多数"的弱智们就都噤了声,自愿地把自己代表的那个绝大多数送给了这位人间上帝,一点骨气也没有。

这些人在设想这个"绝大多数"的时候,心里都有一个潜意识,那就是只有他才代表了这个利益,只有他才是对的,并坚信其他人都相信这一点,从而自认为自己就将是那个未来的上帝。醒醒吧,你不是,你只是一个平等的人,就是人人平等里说的那个人而已,你也不需要等到你当上帝那一天才爽,才说出自己的想法,你现在就可以清理掉那个无耻的潜意识,说出自己的真正想法来。

他们从来在别人当上帝的时候不说自己的想法,只是认定自己代表了绝大多数人,自己将成为下一代上帝。可他们从来没想过,他现在过的生活就已经"代表了绝大多数人的利益,代表着世界最新的最有利的发展方向",还讨论个P啊,我们已经身在天堂了。

那每个人都说出自己想要的,要是出现了冲突怎么办?这个问题的解决方案很多,最根本的一点就是不要影响到其他人,如果是制订制度,那应该是尽量少的影响到其他人,除非他愿意接受。

刚才写过却在发送时没能成功,感觉气还不顺,只好再写一段,才能一舒这口闷气,不过实在不如刚才写得痛快。

这是不是也是要影响他人的强迫心态?但这种消极意识如果不传播开来,就老要受他们积极意识的指导,老要走代表全世界人民利益的破路。

是不是积极分子们都是这个想法?如果你不这么做,你就要被别人这么做了,于是大家都像是社会上当坏人,闯红灯,你不做、不闯就要吃亏,是不是我们的生存太过逼仄?

最终还是人太多,地球太小的缘故啊。想起阿西莫夫的《基地》系列里有个索拉利星球,比地球还大几倍,却只有2万人,他们坚信人与人接触是最肮脏的事,连不得不讨论星球大事的时候都只是远程会议。他们还坚决地计划生育,只有死一个人才制造下一个人。也算是对我们生存状态的反动。