BrowseAtWork.com:   [Manage cookies]

2007-05-17

Google启用通用搜索及试验搜索结果页

GOS报道,昨天Google在总部搞了个搜索学(Searchology)大会,探讨了搜索技术的过去、现在和未来(实话实说?),他们说搜索还是个很困难的课题,有许多问题要解决,但搜索仍将是Google的核心竞争力。

同时,Google发布了新设计的“通用搜索”(Universal search)结果页面,上面把新闻、图片、视频、图书甚至本地的一些内容都当作正常的搜索结果按其重要程度列出,而不再是只列出网页结果,也就是说结合 了所有的内容源,要“最精确地”满足用户的搜索需求。

GOS报道中给出的例子搜索词“Nosferatu”,结果页上确实有视频,来自Google video,同时,比GOS的抓图更进一步,原来显示多少条结果的那个蓝条也进行了重新设计,变成漂亮的有一点3d效果的条,上面会显示Web News Image和Video,具体显示什么似乎各个词不太一样。

而原来出现在搜索框上的Web image等特定搜索页的链接已经和Google的其他服务一起跑到了页面的左上角,上面列出了所有的服务,最前面列出用户最常用的──应该是登录后会根 据个人使用情况动态变化,这个设计很有用,最后的more是个下拉菜单,里面的其他的那些。这个设计在Gmail里也有,中文版似乎也有了。据说这个设计 将出现在所有Google服务上。

Google还推出了搜索实验页,专门让大家看各种设计的结果页,有按时间线显示的,显示在地图上的,还有键盘快捷键(又是Vim规则,充分说明了Vim的影响力 )。下面插播一条广告:

Vim好就好在低可当记事本,高可以编程控制,中间还有无数命令可用,
并且自由开源,学习一次终生受益,各硬件平台统吃,永无找Key之烦恼
──采自水母新软版,略改。
另外还有把搜索导航条设计到左边或右边的实现。

按Gos的报道,Google还将试验一定程度的语义搜索,即当用户输入一串搜索词句后,主动猜测它的中心意思,变换搜索词,再来提交结果,并且还将试验翻译用户搜索词,用其他11种语言进行搜索。不知道这些猜测含义的工作能走到哪一步,是否还要像翻译一样,承认“100%正确翻译的理想仍然没有实现”,然后加上用户提交校正的按钮呢?

这些还是比Google中国推出的东西要吸引人,像最近推出的相关主题,大家试了后会看到那个more:选项,自然会在more前面加上其他词试一下,不想结果上方的相关还是都给加了“车主”什么的,犯晕啊。现在英文搜索上也有“Searches related to:”,倒没有这个more算法。

2007-05-15

现在汉语词汇数量及字数

有水木网友把前一段谷歌拼音1.0.15版中的词库给搞了出来,就是在网有争议现在没消息的那一版。总结这些词可真也不容易,总数快有34万,应该比较能反映(大陆)汉语的现状(不知道他们分析时抓的网页有没有包括港台以及海外中文网页),也就是说常用词汇有这么34万,一般正规词典上收词不过3/4万。当然,这里面有许多不是非常严格的词,而是个短语,包含了不同的句子成分,不过既然人民这样用了,那就得承认。

总计词汇数:33,9100
单字:0
二字词:12,0603, 35.6%
三字词:11,5229, 34.0%
四字词:9,2813, 27.4%
五字词:5564, 1.6%
六字或更多字:4891, 1.4%

数字都按4位点了点,这样符合汉语习惯,一下就能读出多少万,再上一点的话就是亿,再上面是万亿。英语用3位就要进一下,分别是千、百万和十亿,所以他们才用3位点个点的写法。

可以看到二字词、三字词占了绝大多数,都超过了1/3,四字词也接近1/3,再多字的就是少数。按这样的词汇数量,也和西方拼音文字的词汇量不相上下了,当然不包括那些无聊的专用名词。

单字字数没个定论,下面是各个计算机处理汉字用的标准所收录的文字数。这些字数都很大,一般人——包括太祖——其实都用不到这么多,3000字足以。

GB2312,6763字
GBK,21003(21886)非国家标准,CP936
GB13000,20902字(也就是ISO的标准)
GB18030,27533字
BIG5,13461字
Unicode CJK,20902字,两个扩展区,总数七万多字。

把这些词全部写成单个的字,sort|uniq之后,发现共用了 5800个 不同的汉字。这5800字按重复次数排序(没有排除一字在同一词内重复的情况),出现最多的前一百字是:

人 不 一 大 中 的 在 学 国 有 上 了 生 机 电 业 子 工 小 网 出 来 会 下 发 我 文 动 天 行 家 理 新 用 性 心 法 分 作 水 成 公 高 化 地 开 时 品 金 无 市 者 能 自 经 为 方 过 信 是 力 制 可 好 年 长 海 三 手 到 数 多 美 体 之 产 通 合 面 山 本 车 部 要 得 物 后 个 安 路 事 说 全 教 区 外 件 道 明 名

其中,“人”字出现 7270 次,“名”字出现也有 1741 次。

2007-05-09

写写更健康

看到个很弱智的讨论,俺大光其火,很愤怒地敲下了数百字的评论,希望他们不要再随便地代表"绝大多数人",不要再随便认定"有利于整个世界",可惜积极的入世分子总是太多,每个人都认为自己的想法最有利于世界,代表了绝大多数人所向往的道路,自我感觉之好实在令人震惊。

我想这一个思维定式基本可以解决许多历史疑案,比如为什么我国历史上没有产生统一的宗教,那是因为人人都自认是上帝;为什么老有人说我们没有信仰,那是因为每个人都信自己。就是这个据说普遍比别国高10个点的智商,造成了许多小聪明的后果。

比如我们一代又一代地推出我们的人间上帝,他一出来就连人家留什么发型穿什么衣服都要管。而他一出来,原来认定什么代表"绝大多数"的弱智们就都噤了声,自愿地把自己代表的那个绝大多数送给了这位人间上帝,一点骨气也没有。

这些人在设想这个"绝大多数"的时候,心里都有一个潜意识,那就是只有他才代表了这个利益,只有他才是对的,并坚信其他人都相信这一点,从而自认为自己就将是那个未来的上帝。醒醒吧,你不是,你只是一个平等的人,就是人人平等里说的那个人而已,你也不需要等到你当上帝那一天才爽,才说出自己的想法,你现在就可以清理掉那个无耻的潜意识,说出自己的真正想法来。

他们从来在别人当上帝的时候不说自己的想法,只是认定自己代表了绝大多数人,自己将成为下一代上帝。可他们从来没想过,他现在过的生活就已经"代表了绝大多数人的利益,代表着世界最新的最有利的发展方向",还讨论个P啊,我们已经身在天堂了。

那每个人都说出自己想要的,要是出现了冲突怎么办?这个问题的解决方案很多,最根本的一点就是不要影响到其他人,如果是制订制度,那应该是尽量少的影响到其他人,除非他愿意接受。

刚才写过却在发送时没能成功,感觉气还不顺,只好再写一段,才能一舒这口闷气,不过实在不如刚才写得痛快。

这是不是也是要影响他人的强迫心态?但这种消极意识如果不传播开来,就老要受他们积极意识的指导,老要走代表全世界人民利益的破路。

是不是积极分子们都是这个想法?如果你不这么做,你就要被别人这么做了,于是大家都像是社会上当坏人,闯红灯,你不做、不闯就要吃亏,是不是我们的生存太过逼仄?

最终还是人太多,地球太小的缘故啊。想起阿西莫夫的《基地》系列里有个索拉利星球,比地球还大几倍,却只有2万人,他们坚信人与人接触是最肮脏的事,连不得不讨论星球大事的时候都只是远程会议。他们还坚决地计划生育,只有死一个人才制造下一个人。也算是对我们生存状态的反动。

2007-04-23

拿Firefox提升Pagerank或赚钱的小伎俩

最近在网上见到各种劣质Firefox广告的机会越来越大,地点包括QQ,QQ群,邮件,普通网站弹出广告,甚至Adsense——一些不知名的小网站甚至自己出钱通过Adwords来给它做广告,点击过去,还真的会有一页全部是Firefox的内容,上面有Firefox的下载链接。

这些站点都是中文的,虽然没有认真考虑,但可以想像,这些站长绝不会好心到给用户推广这个优秀软件。他们的目的我想只有两个,一是引用户到Google的推广链接,用户下载的话站长可以得到一些钱;二是很自然的,用这种方法来推广自己的网站,提升Pagerank排名。我想Google搜索的几百个参数中也许对Firefox有格外的关照,才引得这些站长如此热心。

以前发现过一个给Firefox买Adword的小站,真点过去发现Firefox只存在于该站的一个分支页面,而真正的站点是提供所谓英语学习大片的,并且他成功地让这个站点在几个关键词上排名第一,我想在这里这个简单Firefox页面起到了巨大的作用。也许是现在这一招已经不太好使,或者被Google发现了,于是现在许多站都直接把主页做成Firefox,而把真实目的放在其他分支页面上,这样就更隐蔽了。

这个故事告诉我们,偏好太简单就容易被人利用。
--
http://blog.cathayan.org

2007-04-20

忧郁

经常看到人们在忧郁,并且自从罗老师宣布"胖子也能忧郁"之后,忧郁人群有变得更庞大的趋势,这很不利用工作和生活,所以要想办法排解它。

忧,就是担心,郁,就是积聚,忧郁的本质就是担心太多,想的事太多,这通常容易发生在高IQ人身上。由于大家一贯认为胖子都不聪明,所以才认为人家不会忧郁,这当然是大错。脑子太好使,内存空间太大,就容易想得太多,这本来没什么不好,尤其是在有许多事情要处理的时候。但由于人类通常其实没有那么多事要干,所以也就要想别的无聊的事,于是就容易想到牛角尖里头。

所以第一招就是找点事情来做,哪怕是晒太阳呢,只要晒出幸福感来就行了。又据说晒太阳有助于提升人的积极性,也可以克服忧郁。现在上班的人出门不见太阳,回家太阳又走了,整天不见太阳,就不很好。有个小画,上面画着远着一群人正在搬一个球门,近处是一个忧郁的背影,标题讲:the last chance。有时只要略微主动一点,就可以加入进去,而稍一闪念,就失去一块玩的机会,只落得自己孤家寡人,不忧郁都没事做。

第二是自恋,英文就是水仙花,真要跟水仙花一样,恋一下也无不可,可实际上都不是。通常是IQ处于第二层次的人容易不可自拔的自恋(第一层次的人都是自由随意地自恋)。其实每个人都很重要,也就都没有特别的重要。太把自己当回事就容易遇到想不开的事了。

太把自己当回事,就容易关心国家大事。俺6岁的时候,某晚在打麦场听一位先进中年讲,日本人专门买我国的石油,买去了还不用,就在地下挖坑,这坑一直挖到我们村子下面,就等哪天事起,一点火,就把整个大陆炸上天。这个计划体现出来的想像力和胆识真实反映了我国优秀农民的水平,绝不在山本五十六之下。可能我们村离杞国已经不算太远,所以当天和接着的好多天里,我都在杞人忧天,就害怕这真要炸起来怎么办。好在这事并没有发生,最大也不过是海上的小岛着火而已。

好久以后,我想明白这也许只不过是个笑话,或者是个天方夜谈类的故事,于是我轻松了很多日子。但忧虑仍然会不时入侵,而最大的忧虑其实还是家庭和生命,其他任何事和这个比起来,借用某位伟大母亲的话叫做:那算个P啊。所以有经历虽然痛苦,但好在也有了经验,那感觉就像站在高山之巅,遍览众多小型忧郁,心中不禁暗笑,想不到你们也有今天。

但俺不可能老是站那么高,还是要下来走路过日子,也就不免再次遭遇这些小槛。终于又在某一天,我又想明白一件事,这喜怒忧思悲恐惊,所谓的七情,实在是人生必备,少一样也是残疾,C'est la vie么。既然不能摆脱,也就颇为心安,可以静下来等着它过去了。

我也见过有些人天生对这些事免疫,或者阈值超高,普通事根本不影响人家。我觉得这也很好,大家更像野蛮人一些,确实少许多烦恼。又有借助于外力的,像酒和药一类,对正常人不是什么好办法,像《在路上》所描写的,确实有些垮掉吧。有些人看到流浪猫都会悲伤,却在于没有想明白一个道理,万事万物自有它的活法,有心有力你就去做,但无心无力或者有心却不去做也完全没有关系,老天自会照顾他的子民。

又有像毛姆的写作主题,人如何摆脱这所谓的人性枷锁,发挥自己的本能或才能,我其实觉得也是一件很可疑的事,虽然人生确实有太多自己、别人、社会强加的圈套在管着。说到这个,倒觉得有些对人确实应该和善些,尽量少地干涉,包括施惠于人,很可能一句话,一件事,对一个人完全没记忆的,对另一个却是终生的疙瘩;倒不如小国寡民,老死不相往来,可以省却许多烦恼。

所以这件事是个矛盾,为了不忧虑,你得积极主动,开朗向上,乐于同人交往;而毫无疑问的是,许多烦恼正是从这些交往中来的。


--
http://blog.cathayan.org

2007-04-19

Heroes里面的特异功能

这些天有点忙,白天网络又不爽,午休时间就改为看片了,断断续续看了3周多,把现有的18集Heroes给看完了。该剧秉承美剧英雄对抗黑老大的惊天大阴谋的一贯思路,这方面不算创新,但是种类超能力也就是特异功能看得还算比较爽,总结一下,可以在不爽的时候想像一下你如何拥有其中一项时会有多爽 :mrgreen:

1,自愈能力,身体上的任何伤口都会自动愈合
2,读心,能听到别人正在想的事,但别人可以用你不懂的外语思考
3,飞行,想飞就飞
4,隐身,突然间就消失了
5,分身,也许是人格分裂,但有时也会真实地存在两个人
6,看到未来的事,然后能画下来
7,顺风耳,听到数十公里外的任何声音
8,核爆人,身体具有放射性,随时搞出核爆
9,直接同机器交谈,让ATM机器给钱
10,记忆,能记住任何东西,学什么都是过目不忘,过耳不忘
11,穿墙,任何实在的物质都可以自由穿行,也可以隐藏在其他物体中
12,可以直接接收无线电信号,并用大脑连通电脑
13,读取记忆,在他看来大脑中的记忆就跟一条虫子差不多,可以抓出来,所以也能清洗记忆,也能干扰他人大脑的功能
14,幻象,可以做出任何幻象,变身成任何人
15,熔化金属
16,时空扭曲,可以停止时间,可以跑到未来,也可以瞬时移动
17,学习,任何有功能的人靠近他,他都能直接学会这项特异功能
18,洞悉,看任何特异功能人的大脑就能明白其中的道理,并学会这一功能
19,意念移物,意念控制,包括控制其他人
20,玩火,随手就能冒出火来
21,做梦,进入他人梦境,为人指点迷津
22,说服

其中有几项很厉害,如果能扭曲时空,再加上穿墙隐身说服力,我简直想跑到德州说服这家服务商再加点流量。

2007-04-03

陕西北朝少数民族姓氏

北朝那时算是民族融合的重要时期,这么多少数民族都改了汉姓,从此消失了。

族属原姓改姓主要聚居地备注
匈奴赫连陕北
陕北,渭北匈奴屠各部
万俟万,于陕北
关中匈奴屠各部
陕北,关中匈奴屠各部
呼延呼延陕北,关中
须卜陕北主要在绥德
陕北,关中
鲜卑叱干延安,礼泉礼泉有叱干乡
去斤陕北
宇文宇文陕北,关中
破六韩陕北,渭北
慕容关中
纥豆陵关中主要在长安
侯莫陈关中
氐族关中
关中,陕南
关中,陕南
关中,陕南
羌族关中
渭北
钳耳陕北,渭北
渭北
夫蒙渭北
莫折莫,折陕北,渭北
同帝渭北
罕井渭北白水有罕井城
咋和渭北
乌丸陕北,关中
高车关中
羯族陕北
乙速孤渭北主要在礼泉
汉中
柔然普六茹关中
库莫奚屈突关中
西域各族陕北,渭北龟兹人
关中康居人
陕北,渭北安国人
关中,陕北米国人
关中,陕北石国人
关中何国人
关中史国人
关中曹国人
关中毕国人
斛瑟罗关中西突厥人
关中疏勒人
关中月氏人
关中车师人
阿史那关中突厥人

--
http://blog.cathayan.org