在做要一个网页聚类的项目,前提是基于URL提取标题和正文,这一步就把俺难住了,对XML没怎么研究,想问一下有木有什么方法,多谢!
提取文档后,后面的文本挖掘应该都能搞定。
如何用XML对每个URL提取标题和正文?
回复 第1楼 的 maec1208:
先学一下 html tag 是怎么样的吧,w3c 和 RFC 的资料先翻翻。网页还用不到XML这么大,html 只是 xml 一个子集。
回复 第1楼 的 maec1208:
提取文档后,有很多技术的事,比如分词,比如倒排索引,存储,分布式采集。
如果仅是一两个url,那是没有什么难度,但是你要面对上亿的页面,一切都是问题。一步步来吧,战略上藐视敌人,战术上要重视啊重视。
回复 第1楼 的 maec1208:
或者我理解错了,你想用一个XML描述 html 的状态,然后通过一种通用的格式,解释HTML.
同学,醒醒吧,要是那么简单,大家也就不用纠结于ie核,还是 webkit 核了。