• R语言
  • 如何用XML对每个URL提取标题和正文?

在做要一个网页聚类的项目,前提是基于URL提取标题和正文,这一步就把俺难住了,对XML没怎么研究,想问一下有木有什么方法,多谢!

提取文档后,后面的文本挖掘应该都能搞定。

回复 第1楼 的 maec1208:

先学一下 html tag 是怎么样的吧,w3c 和 RFC 的资料先翻翻。网页还用不到XML这么大,html 只是 xml 一个子集。

回复 第1楼 的 maec1208:

提取文档后,有很多技术的事,比如分词,比如倒排索引,存储,分布式采集。

如果仅是一两个url,那是没有什么难度,但是你要面对上亿的页面,一切都是问题。一步步来吧,战略上藐视敌人,战术上要重视啊重视。

回复 第1楼 的 maec1208:

或者我理解错了,你想用一个XML描述 html 的状态,然后通过一种通用的格式,解释HTML.

同学,醒醒吧,要是那么简单,大家也就不用纠结于ie核,还是 webkit 核了。