如何用XML对每个URL提取标题和正文？

maec1208 · 2013年6月14日

在做要一个网页聚类的项目，前提是基于URL提取标题和正文，这一步就把俺难住了，对XML没怎么研究，想问一下有木有什么方法，多谢！

提取文档后，后面的文本挖掘应该都能搞定。

lyxmoo · 2013年6月14日

回复第1楼的 maec1208：

先学一下 html tag 是怎么样的吧，w3c 和 RFC 的资料先翻翻。网页还用不到XML这么大，html 只是 xml 一个子集。

lyxmoo · 2013年6月14日

回复第1楼的 maec1208：

提取文档后，有很多技术的事，比如分词，比如倒排索引，存储，分布式采集。

如果仅是一两个url，那是没有什么难度，但是你要面对上亿的页面，一切都是问题。一步步来吧，战略上藐视敌人，战术上要重视啊重视。

lyxmoo · 2013年6月14日

回复第1楼的 maec1208：

或者我理解错了，你想用一个XML描述 html 的状态，然后通过一种通用的格式，解释HTML.

同学，醒醒吧，要是那么简单，大家也就不用纠结于ie核，还是 webkit 核了。