全球主机交流论坛

标题: 球给个思路 [打印本页]

作者: 我是大傻瓜 时间: 2014-4-20 08:42
标题: 球给个思路
从HTML中提取网页中的文章内容，但是网站很多，都是不同的，我不可能一个一个网页的写好提取模式再来提取吧？
请问该怎么取到内容？

作者: 暮雨秋晨 时间: 2014-4-20 09:58
切成数组，去除HTML标签，判断数组元素中字符量最大的一个，输出~~~

作者: 我是大傻瓜 时间: 2014-4-20 10:18

暮雨秋晨发表于 2014-4-20 09:58
切成数组，去除HTML标签，判断数组元素中字符量最大的一个，输出~~~

我试试

作者: 欧阳逍遥 时间: 2014-4-20 10:18
百度有一个转码阅读，你看看。

作者: homodo 时间: 2014-4-20 10:20
正文提取算法
参考这个http://www.loc.010206.xyz/thread-240767-1-1.html

作者: 我是大傻瓜 时间: 2014-4-20 10:24

欧阳逍遥发表于 2014-4-20 10:18
百度有一个转码阅读，你看看。

好方法！谢谢。想到了

作者: Skycloud 时间: 2014-4-20 11:19
我不是球

欢迎光临全球主机交流论坛 (https://loc.010206.xyz/)