全球主机交流论坛

标题: 球给个思路 [打印本页]

作者: 我是大傻瓜    时间: 2014-4-20 08:42
标题: 球给个思路
从HTML中提取网页中的文章内容,但是网站很多,都是不同的,我不可能一个一个网页的写好提取模式再来提取吧?
请问该怎么取到内容?
作者: 暮雨秋晨    时间: 2014-4-20 09:58
切成数组,去除HTML标签,判断数组元素中字符量最大的一个,输出~~~
作者: 我是大傻瓜    时间: 2014-4-20 10:18
暮雨秋晨 发表于 2014-4-20 09:58
切成数组,去除HTML标签,判断数组元素中字符量最大的一个,输出~~~

我试试
作者: 欧阳逍遥    时间: 2014-4-20 10:18
百度有一个转码阅读,你看看。
作者: homodo    时间: 2014-4-20 10:20
正文提取算法
参考这个http://www.loc.010206.xyz/thread-240767-1-1.html

作者: 我是大傻瓜    时间: 2014-4-20 10:24
欧阳逍遥 发表于 2014-4-20 10:18
百度有一个转码阅读,你看看。

好方法!谢谢。想到了
作者: Skycloud    时间: 2014-4-20 11:19
我不是球




欢迎光临 全球主机交流论坛 (https://loc.010206.xyz/) Powered by Discuz! X3.4