全球主机交流论坛
标题:
球给个思路
[打印本页]
作者:
我是大傻瓜
时间:
2014-4-20 08:42
标题:
球给个思路
从HTML中提取网页中的文章内容,但是网站很多,都是不同的,我不可能一个一个网页的写好提取模式再来提取吧?
请问该怎么取到内容?
作者:
暮雨秋晨
时间:
2014-4-20 09:58
切成数组,去除HTML标签,判断数组元素中字符量最大的一个,输出~~~
作者:
我是大傻瓜
时间:
2014-4-20 10:18
暮雨秋晨 发表于 2014-4-20 09:58
切成数组,去除HTML标签,判断数组元素中字符量最大的一个,输出~~~
我试试
作者:
欧阳逍遥
时间:
2014-4-20 10:18
百度有一个转码阅读,你看看。
作者:
homodo
时间:
2014-4-20 10:20
正文提取算法
参考这个
http://www.loc.010206.xyz/thread-240767-1-1.html
作者:
我是大傻瓜
时间:
2014-4-20 10:24
欧阳逍遥 发表于 2014-4-20 10:18
百度有一个转码阅读,你看看。
好方法!谢谢。想到了
作者:
Skycloud
时间:
2014-4-20 11:19
我不是球
欢迎光临 全球主机交流论坛 (https://loc.010206.xyz/)
Powered by Discuz! X3.4