用php來做采集器主要用到兩個函數(shù):file_get_conte " /> 玉林天天论坛,亚洲爆乳无码精品AAA片蜜桃,AV72啪啪网站

天天躁日日躁狠狠躁AV麻豆-天天躁人人躁人人躁狂躁-天天澡夜夜澡人人澡-天天影视香色欲综合网-国产成人女人在线视频观看-国产成人女人视频在线观看

利用PHP制作簡單的內(nèi)容采集器的原理分析

前幾天做了個小說連載的程序,因為怕更新麻煩,順帶就寫了個采集器,采集八路中文網(wǎng)的,功能比較簡單,不能自定義規(guī)則,不過大概思路都在里面了,自定義規(guī)則可以自己來擴展。

  用php來做采集器主要用到兩個函數(shù):file_get_contents()和preg_match_all(),前一個是遠(yuǎn)程讀取網(wǎng)頁內(nèi)容的,不過只在php5以上的版本才能用,后一個是正則函數(shù),用來提取需要的內(nèi)容的。

  下面就一步一步來講功能實現(xiàn)。

  因為是采集小說,所以首先要將書名、作者、類型這三個提取出來,別的信息可根據(jù)需要提取。

  這里以《回到明朝當(dāng)王爺》為目標(biāo),先打開書目頁,鏈接:http://www.86zw.com/Book/3727/Index.ASPx

  多打開幾本書會發(fā)現(xiàn),書名的基本格式是:http://www.86zw.com/Book/書號/Index.ASPx,于是我們可以做一個開始頁,定義一個<input type=text name=number>,用來輸入需要采集的書號,以后就可以通過$_POST[‘number']這種格式來接收需要采集的書號了。接收到書號,下面要做的就是構(gòu)造書目頁:$url=http://www.86zw.com/Book/$_POST[‘number']/Index.ASPx,當(dāng)然這里是舉個例子,主要是為了講解方便,實際制作的時候最好檢查一下$_POST[‘number']的合法性。

  構(gòu)造好URL以后就可以開始采集書籍信息了。使用file_get_contents() 函數(shù)打開書目頁:$content=file_get_contents($url),這樣就能將書目頁的內(nèi)容都讀取出來了。接下來就是將書名、作者和類型等信息匹配出來了。這里就以書名為例,其他的都一樣。 打開書目頁,查看源文件,找到“<span class="booktitle">《回到明朝當(dāng)王爺》</span>”,這就是要提取出來的書名了。提取書名的正則表達式:/<span class=/"newstitle/">(.*?)/<//span>/is,使用preg_match_all()函數(shù)將書名取出:preg_match_all("/<span class=/"newstitle/">(.*?)/<//span>/is",$contents,$title);這樣$title[0][0]的內(nèi)容就是我們要的標(biāo)題了(preg_match_all函數(shù)的用法可以去百度查,這里就不詳細(xì)說明了)。取出了書籍信息,接下來就是取章節(jié)內(nèi)容了,要取章節(jié)內(nèi)容,首先要做的就是找到每一章的地址,然后遠(yuǎn)程打開章節(jié),用正則將內(nèi)容取出來,入庫或者直接生成html靜態(tài)文件。這個是章節(jié)列表的地址:http://www.86zw.com/Html/Book/18/3727/List.shtm,可以看出這個和書目頁一樣,是有規(guī)律可尋的:http://www.86zw.com/Html/Book/分類號/書號/List.shtm。書號前面已經(jīng)取得,這里的關(guān)鍵是找到分類號,分類號可以在前面的書目頁找到,提取分類號:

  preg_match_all("/Html//Book//[0-9]{1,}//[0-9]{1,}//List/.shtm/is",$contents,$typeid);這樣還不夠,還需要一個切取函數(shù):
php代碼如下:

function cut($string,$start,$end){
$message = explode($start,$string);
$message = explode($end,$message[1]); return $message[0];}其中$string為要被切取的內(nèi)容,$start為開始的地方,$end為結(jié)束的地方。取出分類號:

$start = "Html/Book/";
$end
= "List.shtm";
$typeid = cut($typeid[0][0],$start,$end);
$typeid = explode("/",$typeid);[/php]

  這樣,$typeid[0]就是我們要找的分類號了。接下來就是構(gòu)造章節(jié)列表的地址了:$chapterurl = http://www.86zw.com/Html/Book/.$typeid[0]/$_POST[‘number']/List.shtm。有了這個就能找到每一章節(jié)的地址了。方法如下:

$ustart = "/"";
$uend
= "/"";
//t表示title的縮寫
$tstart = ">";
$tend
= "<";
//取路徑,例如:123.shtm,2342.shtm,233.shtm
preg_match_all("http://"[0-9]{1,}/.(shtm)/"/is",$chapterurl,$url);
//取標(biāo)題,例如:第一章 九世善人
preg_match_all("/<a href=/"[0-9]{1,}/.shtm/"(.*?)/<//a>/is",$file,$title);
$count = count($url[0]);
for($i=0;$i<=$count;$i++)
{
$u = cut($url[0][$i],$ustart,$uend);
$t = cut($title[0][$i],$tstart,$tend);
$array[$u] = $t;
}

  $array數(shù)組就是所有的章節(jié)地址了,到這里,采集器就完成一半了,剩下的就是循環(huán)打開每個章節(jié)地址,讀取,然后將內(nèi)容匹配出來。這個比較簡單,這里就不詳細(xì)敘述了。好了,今天就先寫到這吧,第一次寫這么長的文章,語言組織方面難免有問題,還請大家多包涵!

php技術(shù)利用PHP制作簡單的內(nèi)容采集器的原理分析,轉(zhuǎn)載需保留來源!

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。

主站蜘蛛池模板: 国产小视频免费看 | BL文库好大粗黑强强肉NP | 黑吊大战白xxxxxx | 亚洲一区精品伊人久久伊人 | 精品久久香蕉国产线看观看麻豆 | 97精品国产自产在线观看永久 | 国产精品一区二区在线播放 | 国产精品欧美亚洲 | 超碰在线视频 | 最近中文字幕免费高清MV视频6 | 欧美午夜免费观看福利片 | 毛片免费观看 | 免费伦理片网站 | 欧美xxxx性喷潮 | 国产永久免费观看视频软件 | 青青青国产依人精品视频 | 色多多旧版污污破解版 | 校花被扒衣吸乳羞羞漫画 | 日本亚欧热亚洲乱色视频 | 国产日韩精品一区二区在线观看 | 在线播放免费人成毛片视频 | 国产一区私人高清影院 | 被公疯狂玩弄的漂亮人妻 | 久久AAAA片一区二区 | 亚洲国产在线午夜视频无 | 乐乐亚洲精品综合影院 | 久久AV喷吹AV高潮欧美 | 欧美精品专区免费观看 | 久久这里只有精品国产99 | 在线观看日韩一区 | 国产精品人妻一区免费看8C0M | 精品第一国产综合精品蜜芽 | 日本高清免费在线 | 亚洲AV久久婷婷蜜臀无码不卡 | 免费观看美女的网站 | 欧美最新色p图 | 日本内射精品一区二区视频 | 亚洲、国产综合视频 | 午夜神器18以下不能进免费 | 99久久国产露脸精品竹菊传煤 | 消息称老熟妇乱视频一区二区 |