多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

國內最全IT社區平臺 聯系我們 | 收藏本站
阿里云優惠2
您當前位置:首頁 > php開源 > php教程 > PHP采集程序常用的采集函數收藏

PHP采集程序常用的采集函數收藏

來源:程序員人生   發布時間:2014-06-13 11:51:13 閱讀次數:2413次

這幾天關注了一下PHP的采集程序,才發現用PHP采集內容是這么方便,把經常用到的采集函數在這里總結一下,方便以后使用.

在php采集頁面中最常用的就是過濾一些特殊字符或把內容中的圖片也采集保存下來,下面我來給大家介紹我在寫php采集程序時一些常用的函數.

  1. 獲取所有鏈接內容和地址 
  2. function getAllURL($code){ 
  3. preg_match_all('/<as+href=["|']?([^>"' ]+)["|']?s*[^>]*>([^>]+)</a>/i',$code,$arr); 
  4. return array('name'=>$arr[2],'url'=>$arr[1]); 
  5. 獲取所有的圖片地址 
  6. function getImgSrc($code){ 
  7. $reg = "/]*src="(http://(.+)/(.+).(jpg|gif|bmp|bnp|png))"/isU"; 
  8. preg_match_all($reg$code$img_array, PREG_PATTERN_ORDER); 
  9. return $img_array[1]; 
  10. 當前的腳本網址 
  11. function getSelfURL(){ 
  12. if(!emptyempty($_SERVER["REQUEST_URI"])){ 
  13. $scriptName = $_SERVER["REQUEST_URI"]; 
  14. $nowurl = $scriptName
  15. }else
  16. $scriptName = $_SERVER["PHP_SELF"]; 
  17. if(emptyempty($_SERVER["QUERY_STRING"])) $nowurl = $scriptName
  18. else $nowurl = $scriptName."?".$_SERVER["QUERY_STRING"]; 
  19. return $nowurl
  20. 把全角數字轉為半角數字 
  21. function getAlabNum($fnum){ 
  22. $nums = array("0","1","2","3","4","5","6","7","8","9"); 
  23. $fnums = "0123456789"
  24. for($i=0;$i<=9;$i++) $fnum = str_replace($nums[$i],$fnums[$i],$fnum); 
  25. $fnum = ereg_replace("[^0-9.]|^0{1,}","",$fnum); 
  26. if($fnum==""$fnum=0; 
  27. return $fnum
  28. 去除HTML標記 
  29. function text2Html($txt){ 
  30. $txt = str_replace(" "," ",$txt); 
  31. $txt = str_replace("<","<",$txt); 
  32. $txt = str_replace(">",">",$txt); 
  33. $txt = preg_replace("/[rn]{1,}/isU","<br/>rn",$txt); 
  34. return $txt
  35. 清除HTML標記 
  36. function clearHtml($str){ 
  37. $str = str_replace('<','<',$str); 
  38. $str = str_replace('>','>',$str); 
  39. return $str
  40. 相對路徑轉化成絕對路徑 
  41. function relative2Absolute($content$feed_url) { 
  42. preg_match('/(http|https|ftp):///'$feed_url$protocol); 
  43. $server_url = preg_replace("/(http|https|ftp|news):///"""$feed_url); 
  44. $server_url = preg_replace("//.*/"""$server_url); 
  45. if ($server_url == '') { 
  46. return $content
  47. if (isset($protocol[0])) { 
  48. $new_content = preg_replace('/href="//''href="'.$protocol[0].$server_url.'/'$content); 
  49. $new_content = preg_replace('/src="//''src="'.$protocol[0].$server_url.'/'$new_content); 
  50. else { 
  51. $new_content = $content
  52. return $new_content
  53. 獲取指定標記中的內容 
  54. function getTagData($str$start$end){ 
  55. if ( $start == '' || $end == '' ){ 
  56. return
  57. $str = explode($start$str); 
  58. $str = explode($end$str[1]); 
  59. return $str[0]; 
  60. HTML表格的每行轉為CSV格式數組 
  61. function getTrArray($table) { 
  62. $table = preg_replace("'<td[^>]*?>'si",'"',$table); 
  63. $table = str_replace("</td>",'",',$table); 
  64. $table = str_replace("</tr>","{tr}",$table); 
  65. //去掉 HTML 標記 
  66. $table = preg_replace("'<[/!]*?[^<>]*?>'si","",$table); 
  67. //去掉空白字符 
  68. $table = preg_replace("'([rn])[s]+'","",$table); 
  69. $table = str_replace(" ","",$table); 
  70. $table = str_replace(" ","",$table); 
  71. $table = explode(",{tr}",$table); 
  72. array_pop($table); 
  73. return $table
  74. 將HTML表格的每行每列轉為數組,采集表格數據 
  75. function getTdArray($table) { 
  76. $table = preg_replace("'<table[^>]*?>'si","",$table); 
  77. $table = preg_replace("'<tr[^>]*?>'si","",$table); 
  78. $table = preg_replace("'<td[^>]*?>'si","",$table); 
  79. $table = str_replace("</tr>","{tr}",$table); 
  80. $table = str_replace("</td>","{td}",$table); 
  81. //去掉 HTML 標記 
  82. $table = preg_replace("'<[/!]*?[^<>]*?>'si","",$table); 
  83. //去掉空白字符 
  84. $table = preg_replace("'([rn])[s]+'","",$table); 
  85. $table = str_replace(" ","",$table); 
  86. $table = str_replace(" ","",$table); 
  87. $table = explode('{tr}'$table); 
  88. array_pop($table); 
  89. foreach ($table as $key=>$tr) { 
  90. $td = explode('{td}'$tr); 
  91. array_pop($td); 
  92. $td_array[] = $td
  93. return $td_array
  94. 返回字符串中的所有單詞 $distinct=true 去除重復 
  95. function splitEnStr($str,$distinct=true) { 
  96. preg_match_all('/([a-zA-Z]+)/',$str,$match); 
  97. if ($distinct == true) { 
  98. $match[1] = array_unique($match[1]); 
  99. sort($match[1]); 
  100. return $match[1]; 
生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關閉
程序員人生
主站蜘蛛池模板: a级片中文字幕 | 成人国产亚洲欧美成人综合网 | 亚洲成人在线视频网站 | 一区二区三区视频免费观看 | 福利一区国产 | 国产在线不卡 | 韩国jizz | 欧美性猛交99久久久久99 | 欧美激情精品久久久久久久 | 国产一区二区在线观看免费 | 伊人网2021 | 在线国产高清 | 欧美孕交videofree巨大 | 日本亚洲成高清一区二区三区 | 久久久久综合国产 | 国产精品一区二区三区免费视频 | 国产精品亚洲一区二区三区久久 | 亚洲高清国产一区二区三区 | 天堂 在线最新版在线 | purnhurb国产在线观看 | 色丁香色婷婷 | 国产精品久久1024 | 这里是九九伊人 | 麻豆影视免费观看 | 最近的中文字幕大全免费版 | 成人性色生活影片 | 免费欧美在线视频 | 久久国产精品成人免费 | 亚洲福利社 | 2022精品福利在线小视频 | 亚洲视频在线观看免费 | 性国产| 欧美高清videosfreeⅹ | 久久99精品久久久久久黑人 | 日韩亚洲欧美综合 | 老司机成人在线观看 | 伊人网大 | 亚洲无线一二三四区 | 国产婷婷丁香久久综合 | 网友自拍网站 | 最近中文字幕高清字幕6 |