[綜合]無題 無名 ID:nO6NPBJ6 2019/09/28(六) 22:56:53.793 No.16132239 評分:0, 年:0, 月:0, 週:0, 日:0, [+1 / -1] 最後更新:2019-09-30 09:00:45
裡站搜尋功能有夠廢
想找的東西都找不到
想要把網頁爬下來,慢慢找
但裡站的網頁架構好像有些特殊,不知道從那下手
有太太能提供關鍵字嗎
無題 無名 ID:gKI0uUZA 2019/09/28(六) 23:02:37.975 No.16132298
>>16132267太太就是K島島民為了對抗外來種發展出來的用詞
真正的外來種都直接說大大
以前還有系列圖專門來嗆那些說大大的= =
無題 無名 ID:apeAeSVw 2019/09/28(六) 23:03:58.767 No.16132310
無題 無名 ID:z79jROeQ 2019/09/28(六) 23:04:12.339 No.16132314
無題 無名 ID:sU4HVMzQ 2019/09/28(六) 23:04:24.335 No.16132315
無題 無名 ID:6liO7a6U 2019/09/28(六) 23:04:49.943 No.16132317
無題 無名 ID:yFFwBLX. 2019/09/28(六) 23:05:54.037 No.16132328
無題 無名 ID:ixYf/PAI 2019/09/28(六) 23:06:06.644 No.16132331
無題 無名 ID:p4mz7Yug 2019/09/28(六) 23:06:07.867 No.16132333
無題 無名 ID:nO6NPBJ6 2019/09/28(六) 23:10:17.432 No.16132374
先別縮這個惹
回到主題啦!
無題 無名 ID:nO6NPBJ6 2019/09/28(六) 23:11:25.665 No.16132387
資工島民,jojo窩
無題 無名 ID:tH4sf6V. 2019/09/28(六) 23:15:07.375 No.16132412
無題 無名 ID:ixYf/PAI 2019/09/28(六) 23:18:20.252 No.16132443
無題 無名 ID:nO6NPBJ6 2019/09/28(六) 23:18:57.941 No.16132452 >>16132402http://terms.naer.edu.tw/detail/2336773/?index=1
不要亂拉= =
無題 無名 ID:6liO7a6U 2019/09/28(六) 23:21:00.665 No.16132467
無題 無名 ID:KuQmL7WI 2019/09/28(六) 23:21:38.869 No.16132475
無題 無名 ID:CzNV5hAI 2019/09/28(六) 23:25:41.459 No.16132513
無題 無名 ID:p4mz7Yug 2019/09/28(六) 23:25:51.828 No.16132516
無題 無名 ID:6liO7a6U 2019/09/28(六) 23:26:00.010 No.16132519
無題 無名 ID:qkbUoWk6 2019/09/28(六) 23:32:16.906 No.16132606
無題 無名 ID:nO6NPBJ6 2019/09/28(六) 23:32:25.218 No.16132608 >>16132541終於有島島願意理我惹QQ
1. k2玩具板
2. 主要是文字,但有圖會更方便
3. 希望是js或是python,雖然都只是有摸過的程度
目前是k2的網頁很奇怪,直接用網址只會錯誤
無題 無名 ID:LviD4/dA 2019/09/28(六) 23:44:08.649 No.16132731 >>16132608首先講解一下一些東西
1.其實URL是htps://2nyan.org/fantasy/
至於先前的"htps://2cat.org/~toy/"或是"htps://2cat.org/toy/"算是跳轉頁,
然後網址會只剩下htps://2nyan.org,則是有JS在動手腳,這部分跳過不提。
2.分頁的杹,範例如下
htps://2nyan.org/fantasy/?page=2
,我想你應該知道我再說甚麼。
3.由於該站有跳轉機制,因此用開發者工具捕捉與研究時
,記得要把保留(先前)紀錄勾選。
無題 無名 ID:LviD4/dA 2019/09/28(六) 23:49:43.058 No.16132787 >>16132608接下來是實作的部分
實做的話你需要用HTML解析套件,這樣才能夠結構杹內容,
幫助你進行比較複雜的比對,就我所知JS這部分處理起來比較輕鬆。
但是,如果你想自建小型資料庫或是自動搜圖之類的杹,我會建議你使用後端語言
Python,或是JAVA/C#/C++之類,這些會比較容易撰寫後續處理的需求。
好,總之回到HTML解析套件,Python的杹我剛有找到這個
htps://docs.python.org/3/library/html.parser.html
你看看合不合用,關鍵字的杹"Html format class/struct"
最後,附圖是杹
無題 無名 ID:nO6NPBJ6 2019/09/28(六) 23:56:32.086 No.16132872
無題 無名 ID:sU4HVMzQ 2019/09/28(六) 23:57:14.780 No.16132881
無題 無名 ID:lwhnJ7C6 2019/09/28(六) 23:57:15.574 No.16132882
無題 無名 ID:2SW8bEi. 2019/09/28(六) 23:59:48.147 No.16132912
無題 無名 ID:oPiFz/YA 2019/09/29(日) 00:02:05.703 No.16132953
>>16132900物理治療ㄛ,拉筋算是一種解決方式。
有空找個瑜珈課上吧;
若機緣允許,傳統國術武術的氣功也可以(但假貨太多)
無題 無名 ID:bIoGw0NU 2019/09/29(日) 00:03:54.831 No.16132970
>>16132239這串 有外來種 有支語警察 有暴怒廚 有資工丸 還有高功能回應
K島的精華與汙穢都包含了,根本整個綜合的縮影,太經典了
無題 無名 ID:vjNDl0Mk 2019/09/29(日) 00:08:32.035 No.16133014
無題 無名 ID:5ny3z0K2 2019/09/29(日) 00:10:21.166 No.16133030 無題 無名 ID:oPiFz/YA 2019/09/29(日) 00:24:35.969 No.16133146
>>16133030把結構杹的HTML抓出後,取出你要的訊息
包含一則訊息中的
1.內文
2.附圖網址
3.名稱
4.標題
接著塞到自建DB/檔案中,主要看你的需求ㄛ。
搞清楚需求,程式就算丸成三分之一了。
比較麻煩的會是你需要了解它的HTML TAG的排版規則,
才能運用套件對應TAG抓取規則捕捉到你要的訊息。
無題 無名 ID:oPiFz/YA 2019/09/29(日) 00:34:02.746 No.16133219 >>16132987不用保留紀錄ㄛ,你只要打入正確的網址,
就可以從response中拿到丸整頁面內容,
接著進行加工處理就好ㄛ
例如:htps://2nyan.org/fantasy/
[aa]
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN" "http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-tw">
<head>
....
</head>
...
<body>
...
<div class="threadpost reply" id="r18666"><a href="#" title="/toy/old/../src/1569549947049.jpg" class="imglink" target="_blank"><img alt="//thumb.2nyan.org/toy/old/../thumb/1569549947049s.jpg" src="//www.2nyan.org/share/trans.png" style="width:200px; height:109px;" class="img" title="164 KB" /></a><input type="checkbox" name="18666" id="18666" value="delete" /> <label for="18666"><span class="title">TH。人工覺醒 有大大用過嗎?</span> <wbr /><nobr></nobr></label> <wbr />[19/09/27(五)10:05 ID:ewlbTNt2] <wbr /><nobr><span>[<a href="/toy/?res=18666&no=18666" class="report-btn">舉報</a>]</span>[<a href='/toy/?res=18666&no=18666' class='qlink' rel='nofollow' target='_blank'>回應</a>] <a href='/toy/?res=18666&no=18666' class='qlink' rel='nofollow' target='_blank'>No.18666</a> </nobr> <span class="enabled-only-in-mobile"></span><nobr><span class="push_btn"><a href="javascript:void(0)" onclick="mod_pushpostShow(18666,event,true); event.cancelBubble=true; return false;"> 推文 </a></span></nobr><span class="enabled-only-in-desktop"></span> (<a onmouseover="this.href='/toy/old/../src/1569549947049.jpg'" target='_blank' href=''>JPG - 164 KB - 854x464</a>) <wbr /><nobr>[<a rel='nofollow' href='//data.2nyan.org/toy/old/pixmicat.php?mode=module&load=mod_edit&no=18666' title='修改內文'>edit</a>][<a href='/toy/?res=18666' name='p18666' class='qlink' rel='nofollow' target='_blank'>回應</a>]</nobr><div id='q18666' class="quote">最近玩具玩到變黑了想換一個
<br />
<br />TH。人工覺醒 OGC排第一名
<br />
<br />想說有沒有人有使用心得
<br />
<br />感謝了</div><table><tr><td></td></tr></table></div>
...
</body>
</html>
[/aa]
無題 無名 ID:oPiFz/YA 2019/09/29(日) 00:42:16.565 No.16133265