增加網址:
文章備註、標題(會記錄下來,但是暫時不會顯示):
[綜合]無題 無名 ID:nO6NPBJ6 2019/09/28(六) 22:56:53.793 No.16132239
評分:0, 年:0, 月:0, 週:0, 日:0, [+1 / -1] 最後更新:2019-09-30 09:00:45
附圖
裡站搜尋功能有夠廢
想找的東西都找不到
想要把網頁爬下來,慢慢找
但裡站的網頁架構好像有些特殊,不知道從那下手
有太太能提供關鍵字嗎
無題 無名 ID:UAEAvjbU 2019/09/28(六) 22:59:37.926 No.16132267
>>太太
外來種滾
無題 無名 ID:gKI0uUZA 2019/09/28(六) 23:02:37.975 No.16132298
附圖
>>16132267
太太就是K島島民為了對抗外來種發展出來的用詞
真正的外來種都直接說大大
以前還有系列圖專門來嗆那些說大大的= =
無題 無名 ID:nO6NPBJ6 2019/09/28(六) 23:03:02.191 No.16132303
>>16132267
????????
已經是死語了嗎......
無題 無名 ID:apeAeSVw 2019/09/28(六) 23:03:58.767 No.16132310
>>16132303
不是
是現在外來種太多了
無題 無名 ID:z79jROeQ 2019/09/28(六) 23:04:12.339 No.16132314
>>16132239
關鍵字:習呆呆,習大大,蛇精男。
無題 無名 ID:sU4HVMzQ 2019/09/28(六) 23:04:24.335 No.16132315
附圖
>>16132303
不是 只是一個北七亂喊
無題 無名 ID:6liO7a6U 2019/09/28(六) 23:04:49.943 No.16132317
>>16132267
我覺你迷路了
無題 無名 ID:yFFwBLX. 2019/09/28(六) 23:05:54.037 No.16132328
>>16132303
外來種起手式
先喊外來種
無題 無名 ID:ixYf/PAI 2019/09/28(六) 23:06:06.644 No.16132331
>>16132267
好丟臉喔
要是我早就換ID了
無題 無名 ID:p4mz7Yug 2019/09/28(六) 23:06:07.867 No.16132333
附圖
無題 無名 ID:nO6NPBJ6 2019/09/28(六) 23:10:17.432 No.16132374
附圖
先別縮這個惹
回到主題啦!
無題 無名 ID:nO6NPBJ6 2019/09/28(六) 23:11:25.665 No.16132387
附圖
資工島民,jojo窩
無題 無名 ID:PGVg/z8k 2019/09/28(六) 23:13:03.031 No.16132402
>>16132239
>>架構
支那賤畜滾
無題 無名 ID:tH4sf6V. 2019/09/28(六) 23:15:07.375 No.16132412
無題 無名 ID:p4mz7Yug 2019/09/28(六) 23:16:30.801 No.16132418
回覆: >>16132435
附圖
>>16132402
id換很快喔
無題 無名 ID:PGVg/z8k 2019/09/28(六) 23:17:44.765 No.16132435
回覆: >>16132483
>>16132418
換你媽
Sage
無題 無名 ID:ixYf/PAI 2019/09/28(六) 23:18:20.252 No.16132443
>>16132402
人要有所成長阿
換了ID還是不長進
別浪費地球的氧氣好嗎
無題 無名 ID:nO6NPBJ6 2019/09/28(六) 23:18:57.941 No.16132452
回覆: >>16132475
附圖
>>16132402
http://terms.naer.edu.tw/detail/2336773/?index=1
不要亂拉= =
無題 無名 ID:6liO7a6U 2019/09/28(六) 23:21:00.665 No.16132467
>>16132402
架構已經用超過20年啦
你在亂什麼?
無題 無名 ID:KuQmL7WI 2019/09/28(六) 23:21:38.869 No.16132475
附圖
>>16132452
>工程圖學 通訊工程 計算機 電機 電子 機械
PGVg/z8k可能是文組
無題 無名 ID:p4mz7Yug 2019/09/28(六) 23:22:26.046 No.16132483
附圖
>>16132435
尼為什摸換這麼快
無題 無名 ID:LviD4/dA 2019/09/28(六) 23:24:49.795 No.16132502
回覆: >>16132516
附圖
>>16132483
日本?
無題 無名 ID:PGVg/z8k 2019/09/28(六) 23:25:36.102 No.16132512
回覆: >>16132606
一堆可憐可悲的可羅助
Sage
無題 無名 ID:CzNV5hAI 2019/09/28(六) 23:25:41.459 No.16132513
>>16132267
.........現在的89年級外來種連島民太太的梗都不知道
媽的你人生怎麼活的
無題 無名 ID:p4mz7Yug 2019/09/28(六) 23:25:51.828 No.16132516
附圖
>>16132502
日本時區ㄛ
無題 無名 ID:6liO7a6U 2019/09/28(六) 23:26:00.010 No.16132519
>>16132483
為什麼你的時區快了50分鐘
你是在佐賀縣是不是^^
無題 無名 ID:LviD4/dA 2019/09/28(六) 23:27:41.925 No.16132541
回覆: >>16132608
附圖
>>16132239
有幾個問題需要釐清
1.你要爬哪個版?
2.你要爬甚麼東西,文與圖全部嗎?
3.實作程式語言你要用哪一種?
無題 無名 ID:qkbUoWk6 2019/09/28(六) 23:32:16.906 No.16132606
>>16132512
自婊好了拉
無題 無名 ID:nO6NPBJ6 2019/09/28(六) 23:32:25.218 No.16132608
>>16132541
終於有島島願意理我惹QQ

1. k2玩具板
2. 主要是文字,但有圖會更方便
3. 希望是js或是python,雖然都只是有摸過的程度

目前是k2的網頁很奇怪,直接用網址只會錯誤
無題 無名 ID:LviD4/dA 2019/09/28(六) 23:44:08.649 No.16132731
附圖
>>16132608
首先講解一下一些東西
1.其實URL是htps://2nyan.org/fantasy/
至於先前的"htps://2cat.org/~toy/"或是"htps://2cat.org/toy/"算是跳轉頁,
然後網址會只剩下htps://2nyan.org,則是有JS在動手腳,這部分跳過不提。

2.分頁的杹,範例如下
htps://2nyan.org/fantasy/?page=2
,我想你應該知道我再說甚麼。

3.由於該站有跳轉機制,因此用開發者工具捕捉與研究時
,記得要把保留(先前)紀錄勾選。
無題 無名 ID:LviD4/dA 2019/09/28(六) 23:49:43.058 No.16132787
附圖
>>16132608
接下來是實作的部分

實做的話你需要用HTML解析套件,這樣才能夠結構杹內容,
幫助你進行比較複雜的比對,就我所知JS這部分處理起來比較輕鬆。

但是,如果你想自建小型資料庫或是自動搜圖之類的杹,我會建議你使用後端語言
Python,或是JAVA/C#/C++之類,這些會比較容易撰寫後續處理的需求。

好,總之回到HTML解析套件,Python的杹我剛有找到這個
htps://docs.python.org/3/library/html.parser.html
你看看合不合用,關鍵字的杹"Html format class/struct"

最後,附圖是杹
無題 無名 ID:KzHTxqSg 2019/09/28(六) 23:52:22.703 No.16132819
回覆: >>16132846
>>16132787
又你是
程式粗乃丸!
無題 無名 ID:LviD4/dA 2019/09/28(六) 23:54:06.567 No.16132846
附圖
無題 無名 ID:apeAeSVw 2019/09/28(六) 23:55:15.639 No.16132860
回覆: >>16132877
附圖
>>16132846
尼可以幫我寫一個讓頸椎腰椎不會這麼痛的程式嗎
無題 無名 ID:PHKJKXlA 2019/09/28(六) 23:55:43.851 No.16132867
回覆: >>16132896
附圖
>>16132731
粗乃丸真是太會丸惹
無題 無名 ID:nO6NPBJ6 2019/09/28(六) 23:56:02.067 No.16132870
回覆: >>16132872
附圖
>>16132787
謝謝泥 粗乃丸
之後在研究看看
無題 無名 ID:nO6NPBJ6 2019/09/28(六) 23:56:32.086 No.16132872
>>16132870
再拉幹= =
無題 無名 ID:LviD4/dA 2019/09/28(六) 23:56:55.329 No.16132877
回覆: >>16132900
附圖
>>16132860
沒有這種程式ㄛ,
我都素定時起來拉伸肩背來預防的ㄛ,
還有坐姿用盤腿來解決椅子高低差問題。

學習一下拉筋很有用ㄛ
無題 無名 ID:sU4HVMzQ 2019/09/28(六) 23:57:14.780 No.16132881
附圖
>>16132846
看到這些丸 就讓我好想射精
無題 無名 ID:lwhnJ7C6 2019/09/28(六) 23:57:15.574 No.16132882
>>16132846
該存好你的粗乃丸 做好踏上一流工程師的準備了
無題 無名 ID:LviD4/dA 2019/09/28(六) 23:58:18.527 No.16132896
回覆: >>16132912
附圖
無題 無名 ID:apeAeSVw 2019/09/28(六) 23:58:32.596 No.16132900
回覆: >>16132953
附圖
>>16132877
可是我已經被診斷沒得醫...
只能讓他不要惡化了...
好痛喔...
無題 無名 ID:2SW8bEi. 2019/09/28(六) 23:59:48.147 No.16132912
附圖
>>16132896
這噗素窩最愛的丸嗎
快過乃給窩抱抱
無題 無名 ID:oPiFz/YA 2019/09/29(日) 00:02:05.703 No.16132953
附圖
>>16132900
物理治療ㄛ,拉筋算是一種解決方式。

有空找個瑜珈課上吧;
若機緣允許,傳統國術武術的氣功也可以(但假貨太多)
無題 無名 ID:bIoGw0NU 2019/09/29(日) 00:03:54.831 No.16132970
>>16132239
這串 有外來種 有支語警察 有暴怒廚 有資工丸 還有高功能回應

K島的精華與汙穢都包含了,根本整個綜合的縮影,太經典了
無題 無名 ID:5ny3z0K2 2019/09/29(日) 00:05:44.403 No.16132987
附圖
>>16132787
我大概有些方向了
總結一下步驟就是

1. 保留紀錄
2. 直接GET網址

這樣對嗎?
無題 無名 ID:vjNDl0Mk 2019/09/29(日) 00:08:32.035 No.16133014
附圖
>>16132731
挖幹有JS!!!!!!
無題 無名 ID:5ny3z0K2 2019/09/29(日) 00:10:21.166 No.16133030
回覆: >>16133146
>>16132987
再問一下,保留紀錄如果要用python做有什麼辦法嗎?
是保留cookie嗎?
無題 無名 ID:oPiFz/YA 2019/09/29(日) 00:24:35.969 No.16133146
附圖
>>16133030
把結構杹的HTML抓出後,取出你要的訊息
包含一則訊息中的
1.內文
2.附圖網址
3.名稱
4.標題


接著塞到自建DB/檔案中,主要看你的需求ㄛ。
搞清楚需求,程式就算丸成三分之一了。


比較麻煩的會是你需要了解它的HTML TAG的排版規則,
才能運用套件對應TAG抓取規則捕捉到你要的訊息。
無題 無名 ID:oPiFz/YA 2019/09/29(日) 00:34:02.746 No.16133219
回覆: >>16133234
附圖
>>16132987
不用保留紀錄ㄛ,你只要打入正確的網址,
就可以從response中拿到丸整頁面內容,
接著進行加工處理就好ㄛ

例如:htps://2nyan.org/fantasy/
[aa]
<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN" "http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">

<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-tw">

<head>
....
</head>
...
<body>

...

<div class="threadpost reply" id="r18666"><a href="#" title="/toy/old/../src/1569549947049.jpg" class="imglink" target="_blank"><img alt="//thumb.2nyan.org/toy/old/../thumb/1569549947049s.jpg" src="//www.2nyan.org/share/trans.png" style="width:200px; height:109px;" class="img" title="164 KB" /></a><input type="checkbox" name="18666" id="18666" value="delete" />&nbsp; <label for="18666"><span class="title">TH。人工覺醒 有大大用過嗎?</span> <wbr /><nobr></nobr></label>&nbsp;<wbr />[19/09/27(五)10:05 ID:ewlbTNt2] <wbr /><nobr><span>[<a href="/toy/?res=18666&amp;no=18666" class="report-btn">舉報</a>]</span>[<a href='/toy/?res=18666&amp;no=18666' class='qlink' rel='nofollow' target='_blank'>回應</a>] <a href='/toy/?res=18666&amp;no=18666' class='qlink' rel='nofollow' target='_blank'>No.18666</a> </nobr>&nbsp;<span class="enabled-only-in-mobile"></span><nobr><span class="push_btn"><a href="javascript:void(0)" onclick="mod_pushpostShow(18666,event,true); event.cancelBubble=true; return false;"> 推文 </a></span></nobr><span class="enabled-only-in-desktop"></span> (<a onmouseover="this.href='/toy/old/../src/1569549947049.jpg'" target='_blank' href=''>JPG - 164 KB - 854x464</a>) &nbsp;<wbr /><nobr>[<a rel='nofollow' href='//data.2nyan.org/toy/old/pixmicat.php?mode=module&amp;load=mod_edit&amp;no=18666' title='修改內文'>edit</a>][<a href='/toy/?res=18666' name='p18666' class='qlink' rel='nofollow' target='_blank'>回應</a>]</nobr><div id='q18666' class="quote">最近玩具玩到變黑了想換一個
<br />
<br />TH。人工覺醒 OGC排第一名
<br />
<br />想說有沒有人有使用心得
<br />
<br />感謝了</div><table><tr><td></td></tr></table></div>
...

</body>

</html>

[/aa]
無題 無名 ID:5ny3z0K2 2019/09/29(日) 00:36:27.114 No.16133234
回覆: >>16133265
附圖
>>16133219
謝謝
我再試試看
無題 無名 ID:oPiFz/YA 2019/09/29(日) 00:42:16.565 No.16133265
附圖
>>16133234

試試看ㄛ,基本上這鳩素"爬蟲"