[四格]xkcd.com/2298/ 無名 20/04/25(六)13:27:13 ID:xHvMwNuE No.1628989 評分:0, 年:0, 月:0, 週:0, 日:0, [+1 / -1] 最後更新:2020-04-25 20:01:24
「你那是冠狀病毒的基因序列嗎?」
「對!」
「有點怪吔,你用文字編輯器在檢視它?」
「很重要好嗎!我們基因學家都用NotePad在工作的」
「NotePad?」
「對!高級一點的研究室會用Word。它們可以讓你改變基因組的字體大小,或是把核苷酸變粗體或斜體」
「好喔」
「這些操作就是所謂的表徵遺傳學」
「嘿,為什麼那串基因有紅底線?」
「判別病毒時,我們會把它的基因組拿去作語法檢查。我們就是這樣找出突變的」
「天才啊!」
無題 無名 20/04/26(日)07:12:42 ID:b.FNhNNc No.1629820
無題 無名 20/04/26(日)07:17:04 ID:UGYRgrqo No.1629823
無題 無名 20/04/26(日)08:37:12 ID:G2kodP6M No.1629864
無題 無名 20/04/26(日)09:50:28 ID:PIvi1sJo No.1629912 >>1629809幾十年前的老前輩還印下來比對
後來資訊學蓬勃發展後
幾秒就可以完成比對
Alignment 和 blast 等等都輕輕鬆鬆
時代呀....
無題 無名 20/04/26(日)10:48:20 ID:IjyAYal6 No.1629958
>>1628989我2015年整理高通量定序結果也有用到notepad++
用word反而會檔案沒有回應
無題 無名 20/04/26(日)11:28:56 ID:7W1SyHgE No.1629988
無題 無名 20/04/26(日)11:33:56 ID:dmgmOE3U No.1629993 >>1629912> 幾十年前的老前輩還印下來比對
我是當碼農的原PO啦
基本上文字處理是電腦科學的看家本領,GNU基本工具的diff、sed等都可以輕鬆處理幾G的資料。既然基因序列可以文字化,那操作應該大同小異才對
>>1629978靠腰真的存成文字檔喔!?是依據什麼規則來斷行?
無題 無名 20/04/26(日)11:45:41 ID:WP4tbQn2 No.1630002
>>1629993問NCBI(O
這是從NCBI的genome抓下來的,不過斷行是沒啥影響,大概就是為了在網頁閱讀時比較方便
無題 無名 20/04/26(日)11:55:12 ID:kFrd.np. No.1630008
>>1629993這類檔案有固定的格式叫做fastq (或fasta)
不過原則上就是plain text 只是加上一些標記的規則
用notepad或是word都能開
另外斷行是以一個chromosome為原則 所以一行會有上百萬個字母
通常專門做的都會用python, R或是genome browser看比較容易