阿福的空虛世界

2011年11月6日星期日

Nico Instant ( ニコニコインスタント )

Unknown 晚上10:40

前言：其實...這個在九月底就寫好了，只是...要放上Chorme套件平台，需要申請帳號並且要刷5塊美金，
因為沒有信用卡可刷，就這樣放置到現在...Orz

簡介：自己本身還蠻常逛nico動畫的，所以就趁閒暇的時候寫了一個搜尋工具。

套件名稱：Nico Instant (暫定)

下載點：https://sites.google.com/site/kilfu0701b/nico-instant/nico_instant.crx?attredirects=0&d=1
　　　　http://goo.gl/xrGnM

使用介紹：
1. 基本上，安裝完成後會看到一個圖示，點圖示後會出現一個popup頁面(如下圖)，
　這時候可以輸入你要搜尋影片的關鍵字...

2. 人氣標籤功能：當時只有寫search功能，但是...，當腦內一片空白的時候，
　連我自己也不知道要找什麼影片...(飛踢)。所以，就在左上角寫了一個小工具，
　可以找找人氣標籤。若找不到想要的名稱，可以點"人氣標籤"左鍵一下，
　會隨機抓取其他的名稱，或是直接"查看更多"。

3. 一般使用：預設是關鍵字去搜尋，直接輸入要找的關鍵字，下面就會出現搜尋的結果。

4. 其他功能：其實可以用"關鍵字"或"標籤"去搜尋。然後，也有其他選項可排序，
　比如最新評論、上傳、撥放次數等等。

5. 若想保留剛剛的搜尋結果，不妨把頁面開到新的視窗吧。

誰適合使用此套件：
　　經常逛nico、看nico影片的人

誰不適合使用此套件：
　　嗯?? Nico是甚麼？好吃嗎？(誤很大)

其他：如果有任何使用問題，歡迎回報錯誤。
　　　若有其他想要的附加功能，也可推薦一下。

PS：目前作者轉戰Python BBS開發中，有想到其他功能再補上去！

2011年3月13日星期日

Python /

Python with Notepad++

Unknown 晚上7:46

前言

Notepad++真的是個神兵利器阿，

不只是功能齊全還有一堆強大的外掛，

這裡就來說一下，如何使用Notepad++來開發Python

設定&使用

STEP 1:

下載安裝Notepad++

STEP 2:

安裝外掛模組...( 原本沒有安裝 )

點選外掛模組 > plugin manager > show plugin manager

找到並勾選 NppExec，安裝他！

然後重新啟動Notepad++

STEP 3:

可以直接按F6 或是外掛模組 > NppExec

在使用F6前，先把外掛模組 > NppExec > Follow $(CURRENT_DIRECTORY) 勾選起來吧

然後，按F6會出現一個對話框，輸入下面這行
c:\Python27\python.exe -u "$(FULL_CURRENT_PATH)"

把它Save成你要的名稱，方便以後直接使用！

執行 GO！

下面就會出現執行的視窗...可以看執行過程。

備註：

1.
這個視窗不只是這樣而已，還可以當作一般的cmd來使用，
可以下指令yooo，還不錯用！

2.
還有就是，Notepad++預設tab可能要改一下，
不然compiler會有錯誤！
可以到自訂 > 使用者自訂 > tab設定
在右邊的欄標(tab)設定，選python後...把"以space取代"勾起來！

3.
若真的遇到Tab卻又不知道藏在哪裡？
那可以在F6裡面加入一個新的指令：
c:\Python27\python.exe -m tabnanny "$(FULL_CURRENT_PATH)"

這樣就會跟你說哪邊會有tab問題了！

2011年3月9日星期三

Python /

[Python] 使用BeautifulSoup

Unknown 晚上7:05

前言

最近工作需求，須要從html的網頁抓取特定的資料，

本來想說用Regular expression來判斷過濾，但是這樣反而比較麻煩...

所已找到了一個套件，叫做 BeautifulSoup。

它可以拿來parsing html的內容，並擷取你想要的tag以及content資料，

使用上算是蠻方便，至於執行效能上...算是普通吧(?)

廢話不多說，那來開始介紹如何使用吧！

安裝&使用

方法1: 用 pip 安裝

pip install beautifulsoup4

方法2: 用 easy_install 安裝

easy_install beautifulsoup4

方法3: 從原始碼安裝
首先要安裝setuptools

pip install -U pip setuptools

首先到官方網站下載python套件！
( https://www.crummy.com/software/BeautifulSoup/bs4/download/ )

解壓縮後到該目錄下，會看到幾個.py檔案，其中會有一個setup.py，下安裝的指令:

python setup.py install

測試是否安裝成功

python -c "import bs4; print bs4.__version__"

沒有任何問題就是安裝完了！

接著開始寫程式吧...要使用這個libary時，
需要在程式裡加入:

from bs4 import BeautifulSoup

在版本3.x以前，要用這方式

from BeautifulSoup import BeautifulSoup

很多使用方法，在官方的文件都有詳細記載！
英文文件

小範例程式1

# -*- coding: UTF-8 -*-
import sys
from BeautifulSoup import BeautifulSoup
 
reload(sys)
sys.setdefaultencoding('utf8')

# HTML資料
data = [
    '<html>',
    '<head>',
    '<title>TITLE</title>',
    '</head>',
    '<body>Hi!',
    '<a href="test1.html" attr="1">Link1</a>',
    '<a href="test2.html" attr="2">Link2</a>',
    '</body>',
    '</html>'
]  

soup = BeautifulSoup(''.join(data))       # 讀進BeautifulSoup
print "[SOAP]:", soup
print "[HTML]:", soup.contents[0]         # <html>的資料
print "[TAG-NAME]", soup.contents[0].name # 該TAG的名稱
print "[HTML>HEAD]:", soup.contents[0].contents[0] # html > head

print

body = soup.contents[0].contents[1] # html > body
print "[TAG-NAME]:", body.name      # 該TAG的名稱
print "[Parent]:", body.parent      # 往上一個TAG
print "[Next]:", body.next          # 往下

print

print soup.html.head.title         # 直接用TAG的路徑找
print soup.html.head.title.string  # 取得TAG的內容
print soup.findAll('a', href=True) # 取得所有<a>
print soup.findAll('a', href=True, attr='1') # 取得<a>並且屬性attr='1'

上面是一些基本的用法，至於比較進階的用法...

還是去參考文件，有詳細的說明會比較好理解！

小範例程式2

# -*- coding: UTF-8 -*-
from __future__ import print_function

import os, sys, urllib, urllib2
from urllib2 import urlopen, Request
from bs4 import BeautifulSoup
from time import strftime


reload(sys)
sys.setdefaultencoding('utf8')

constellation = [
    [u'牡羊座', 'aries'],
    [u'金牛座', 'taurus'],
    [u'雙子座', 'gemini'],
    [u'巨蟹座', 'cancer'],
    [u'獅子座', 'leo'],
    [u'處女座', 'virgo'],
    [u'天秤座', 'libra'],
    [u'天蠍座', 'scorpio'],
    [u'射手座', 'sagittarius'],
    [u'魔羯座', 'capricorn'],
    [u'水瓶座', 'aquarius'],
    [u'雙魚座', 'pisces'],
]

web_url = "http://mindcity.sina.com.tw/west/12horos/today/"

date_t = strftime("%Y%m%d") # 取得今天日期

for x_list in constellation:
    try:
        url = web_url + x_list[1]
        print(x_list[0], url)
        data = urllib2.urlopen(url)
        soup = BeautifulSoup(data, "html.parser")

        div_lotstars = soup.find('div', {'class': 'lotstars'}) # 找出 div class="lotstars"
        if div_lotstars == None:
            print("div .lotstars NOT FOUND!!")
            continue

        soup2 = BeautifulSoup(str(div_lotstars), "html.parser")
        h4 = soup2.findAll("h4")                 # 找出h4
        p = soup2.findAll("p")                   # 找出p
        for title, value in zip(h4[:9], p[:9]):  # 取前9個
            print(title.contents[0], value.contents[0])

        print("-" * 20)

    except Exception,e:
        print(e)

(這只是測試抓取網頁某些表格資訊，資料使用的合法性我就不清楚了，還是別亂使用比較好(笑))

若比較在意執行效能的快慢，也許可以使用看看lxml這個套件

追記

(2016/10/21) 更新範例程式2, 安裝方法

阿福的空虛世界

2011年11月6日星期日

Nico Instant ( ニコニコインスタント )

2011年3月13日星期日

Python with Notepad++

2011年3月9日星期三

[Python] 使用BeautifulSoup

About

Popular

Categories

網誌存檔

QR-code

連結區

關於我自己

+一些畫師Link+