多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

國內最全IT社區平臺 聯系我們 | 收藏本站
阿里云優惠2
您當前位置:首頁 > 服務器 > 機器學習--樸素貝葉斯算法案例

機器學習--樸素貝葉斯算法案例

來源:程序員人生   發布時間:2015-05-19 08:05:24 閱讀次數:2636次

電子郵件垃圾過濾

 

1、如何從文本文檔中構建自己的詞列表。使用正則表達式切分句子,并將字符串全部轉換為小寫。

####################################
# 功能:切分文本
# 輸入變量:大字符串 big_string
# 輸出變量:字符串列表
####################################
def text_parse(big_string):

    list_of_tokens = re.split(r'W*', big_string)
    return [tok.lower() for tok in list_of_tokens if len(tok) > 2]

 

2、對貝葉斯垃圾郵件分類器自動化處理。本例中共有50封電子郵件,其中的10封電子郵件被隨機選擇為測試集,剩余部份作為訓練集。通過量次迭代求出平均毛病率來衡量分類器的性能。

####################################
# 功能:垃圾郵件測試
# 輸入變量:空
# 輸出變量:毛病率
####################################
def spam_test():

    doc_list = []
    class_list = []

    for i in xrange(1, 26):

        word_list = text_parse(open('email/spam/%d.txt' % i).read())
        doc_list.append(word_list)
        class_list.append(1)

        word_list = text_parse(open('email/ham/%d.txt' % i).read())
        doc_list.append(word_list)
        class_list.append(0)

    vocab_list = create_vocab_list(doc_list)
    training_set = range(50)
    test_set = []

    # 從50封郵件中隨機選擇10封做為測試集,相應的在訓練集中剔除這10封郵件
    for i in xrange(10):

        rand_index = int(random.uniform(0, len(training_set)))
        test_set.append(training_set[rand_index])
        del(training_set[rand_index])

    train_mat = []
    train_classes = []

    for doc_index in training_set:

        train_mat.append(set_of_words2vec(vocab_list, doc_list[doc_index]))
        train_classes.append(class_list[doc_index])

    p0v, p1v, p_spam = train_nb0(array(train_mat), array(train_classes))

    error_count = 0

    # 遍歷測試集,對其中的每封郵件進行分類
    for doc_index in test_set:
        word_vector = set_of_words2vec(vocab_list, doc_list[doc_index])
        if classify_nb(array(word_vector), p0v, p1v, p_spam) != class_list[doc_index]:
            error_count += 1
            print 'classification error ', doc_list[doc_index]
    print 'the error rate is: ', float(error_count)/len(test_set)

 

3、代碼測試

def main(): 

    spam_test()
if __name__ == '__main__':
    main()

生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關閉
程序員人生
主站蜘蛛池模板: 欧美一区二区三区视视频 | 羞色影院| 欧美曰韩一区二区三区 | 日韩精品1区 | 主播福利视频在线观看网址 | 国产午夜永久福利视频在线观看 | 福利精品一区 | 久久艹免费视频 | 91国内精品久久久久免费影院 | 老司机午夜在线 | www午夜 | 午夜视频在线免费观看 | 欧美在线观看视频一区 | 妇欲欢公爽公妇高h欲 | 日韩手机在线观看 | 性做久久久久久免费观看 | 国产无套免费网站 | 精品国产精品 | 中文精品久久久久中文 | 欧美人欧美人与动人物性行为 | 蜜桃精品免费久久久久影院 | 日韩欧美一区二区中文字幕 | 伊人久久免费 | www.日本一区 | 亚洲国产成人精品女人久久久 | 亚洲欧美精品久久 | 成人国产亚洲 | 在线观看亚洲免费视频 | 亚亚洲乱码一二三四区 | 国产精品第| 国产精品国产亚洲精品不卡 | 国内精品福利 | 三级小说第一页 | 男女男精品视频网站在线观看 | 亚洲欧美日韩在线观看看另类 | 国产成人永久免费视频 | 大学生一级一片第一次免费 | 国产在线欧美日韩一区二区 | 黄色毛片播放 | 国产一区二区不卡免费观在线 | 日本视频一区二区三区 |