• TF-IDF关键词提取实现

    本文旨在对特定的语料库生成各词的逆文档频率。然后根据TF-IDF算法进行关键词提取。 转载请注明出处:Gaussic 。 GitHub代码:https://github.com/gaussic/tf-idf-keyword 分词 对于中文文本的关键词提取,需要先进行分词操作。 去除其中的一些英文和数字,只保留中文: import jieba import re def segment(sentence, cut_all=False): sentence »

    Pytorch整理:60分钟入门

    由于种种原因,近段时间开始尝试使用Pytorch。照着官方给的教程慢慢搞,稍微有一点点理解。在这里做一点小小的记录和翻译工作。 官方地址:Deep Learning with PyTorch: A 60 Minute Blitz 感谢作者: Soumith Chintala 转载请说明出处:Gaussic:夜露 这个教程的目标: 更高层次地理解Pythrch的Tensor库以及神经网络。 训练一个小的神经网络模型用于分类图像。 什么是Pytorch 这是一个基于Python的科学计算包,主要针对两类人群: »

    百度新闻热搜词抓取

    原抓取网址为:http://news.baidu.com/n?cmd=1&class=reci Github代码:点击访问 转载请注明出处:https://blog.gaussic.com 接口与参数 接口的 base_url 为 http://news.baidu. »

    Django + uWSGI部署

    英文原文请参照此文:Setting up Django and your web server with uWSGI and nginx。我只是稍微翻译并总结了一下。 对于 Django 部署来说,选择 Nginx 和 uWSGI 是一个不错的选择,此教程旨在将 Django 部署到生产环境的服务器中。当然你也可以使用 Apache »