Python

使用 scrapy 爬取豆瓣电影 Top250

最近在学习使用 python 做数据分析,正好今天学了下 scrapy ,来写个爬虫练练手吧。因为是第一次写爬虫,先来个简单点的,那就爬豆瓣电影 Top250 吧。 因为这次我是在 windows 上写的,之前由于 window 的开发环境配置实在是不省心,各种问题搞得很烦躁。最近试了下 Anconda 这个 python 的科学计算环境发行包,它集成了很多常用的科学计算 package,省去了很多配置环境变量的步骤,能做到开箱即用。而且自带了非常简单易用的虚拟环境,python 版本之间可以随意切换,互不干扰。 环境配置 首先使用

Python

在 Python 中解析命令行参数

对于程序员来说,使用命令行几乎是家常便饭了。因为命令行下面的操作都比较便捷,不需要使用鼠标,手指可以不离开键盘,简单的一行命令能调用脚本执行很复杂的功能。而几乎每个命令行工具都提供了命令行的参数选项,方便使用者的学习、使用。 比如在命令行下输入 git --help 就能看到 Git 支持的命令行参数,每个对应的参数还有一些说明,能让没有使用过 Git 的人也能很快明白命令如何使用。 昨天我做的这个系统虽然用户只有自己,但是也加上了命令行参数的解析功能,让整个程序的逻辑看起来更清晰,使用起来也更方便。命令行参数解析是用 argparse 这个模块实现的,比如下面的例子就是 argparse 的简单使用。 import argparse parser = argparse.

Python

使用 Python 管理数据

最近有个自己的项目需要管理一些数据,虽然只有几百条,但是手动管理起来很麻烦,而且经常出错,所以想搞个系统,把这些数据都管理起来,方便后续使用。记得最开始做 iOS 开发的时候用过 Parse,觉得这样的服务挺不错,能为一些对后端要求不高的应用节省很多开发成本。可惜现在 Parse 关掉了。国内也有家提供 BAAS 服务的厂商 Leancloud,看了下文档,感觉和 Parse 几乎没啥区别,貌似就是照着 Parse 的接口写的。 Leancloud 支持的语言很多,由于我只用到了数据存储的服务,所以尝试用 Python 写了一些增删改查的操作,

Python

使用 pip 命令导出依赖

如果你也使用 Python,那么你是否遇到过在自己机器上运行良好,在别人的机器上却遇到缺少很多依赖的错误?最笨的方法是在缺少依赖的机器上逐个安装依赖,但是这样做不仅效率低,而且容易出错。其实我们可以使用 pip 来完整的导出项目依赖。 在项目的根目录,导出依赖: pip freeze > requirements.txt requirements.txt 这个文件会记录当前程序所有的依赖以及对应的版本。 安装依赖: pip install -r requirements.txt 这个命令会安装 requirements.txt 文件中的所有依赖。安装完毕之后就可以正常运行项目了。