专栏名称: 王树义
终身学习者、大学教师。稍微懂一点儿写作、演讲、Python和机器学习。欢迎微信关注并置顶我的公众号“玉树芝兰”(nkwangshuyi)。我已委托“维权骑士”(rightknights.com)为我的文章进行维权行动。
目录
相关文章推荐
百职帮  ·  这个暑假学Python,开学直接惊艳所有人!! ·  13 小时前  
百职帮  ·  这个暑假学Python,开学直接惊艳所有人!! ·  13 小时前  
Python开发者  ·  今年IT就业市场的风向已经很明显了。。。 ·  昨天  
Python爱好者社区  ·  确认裁员了,很严重,所有人做好准备吧! ·  2 天前  
Python爱好者社区  ·  跌爆了。。。 ·  昨天  
Python爱好者社区  ·  挑行李回家的高考女生火了!热心网友愿资助,多 ... ·  2 天前  
51好读  ›  专栏  ›  王树义

如何用Python批量提取PDF文本内容?

王树义  · 简书  · Python  · 2018-03-22 09:34

正文

请到「今天看啥」查看全文


image

newpdf文件夹内容如下:

image

数据准备好了,下面我们来部署代码运行环境。

环境

要安装Python,比较省事的办法是装Anaconda套装。

请到 这个网址 下载Anaconda的最新版本。

image

请选择左侧的 Python 3.6 版本下载安装。

如果你需要具体的步骤指导,或者想知道Windows平台如何安装并运行Anaconda命令,请参考我为你准备的 视频教程

安装好Anaconda之后,打开终端,用 cd 命令进入 演示目录

如果你不了解具体使用方法,也可以参考 视频教程

我们需要安装一些环境依赖包。

首先执行:

pip install pipenv 

这里安装的,是一个优秀的 Python 软件包管理工具 pipenv 。
安装后,请执行:

pipenv install --skip-lock 

pipenv 工具会依照Pipfile,自动为我们安装所需要的全部依赖软件包。

终端里面会有进度条,提示所需安装软件数量和实际进度。

装好后,根据提示我们执行:

pipenv shell 

这样,我们就进入本教程专属的虚拟运行环境了。

注意一定要执行下面这句:

python -m ipykernel install --user --name=py36 

只有这样,当前的Python环境才会作为核心(kernel)在系统中注册,并且命名为py36。

此处请确认你的电脑上已经安装了 Google Chrome 浏览器。

我们执行:

jupyter notebook 

默认浏览器(Google Chrome)会开启,并启动 Jupyter 笔记本界面:

image

你可以直接点击文件列表中的第一项ipynb文件,可以看到本教程的全部示例代码。

你可以一边看教程的讲解,一边依次执行这些代码。

image

但是,我 建议 的方法,是回到主界面下,新建一个新的空白 Python 3 笔记本(显示名称为 py36 的那个)。







请到「今天看啥」查看全文