doccano是documment anotation的缩写,是一个开源的文本标注工具,我们可以用它为NLP任务的语料库进行打标。它支持情感分析,命名实体识别,文本摘要等任务。当然最新版本的doccano还可以对CV任务的数据进行打标,果然CV、NLP不分家
主要就是汉化一下doccano的安装流程(使用anaconda虚拟环境、pip),然后再苦逼地进行打标任务
贴一个项目地址,英文好的可以直接去这篇了,项目的readme已经非常完善了:
doccano/doccano: Open source annotation tool for machine learning practitioners. (github.com)
- 本文的前置条件是电脑已安装anaconda/miniconda
anaconda创建虚拟环境
安装案之后回过头来觉得创建一个虚拟环境是对的,防止污染我的base或其他envs,虽然在后序操作中会多几个步骤
当键入pip install doccano
之后,pip开始疯狂的安装三方库(这些事后话)
这里安装的python版本是3.10,官方给出的要求是$> 3.9$
conda create -n doccano python=3.10
然后一路确定安装完虚拟环境
安装doccano
conda activate doccano
激活虚拟环境doccno,然后pip install
即可
pip install doccano
一路顺利安装
初始化doccno
- 初始化doccano需要在安装的虚拟环境下进行
doccano init
doccano createuser --username xxxx --password xxxx
启动doccano
- 启动doccano需要在安装的虚拟环境下进行,这里占用的端口是8000,请合理分配
doccano webserver --port 8000
- 新开一个doccano虚拟环境的shell窗口,运行下面的代码启动任务队列
doccano tast
doccano程序在本机8000端口运行
运行doccano
上一部分执行完后,在浏览器键入网址127.0.0.1:8000
即可进入doccano初始界面,点击登录就可以创建新的打标任务了
如何进行打标且看后续内容
To Be Continued