使用Python的http.server实现一个简易的Web Api对外提供HanLP拼音转换服务
由于采集省市区镇数据需要对地名进行拼音转换,由于第三方高准确度接口对IP进行了限制,处理大量数据变得异常缓慢。
使用了一个折中的办法,
省市区 3级
(3千+)用高准确度接口(几乎没有拼错的地名),镇级
(4万+)用本地HanLP
提供的接口(大部分多音字还算是能拼正确)。Github源码:https://github.com/xiangyuecn/AreaCity-JsSpider-StatsGov/tree/master/assets/pinyin-python-server
另外我提供了一个临时测试服务器,国内的但域名备案掉了走的海外线路,仅供测试,随时可能关闭。测试:http://pinyin-test.haozgz.com/pinyin?txt=重庆着陆OK,重力看着没有异常。
HanLP是一个优秀的开源自然语言处理工具,提供了颇为准确的拼音转换功能。开始本想使用更为顺手的nodejs
来处理,但测试了Github上排第一的hotoo/pinyin
库,就是开了分词,对多音字支持也不太理想。最后决定使用HanLP
Python版来进行转换,但是这个库对地名的支持还是有限,都
字地名很多转换成dou
囧,不过在同类型里面算是最好的。
新手第一次正经写Python代码,刚开始电脑上以前装的Python 2.7.x
,就按Python2写了一个服务,发现字符串编码需要转来转去,够折腾的,但好歹功能没问题。后面因为这个编码问题,越想越觉得不舒服,一个优秀的语言哪有这么折腾的,就改成了3.6.x
(Miniconda里面3.7.x
环境SSL有问题,pip用不了,不愿折腾了)。最终结果就是仅支持Python3
,没有了奇异的代码。
http.server的简单上手
创建服务
网上有很多例子,也都非常简单,这个玩意也很容易上手。几行代码就能创建一个HTTP服务功能。
from http.server import HTTPServer, BaseHTTPRequestHandler
class HttpHandler(BaseHTTPRequestHandler):
def do_GET(self):
#服务功能实现
def do_POST(self):
#服务功能实现
httpd = HTTPServer(('127.0.0.1', 9527), HttpHandler)
httpd.serve_forever()
和nodejs
的 http
模块写出来的服务一样简洁。只监听127.0.0.1
省的配置防火墙,只让本机访问。
接收请求参数
一个Web Api不仅仅有path
,还要有query string
x-www-form-urlencoded
请求参数支持。urllib.parse.parse_qs
能轻松解析出请求数据。
class HttpHandler(BaseHTTPRequestHandler):
def do_GET(self):
path,args=urllib.parse.splitquery(self.path)
self._response(path, args)
def do_POST(self):
args = self.rfile.read(int(self.headers['content-length'])).decode("utf-8")
self._response(self.path, args)
def _response(self, path, args):
if args:
args=urllib.parse.parse_qs(args).items()
args=dict([(k,v[0]) for k,v in args])
else:
args={}
# 轻松就解析出了请求参数对象
执行实际业务逻辑
有了path
和args
,就直接可以上业务逻辑了。具体这个请求是要处理什么功能,根据path
来判断一下即可,功能需要的参数从args
里面取。
整个拼音服务完整代码
from pyhanlp import *
import traceback
import json
import urllib
from http.server import HTTPServer, BaseHTTPRequestHandler
class HttpHandler(BaseHTTPRequestHandler):
def _response(self, path, args):
code=200
rtv={'c':0,'m':'','v':''}
try:
if args:
args=urllib.parse.parse_qs(args).items()
args=dict([(k,v[0]) for k,v in args])
else:
args={}
# ****************************************
# ***************页面开始*****************
# ****************************************
# ==>
if path=="/":
rtv["v"]="服务器已准备好"
# ==>
elif path=="/pinyin":
txt=args.get("txt","")
pinyin_list = HanLP.convertToPinyinList(txt)
list=[]
Pinyin=JClass("com.hankcs.hanlp.dictionary.py.Pinyin")
for i in range(pinyin_list.size()):
pinyin=pinyin_list[i]
if pinyin==Pinyin.none5:
list.append('F'+txt[i])
else:
list.append(pinyin.getPinyinWithoutTone())
rtv["v"]=list
# ****************************************
# ****************页面结束****************
# ****************************************
else:
code=404
rtv["c"]=404
rtv["m"]="路径"+path+"不存在"
except Exception as e:
rtv["c"]=1
rtv["m"]='服务器错误:'+str(e)+"\n"+traceback.format_exc()
try:
rtv=json.dumps(rtv,ensure_ascii=False)
except Exception as e:
rtv={'c':2,'m':'服务器返回数据错误:'+str(e)+"\n"+traceback.format_exc(),'v':''}
rtv=json.dumps(rtv,ensure_ascii=False)
self.send_response(code)
self.send_header('Content-type', 'text/json; charset=utf-8')
self.send_header('Access-Control-Allow-Origin', '*')
self.end_headers()
self.wfile.write(rtv.encode())
def do_GET(self):
path,args=urllib.parse.splitquery(self.path)
self._response(path, args)
def do_POST(self):
args = self.rfile.read(int(self.headers['content-length'])).decode("utf-8")
self._response(self.path, args)
httpd = HTTPServer(('127.0.0.1', 9527), HttpHandler)
httpd.serve_forever()
HanLP的安装
由于HanLP
是一个java库
,因此使用了pyhanlp
这个Python包,底层还是用jpype1
来调用HanLP
的java
接口。Windows上还是根据wiki
来完成的安装,这库给予了蛮实用的安装方法。
本方法只在windows 7 环境下运行过,其他环境自测。
:: 安装一个有效的版本
> conda create -n python364 python=3.6.4
:: 切换版本
> activate python364
:: 安装jpype1
> conda install -c conda-forge jpype1
:: 安装pyhanlp
> pip install pyhanlp
:: 执行一遍,会提示要下载哪些东西
> hanlp
:: 环境都搞定后就可以运行服务了
> python server.py
【1】安装Miniconda
conda版本随意,https://conda.io/miniconda.html
【2】安装pyhanlp
参考:https://github.com/hankcs/pyhanlp/wiki/Windows
这个库是java
库,需要有java
环境,如果没有装过,需要先安装java
:下载JDK
测试发现python3.7.1
windows
下ssl
有问题无法安装,conda
切换成python 3.6.4
测试安装正常
安装好后运行一下hanlp
命令,会提示下载,看第3步
如果出现XXX.dll
什么的问题,可能是C++运行库缺失,安装微软常用运行库合集
应该能够解决,我在Windows Server 2012
上使用时出现此问题,装上就OJBK了。
【3】下载字典和jar
参考半自动配置: https://github.com/hankcs/pyhanlp/wiki/手动配置 。
字典和jar存放目录一般在Miniconda3[\envs\py36]\Lib\site-packages\pyhanlp\static
。
jar
直接下载最新releases
。
字典最好直接clone
仓库/data目录
最新版本(用svn
下载速度快很多,无需model
数据),一样的在存储目录内放一个data
文件夹,releases
对bug处理稍微滞后一点。
另外需要修改hanlp.properties
,给root
赋值为当前目录完整路径。
svn: https://github.com/hankcs/HanLP/trunk/data
【4】运行
python server.py
【5】浏览器访问
http://127.0.0.1:9527/pinyin?txt=要拼的文字
比如: 拼音。m
返回结果 {c:0,m:"",v:["pin","yin","F。","Fm"]}
,c=0时代表正常,其他代表出错,m为错误原因,拼音如果是字母符号会用F打头。
最后
Github源码:https://github.com/xiangyuecn/AreaCity-JsSpider-StatsGov/tree/master/assets/pinyin-python-server 。
如果这个库有帮助到您,请 Star 一下。
使用Python的http.server实现一个简易的Web Api对外提供HanLP拼音转换服务的更多相关文章
- python -m http.server 搭建一个简易web下载服务器
在打vulnhub靶场的时候遇到的一个问题 目录 一.进到需要发送的安装包目录 二.开启http服务 三.访问服务器 一.进到需要发送的安装包目录 比如设置一个专门发送,传输的文件的文件夹,cmd命令 ...
- 使用Python创建一个简易的Web Server
Python 2.x中自带了SimpleHTTPServer模块,到Python3.x中,该模块被合并到了http.server模块中.使用该模块,可以快速创建一个简易的Web服务器. 我们在C:\U ...
- 如何搭建一个简易的 Web Terminal(一)
前言 在介绍本篇文章的时候,先说一下本篇文章的一些背景.笔者是基于公司的基础建设哆啦 A 梦(Doraemon)一些功能背景写的这篇文章,不了解.有兴趣的同学可以去 袋鼠云 的 github 下面了解 ...
- 【ASP.NET Web API教程】1.1 第一个ASP.NET Web API
Your First ASP.NET Web API (C#)第一个ASP.NET Web API(C#) By Mike Wasson|January 21, 2012作者:Mike Wasson ...
- 一个ASP.NET Web API 2.0应用
在一个空ASP.NET Web项目上创建一个ASP.NET Web API 2.0应用 由于ASP.NET Web API具有与ASP.NET MVC类似的编程方式,再加上目前市面上专门介绍ASP.N ...
- Tinywebserver:一个简易的web服务器
这是学习网络编程后写的一个练手的小程序,可以帮助复习I/O模型,epoll使用,线程池,HTTP协议等内容. 程序代码是基于<Linux高性能服务器编程>一书编写的. 首先回顾程序中的核心 ...
- 在一个空ASP.NET Web项目上创建一个ASP.NET Web API 2.0应用
由于ASP.NET Web API具有与ASP.NET MVC类似的编程方式,再加上目前市面上专门介绍ASP.NET Web API 的书籍少之又少(我们看到的相关内容往往是某本介绍ASP.NET M ...
- 第一个ASP.NET Web API (C#)程序
本文翻自http://www.asp.net/web-api/overview/getting-started-with-aspnet-web-api 绝对手工制作,如有雷同,实属巧合. 转载请注明. ...
- 如何创建一个Asp .Net Web Api项目
1.点击文件=>新建=>项目 2.创建一个Asp .NET Web项目 3.选择Empty,然后选中下面的MVC和Web Api,也可以直接选择Web Api选项,注意将身份验证设置为无身 ...
随机推荐
- Android内存优化(三)详解内存分析工具MAT
前言 在这个系列的前四篇文章中,我分别介绍了DVM.ART.内存泄漏和内存检测工具的相关知识点,这一篇我们通过一个小例子,来学习如何使用内存分析工具MAT. 1.概述 在进行内存分析时,我们可以使用M ...
- 性能优化7--App瘦身
1. 前言 如果你对App优化比较敏感,那么Apk安装包的大小就一定不会忽视.关于瘦身的原因,大概有以下几个方面: 对于用户来说,在功能差别不大的前提下,更小的Apk大小意味更少的流量消耗,也意味着更 ...
- LeetCode题解之 Intersection of Two Arrays
1.题目描述 2.问题分析 借助于set来做. 3.代码 class Solution { public: vector<int> intersection(vector<int&g ...
- 消除Warning: Using a password on the command line interface can be insecure的提示
最近在部署Zabbix时需要用脚本取得一些MySQL的返回参数,需要是numberic格式的,但是调用脚本时总是输出这一句: Warning: Using a password on the comm ...
- NPOI 笔记
前言 文档:http://npoi.codeplex.com/documentation 示例:https://npoi.svn.codeplex.com/svn/ 下载:https://www.nu ...
- git-------基础知识(本地推送项目版本---github上)
创建Git仓库 一:初始化版本库:-git init 二:添加文件到缓存区:-git add --添加所有文件 是:加个点-列:git add . 三:查看仓库状态:-git status 四:添加 ...
- AndroidNDK开发中使用CMake编译JNI
虽然一直在做NDK的开发工作,但是由于项目比较久远,都是使用Makefile进行底层编译,对于目前AndroidStudio官方提供的CMake编译方式并不是很了解,现在学习下这种已经不算新潮的新方式 ...
- Linux:固定 ip
默认情况下,安装完操作系统时,ip是采用dhcp来动态分配的.通常我们需要将其固定下来. 不然 每次系统重启后,ip都会变动,这样会给日常工作带来不必要的麻烦的. 下面就是在rhel .centos ...
- 《Java大学教程》—第5章 数组
5.6 增强的for循环:访问整个数组,读取数组元素,不基于数据下列5.7 数组方法:最大值.求和.成员访问.查找 1.答:P92存储固定个数相同数据类型的一组元素. 2.答:P92所有存储在一个特定 ...
- [docker][win10]安装的坑
右键这个小图标,先signin,注意这里是ID 不是邮箱 image.png 可能starting 时候就报错说 “Containers feature is not enabled” 或者 ...