在python环境下运用kafka对数据进行实时传输的方法

更新时间：2018年12月27日 10:37:06 作者：真梦行路

今天小编就为大家分享一篇在python环境下运用kafka对数据进行实时传输的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

背景：

为了满足各个平台间数据的传输，以及能确保历史性和实时性。先选用kafka作为不同平台数据传输的中转站，来满足我们对跨平台数据发送与接收的需要。

kafka简介：

Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类，发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成，每个实例(server)成为broker。无论是kafka集群，还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。

总之：kafka做为中转站有以下功能：

1.生产者（产生数据或者说是从外部接收数据）

2.消费着（将接收到的数据转花为自己所需用的格式）

环境：

1.python3.5.x

2.kafka1.4.3

3.pandas

准备开始：

1.kafka的安装

pip install kafka-python

python环境下运用kafka对数据进行传输

2.检验kafka是否安装成功

python环境下运用kafka对数据进行传输

3.pandas的安装

pip install pandas

4.kafka数据的传输

直接撸代码：

# -*- coding: utf-8 -*-
'''
@author: 真梦行路
@file: kafka.py
@time: 2018/9/3 10:20
'''
import sys
import json
import pandas as pd
import os
from kafka import KafkaProducer
from kafka import KafkaConsumer
from kafka.errors import KafkaError
 
KAFAKA_HOST = "xxx.xxx.x.xxx" #服务器端口地址
KAFAKA_PORT = 9092    #端口号
KAFAKA_TOPIC = "topic0"  #topic
 
data=pd.read_csv(os.getcwd()+'\\data\\1.csv')
key_value=data.to_json()
class Kafka_producer():
 '''
 生产模块：根据不同的key，区分消息
 '''
 
 def __init__(self, kafkahost, kafkaport, kafkatopic, key):
  self.kafkaHost = kafkahost
  self.kafkaPort = kafkaport
  self.kafkatopic = kafkatopic
  self.key = key
  self.producer = KafkaProducer(bootstrap_servers='{kafka_host}:{kafka_port}'.format(
   kafka_host=self.kafkaHost,
   kafka_port=self.kafkaPort)
  )
 
 def sendjsondata(self, params):
  try:
   parmas_message = params  #注意dumps
   producer = self.producer
   producer.send(self.kafkatopic, key=self.key, value=parmas_message.encode('utf-8'))
   producer.flush()
  except KafkaError as e:
   print(e)
 
 
class Kafka_consumer():
 
 
 def __init__(self, kafkahost, kafkaport, kafkatopic, groupid,key):
  self.kafkaHost = kafkahost
  self.kafkaPort = kafkaport
  self.kafkatopic = kafkatopic
  self.groupid = groupid
  self.key = key
  self.consumer = KafkaConsumer(self.kafkatopic, group_id=self.groupid,
          bootstrap_servers='{kafka_host}:{kafka_port}'.format(
           kafka_host=self.kafkaHost,
           kafka_port=self.kafkaPort)
          )
 
 def consume_data(self):
  try:
   for message in self.consumer:
    yield message
  except KeyboardInterrupt as e:
   print(e)
 
def sortedDictValues(adict):
 items = adict.items()
 items=sorted(items,reverse=False)
 return [value for key, value in items]
 
def main(xtype, group, key):
 '''
 测试consumer和producer
 '''
 if xtype == "p":
  # 生产模块
  producer = Kafka_producer(KAFAKA_HOST, KAFAKA_PORT, KAFAKA_TOPIC, key)
  print("===========> producer:", producer)
  params =key_value
  producer.sendjsondata(params)
 
 
 if xtype == 'c':
  # 消费模块
  consumer = Kafka_consumer(KAFAKA_HOST, KAFAKA_PORT, KAFAKA_TOPIC, group,key)
  print("===========> consumer:", consumer)
 
  message = consumer.consume_data()
  for msg in message:
   msg=msg.value.decode('utf-8')
   python_data=json.loads(msg) ##这是一个字典
   key_list=list(python_data)
   test_data=pd.DataFrame()
   for index in key_list:
    print(index)
    if index=='Month':
     a1=python_data[index]
     data1 = sortedDictValues(a1)
     test_data[index]=data1
    else:
     a2 = python_data[index]
     data2 = sortedDictValues(a2)
     test_data[index] = data2
     print(test_data)
 
 
 
   # print('value---------------->', python_data)
   # print('msg---------------->', msg)
   # print('key---------------->', msg.kry)
   # print('offset---------------->', msg.offset)
 
 
 
if __name__ == '__main__':
 main(xtype='p',group='py_test',key=None)
 main(xtype='c',group='py_test',key=None)

python环境下运用kafka对数据进行传输

数据1.csv如下所示：

python环境下运用kafka对数据进行传输

几点注意：

1、一定要有一个服务器的端口地址，不要用本机的ip或者乱写一个ip不然程序会报错。（我开始就是拿本机ip怼了半天，总是报错）

2、注意数据的传输格式以及编码问题(二进制传输)，数据先转成json数据格式传输，然后将json格式转为需要格式。（不是json格式的注意dumps）

例中，dataframe->json->dataframe

3、例中dict转dataframe,也可以用简单方法直接转。

eg： type(data) ==>dict,data=pd.Dateframe(data)

以上这篇在python环境下运用kafka对数据进行实时传输的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

OpenCV-Python模板匹配人眼的实例
模板匹配是指在当前图像A内寻找与图像B最相似的部分，本文详细的介绍了OpenCV-Python模板匹配人眼的实例，感兴趣的可以了解一下
2021-06-06
Python 实现PS滤镜中的径向模糊特效
这篇文章主要介绍了Python 实现 PS 滤镜中的径向模糊特效，帮助大家更好的利用python处理图片，感兴趣的朋友可以了解下
2020-12-12
pytorch加载训练好的模型用来测试或者处理方式
这篇文章主要介绍了pytorch加载训练好的模型用来测试或者处理方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-09-09
Python读写TOML文件的示例代码
TOML 文件表示（Tom's Obvious,最小语言）,它的语法主要由键=值对组成,本文主要为大家详细介绍了如何使用Python读写TOML文件,感兴趣的小伙伴可以了解下
2023-08-08
Python验证的50个常见正则表达式
这篇文章主要给大家介绍了关于利用Python验证的50个常见正则表达式的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-03-03
pandas将DataFrame的几列数据合并成为一列
本文主要介绍了pandas将DataFrame的几列数据合并成为一列，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-02-02
python中的字符串类型解读
这篇文章主要介绍了python中的字符串类型,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-06-06
Python ORM框架之SQLAlchemy 的基础用法
这篇文章主要介绍了Python ORM框架之SQLAlchemy 的基础用法,ORM全称 Object Relational Mapping对象关系映射,更多详细内容需要的小伙伴课题参考下面文章介绍。希望对你的学习有所帮助
2022-03-03
Python利用openpyxl类实现在Excel中绘制乐高图案
在商场看到一个超级玛丽的乐高图，感觉使用excel的颜色填充也能画出来。所以本文将借助openpyxl类实现在Excel中绘制乐高图案，需要的可以参考一下
2022-12-12
django修改models重建数据库的操作
这篇文章主要介绍了django修改models重建数据库的操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-03-03

在python环境下运用kafka对数据进行实时传输的方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具