首页  流程图  详情



 



个性化架构图v5.0

2017-03-09 10:16:41   0  举报





仅支持查看

个性化架构图v5.0是一种先进的技术框架，它通过深度学习和人工智能技术，为用户提供个性化的服务。该架构图具有高度的灵活性和可扩展性，能够根据用户的需求和行为进行自我调整和优化。它的核心是一套复杂的算法，能够从大量的数据中提取有价值的信息，然后根据这些信息为用户提供定制化的服务。此外，该架构图还具有强大的数据处理能力，能够处理各种类型的数据，包括结构化数据和非结构化数据。总的来说，个性化架构图v5.0是一种高效、智能、灵活的技术解决方案，能够满足用户在各种场景下的个性化需求。

模板推荐

作者其他创作

大纲/内容

2字人名必须分词完整并词性为人名

微博热搜榜数据

pc_link_serv识别明星名并替换超链接

get_same分析相同kol_id下文章段落的出现频率，提取经常出现的广告段落和图片

将数据写入在线存储或者db

tcp请求

get_text.cpp使用gumbo.h进行html页面的解析--google开源

分割推送任务为100份本机执行30份虚拟机每台执行7份

抓取系统抓取kol文章html文本数据

ini_jiangzhe.py合并新用户阅读量最多和人工推荐文章

get_token.php从在线存储或db中获取用户设备推送token

分词新闻标题保留包含明星、不包含过滤话题的新闻

不少于

run_json.py微博电视后台

calc_ad.cpp分割文本段落、句子计算句子的出现频率，拟合段落的广告置信度

计算文章与挑选素材的相似度，并选取top100

socket请求

算法模块集群（服务架构模块）

无结果

calc_cat_lda.php使用最近一周的文章特征计算栏目特征

feed_usr_tag_vec2计算用户特征向量

do_weibo_sort_analsys/解析热榜中每个话题和热度值供热点预测和展示

beanstalk11333job_id

根据uid查询用户推送设备token

getAd.sh 计算公众号的广告信息

libevent开启的5个http接口处理线程

文本超过400字的新闻截取前400字，超过200字的截取前200字

get_db.sh获取db中栏目名、明星名、最近7天发布文章标题

最新5000篇

ios_push_start.php每分钟执行一次，有推送任务则执行后续

第二类丢弃2/3的词

用户特征数据兴趣标签（100个）特征向量（float数组）用户基本信息（性别，地区等）

circle.py按照设置的优先级和抓取间隔，像队列中写入抓取任务

输出KOLAdFile

newfeature.py组合进行更新文章的lda特征计算输入

get_same.cpp分割文本段落、句子判断段落、句子是否为广告

include/igetui/android用户直接调用个推接口api推送

拉取文章特征和用户特征php直接操作

newfeature.py组合初始化文章标题的lda特征计算输入

ini_putredis.py新渠道数据写入redis

用户阅读，删除，收藏等行为信息

分词、合并处理外文名等

redis9pc_l_q队列

send内容结果写入send，发送邮件

第三类只保留权重最高的一个词

merg_lda.php更新历史所有文章特征向量

seg_search_server调用query分词解析服务，获取query中词性和重要度

getpv.sh获取最近14天内文章的阅读量

3字或以上能够全匹配，外文名采用多种间隔符全匹配

特征计算模块（全量数据）用户阅读记录、文章信息——特征向量用户订阅、搜索、收藏信息——兴趣标签用户社交信息、用户基础信息——兴趣标签

fimg_ewm 识别二维码图片adwords.txt 文末指定广告语句后全删除

putkn.py将市场名和对应redis zsetkey 写入redis

去除kol_id对应的广告段落和图片

getIosProvince.php计算ip对应的省份、城市等级

include/ApnsPHP/ios_push_speed2.php对ios设备进行推送

第一类丢弃1/3的词再搜索

getKOLInfo.sh获取需要计算广告的kol_id信息

fixchannel.py每个渠道取最后一次更新时间信息

get_same.cpp计算kol_id下文章的广告段落和图片内容

ldatest/lda计算初始化文章的lda特征向量

app请求搜索填写query

加载历史模型、词表

ranktop100.py挑选相似度最高的100篇初始化文章

读取推送任务信息，获取推送设备号

API

微博内容、热门评论抓取

export.sh获取最近半小时抓取完成的门户网络新闻

ini_export.py获取每一个市场前一天新用户阅读量最多的前10篇文章

Watcher/微博热搜榜前端展示模块

分工架构：1、hdfs原始数据写入1）阅读文章数据中间结果uid\\taid:time\\taid:time 按天存储2）cms文章特征同步3）用户订阅，收藏数据库数据导入4）搜索数据中间结果uid\\tkey:time\\tkey:time 按天存储2、redis集群，数据结构（用户特征、标签，文章特征、标签，用户基本信息，uid:文章列表），压测，搭建算法：1、CMS特征计算2、用户实时行为3、算法模块4、展示逻辑合作讨论：1、特征计算模块：mr使用注意：1、redis数据量预估2、算法模块性性能、稳定性3、特征计算时间消耗4、写入redis时间预估5、监控

putredis.py将频道列表下的文章列表写入redis

splite_usrinfo_file.sh分割用户信息文件为10份

有文章结果

seg_search_server.cpp基于多线程的query分词解析服务

response文章主题模型特征向量

推送消息

export.sh获取抓取生活相关微博账号的微博

idf_segment.cpp分割query并计算权重值

reflesh_news.php调用api接口更新文章静态页

wordseg/wordseg分词进行更新文章的标题

更新

r_news_delta计算新发布文章标题特征计算最相似的top6已发布历史文章

juzi_tag中上线状态并且有图片

juzi-api用户请求feed流

channelexport.sh获取所有市场

auto_film_flash.php分析每日票房挑选首日上映影片抓取相关信息编写快讯

combine_upd.py组合挑选素材、旧文章列表、新文章列表来更新top100文章

wordseg/wordseg分词人工挑选文章的标题

http服务接口post请求

grap_film.php抓取每日票房榜抓取电影详细信息抓取电影的豆瓣简介

title_vec.bin记录历史文章的id与其标题的特征向量

finderpatternfinder.cpp查找角标候选区域

CMSCMS发布文章，文章特征计算刷新文章特征

inportimg.sh快讯图片写入juzi_news数据库

ldatest/lda计算更新文章的lda特征向量

搜索query结果

加载明星词典和内容词典

get_new去除对应kol_id公众号对应的广告段落

JudgeKOLPublishNew.php去除文章末尾广告、二维码图片

calculate.py分析并跟踪微博热搜榜话题

输出

get_delta_news.php获取前一天发布的文章内容-去除html标签

juzi_star线上状态明星名称

抓取系统抓取kol文章中的图片视频信息

channel_proex.sh

static/微博电视网站前台

seperatechannel.py按照更新时间来区分初始化与更新

抓取任务

screen_keyword.py过滤匠人类型微博中的抽奖广告等

KOLAdFile kol_id对应的广告语句adwords.txt 人工设置的广告语句关键词

article_proex.sh+channelfeature_proex.sh计算人工挑选素材的lda 特征

vectors.bin词向量文件-二进制

watcher/ 数据库操作data/url_on_board 网页展示榜单url配置

film_mask.txt评价电影票房的模板语句

channelget.sh获取有投放素材的渠道信息

r_news_delta.cpp原创kol文章的策略选取top6个相似问斩g

insert_redis.py新的搜索词写入redis

usrinfo/out2017-11-06.txtxp每天凌晨2点提供的当天登录用户打点信息

用户分组

更新数据

针对标题、内容分词处理去停用词

reids7用户特征文章特征

输入KOLDoFile计算广告的kol_id集合KOLNewsFile kol文章html内容集合

输入ewm.img.file 文章id与图片名ewmimg/ 图片文件

标记任务状态不重复推送

check.sh判断新的热门搜索词数量是否少于正在使用的热搜词数量

同一个明星只替换内容中的第一次出现

seg_news_lda_feed处理文本制作成lda训练的输入格式

其他标签能够带《》全匹配

abs9etflash提取快讯内容

feed_news_serv实时计算文章特征

newsfeature_proex.sh计算文章的lda特征

tf_idf.cpp加载tf-idf词典并提供查询服务

app/dispacther.py抓取并解析网页内容

Client

hotSort.php获取24小时内发布微博和评论

crontab定时任务抓取多个网站当天发布的内容

host.list10台idc推送虚拟机配置信息

文章特征

Redis集群先主备，之后升级集群

filterchannel.py过滤出没有设置推荐素材的市场

cms编辑选择微博和评论后生成待编辑文章

wordseg/wordseg分割进行初始化的文章标题

model.phpQiniu.class.phpset_tag_pic.php将快讯内容和图片写入数据库

upd_putredis.py更新渠道数据写入redis

beanstalk192.168.10.18:9999sourcedata队列

tf_idf.cpp构建if-idf词典

挑选素材的特征文件

ldatest/lda计算挑选素材的lda特征向量

app/models数据库操作模块

redis9 u_p_q推送单个用户信息队列uid\\t推送标题\\tapp跳转使用url-route

tag_serv_news3计算文章明星标签

实时

基于libevent的http多线程服务框架

输出去除了广告段落和图片的内容

加载停用词库

update_usr.php更新用户特征

用户文章匹配

KOLTaskQueue.php读取待去除广告段落的kol文章信息

文章信息

weibo_sort-grab/抓取微博热搜榜内容

get_hot_words.sh从搜索日志中获取最近1天内有搜索结果的query日志

getrecarticle.py计算每个频道下pv排名前100的文章

内容中都出现次数最多且大于2次的前2个内容标签

filter.sh过滤相似度较大的快讯

splite_token_file.php将推送token文件分割为100份

channelarticle.sh获取渠道下人工挑选的文章

cms发布新帖社区用户发布新帖，打赏等

calc_search_times.php计算满足条件的最热搜索词topn

TcpEventServer.cpp基于libevent的tcp服务框架

getrecommend_upd.py求取更新文章和挑选素材的特征cos相似度

delete_title.php删除历史文章标题特征中不能在被展示的

编辑cms保存文章

每日凌晨计算 KOLAdFile

mysqljuzi_happyjuzi_kol_newsjuzi_kol_news_content

fastdfs存取网页html文本信息

main.cpp读取参数配置等待计算广告的kol_id基础信息和文章内容信息

write_flash.php使用电影相关信息编写快讯

export_news.sh获取前一天发布的文章信息

输出data/r_delta_data.$TIME_STAMP记录新文章id对应推荐的文章id

opencv 处理静态图片freeimage-3.17 处理gif

export_delete_news.sh获取不能被计算进入相关劲爆的文章id

idf_segment.cpp分割标题提取词性

原始数据1、社交数据（抓取）2、阅读文章数据（打点日志）3、历史文章数据（数据库同步数据，每行一篇文章数据）4、用户基础信息（数据库同步）

http post请求

juzi_news文章信息数据库

按照句号分割新闻删除新闻来源等相关语句

word_vector.cpp构建词向量map构建历史文章标题向量

ini_putredis.py将市场对应文章列表写入reids

job_id

标题和内容中都出现次数最多的前2个明星标签

ranktop100_upd.py挑选相似度最高的100篇更新文章

bilibili 、礼物说、搜狐美食、半糖、马蜂窝等网站

抓取完成通知

GetKOLNewsDFS.php获取kol文章的content内容

flash_filter过滤和历史快讯标题相似的快讯

combine.py组合挑选素材和初始化top100文章

app内文章在juzi_news_content中获取内容，pc站kol文章在hdfs中获取

sqlrank.py获取15小时内最热门的40个微博话题

HDFS

获取最近5天生成的历史快讯

mysql103.17.43.230:3051web_pagestopics

calc_pd_lda.php使用最近一周的文章计算频道特征

匹配对应词典中的标签名

输出ewm.img.res图片是否包含二维码与长宽

getimg.py获取快讯的图片信息

渠道初始化与更新分类

juzi_star.txt橘子明星库，用来标记导演与主演是否出名

getrecommend.py求取初始化文章和挑选素材的特征cos相似度

beanstalk192.168.10.18:9999finaldata队列

filter_read_data.php过滤掉60天内阅读量少于15篇的用户，按照时间推荐

mysql juzi_happyjuzi_kol_newsjuzi_kol_news_contentredis9 pc_l_q 添加超链队列

用户阅读记录

export_delta_news.sh获取最近10分钟内发布的新文章信息

加载明星词库、内容标签词库

post请求处理文本的广告信息

get_read_data.php计算当天有阅读的用户最近60天阅读记录

app内文章id在队列中存储原值，pc站展示kol文章id+100000000后存储

usr_push_prod.php监控推送队列战队单个用户发送推送消息

similar_score.cpp使用词性、tf-idf、经验权重计算新文章特征向量计算新文章和历史问斩之间的相似度

ios_push_speed2.php调用推送配置链接ios服务器推送每次推送40个用户等待1s ios服务器反馈

insert_redis.py推荐信息写入redis 供app使用

beanstalk192.168.10.18:9999dealpic队列

词表文件词-idwordmap.txt

model.php读取推送任务和相关信息

JudgeKOLPublish.php判断头图质量——模糊、尺寸等

getluhan.py按照传、赞、评求和后拍寻按照指定微博账号分类

inport.sh快讯文本信息写入juzi_news数据库

调用识别明星名、添加超链接服务

sphinx搜索服务

export_article.sh获取进行初始化和更新的候选文章

针对分词结果使用空格为间隔打印输出

历史训练模型数据model-*

pc_star_link_prod.php监控队列中的文章id

标题中包含并内容中出现次数最多的5个明星名

status -20-5

打点记录

sort1.php按照评论点赞量排序，并且cms展示

分析头图是否模糊

按照词权重匹配求和来计算相似度

app/crawler/设置网页抓取配置cookie、抓取对应网页

ImgResolution.cpp判断图片是否模糊