个性化架构图v5.0
2017-03-09 10:16:41 0 举报
个性化架构图v5.0是一种先进的技术框架,它通过深度学习和人工智能技术,为用户提供个性化的服务。该架构图具有高度的灵活性和可扩展性,能够根据用户的需求和行为进行自我调整和优化。它的核心是一套复杂的算法,能够从大量的数据中提取有价值的信息,然后根据这些信息为用户提供定制化的服务。此外,该架构图还具有强大的数据处理能力,能够处理各种类型的数据,包括结构化数据和非结构化数据。总的来说,个性化架构图v5.0是一种高效、智能、灵活的技术解决方案,能够满足用户在各种场景下的个性化需求。
作者其他创作
大纲/内容
2字人名必须分词完整并词性为人名
微博热搜榜数据
pc_link_serv识别明星名并替换超链接
get_same分析相同kol_id下文章段落的出现频率,提取经常出现的广告段落和图片
将数据写入在线存储或者db
tcp请求
get_text.cpp使用gumbo.h进行html页面的解析--google开源
分割推送任务为100份本机执行30份虚拟机每台执行7份
抓取系统抓取kol文章html文本数据
ini_jiangzhe.py合并新用户阅读量最多和人工推荐文章
get_token.php从在线存储或db中获取用户设备推送token
分词新闻标题保留包含明星、不包含过滤话题的新闻
不少于
run_json.py微博电视后台
calc_ad.cpp分割文本段落、句子计算句子的出现频率,拟合段落的广告置信度
计算文章与挑选素材的相似度,并选取top100
socket请求
算法模块集群(服务架构模块)
无结果
calc_cat_lda.php使用最近一周的文章特征计算栏目特征
feed_usr_tag_vec2计算用户特征向量
do_weibo_sort_analsys/解析热榜中每个话题和热度值供热点预测和展示
beanstalk11333job_id
根据uid查询用户推送设备token
getAd.sh 计算公众号的广告信息
libevent开启的5个http接口处理线程
文本超过400字的新闻截取前400字,超过200字的截取前200字
get_db.sh获取db中栏目名、明星名、最近7天发布文章标题
最新5000篇
ios_push_start.php每分钟执行一次,有推送任务则执行后续
第二类丢弃2/3的词
用户特征数据兴趣标签(100个)特征向量(float数组)用户基本信息(性别,地区等)
circle.py按照设置的优先级和抓取间隔,像队列中写入抓取任务
输出KOLAdFile
newfeature.py组合进行更新文章的lda特征计算输入
get_same.cpp分割文本段落、句子判断段落、句子是否为广告
include/igetui/android用户直接调用个推接口api推送
拉取文章特征和用户特征php直接操作
newfeature.py组合初始化文章标题的lda特征计算输入
ini_putredis.py新渠道数据写入redis
用户阅读,删除,收藏等行为信息
分词、合并处理外文名等
redis9pc_l_q队列
send内容结果写入send,发送邮件
第三类只保留权重最高的一个词
merg_lda.php更新历史所有文章特征向量
seg_search_server调用query分词解析服务,获取query中词性和重要度
getpv.sh获取最近14天内文章的阅读量
3字或以上能够全匹配,外文名采用多种间隔符全匹配
特征计算模块(全量数据)用户阅读记录、文章信息——特征向量用户订阅、搜索、收藏信息——兴趣标签用户社交信息、用户基础信息——兴趣标签
fimg_ewm 识别二维码图片adwords.txt 文末指定广告语句后全删除
putkn.py将市场名和对应redis zsetkey 写入redis
去除kol_id对应的广告段落和图片
getIosProvince.php计算ip对应的省份、城市等级
include/ApnsPHP/ios_push_speed2.php对ios设备进行推送
第一类丢弃1/3的词 再搜索
getKOLInfo.sh获取需要计算广告的kol_id信息
fixchannel.py每个渠道取最后一次更新时间信息
get_same.cpp计算kol_id下文章的广告段落和图片内容
ldatest/lda计算初始化文章的lda特征向量
app请求搜索填写query
加载历史模型、词表
ranktop100.py挑选相似度最高的100篇初始化文章
读取推送任务信息,获取推送设备号
API
微博内容、热门评论抓取
export.sh获取最近半小时抓取完成的门户网络新闻
ini_export.py获取每一个市场前一天新用户阅读量最多的前10篇文章
Watcher/微博热搜榜前端展示模块
分工架构:1、hdfs原始数据写入1)阅读文章数据中间结果uid\\taid:time\\taid:time 按天存储2)cms文章特征同步3)用户订阅,收藏数据库数据导入4)搜索数据中间结果uid\\tkey:time\\tkey:time 按天存储2、redis集群,数据结构(用户特征、标签,文章特征、标签,用户基本信息,uid:文章列表),压测,搭建算法:1、CMS特征计算2、用户实时行为3、算法模块4、展示逻辑合作讨论:1、特征计算模块:mr使用注意:1、redis数据量预估2、算法模块性性能、稳定性3、特征计算时间消耗4、写入redis时间预估5、监控
putredis.py将频道列表下的文章列表写入redis
splite_usrinfo_file.sh分割用户信息文件为10份
有文章结果
seg_search_server.cpp基于多线程的query分词解析服务
response文章主题模型特征向量
推送消息
export.sh获取抓取生活相关微博账号的微博
idf_segment.cpp分割query并计算权重值
reflesh_news.php调用api接口 更新文章静态页
wordseg/wordseg分词进行更新文章的标题
更新
r_news_delta计算新发布文章标题特征计算最相似的top6已发布历史文章
juzi_tag中上线状态并且有图片
juzi-api用户请求feed流
channelexport.sh获取所有市场
auto_film_flash.php分析每日票房挑选首日上映影片抓取相关信息 编写快讯
combine_upd.py组合挑选素材、旧文章列表、新文章列表来更新top100文章
wordseg/wordseg分词人工挑选文章的标题
http服务接口post请求
grap_film.php抓取每日票房榜抓取电影详细信息抓取电影的豆瓣简介
title_vec.bin记录历史文章的id与其标题的特征向量
finderpatternfinder.cpp查找角标候选区域
CMSCMS发布文章,文章特征计算刷新文章特征
inportimg.sh快讯图片写入juzi_news数据库
ldatest/lda计算更新文章的lda特征向量
搜索query结果
加载明星词典和内容词典
get_new去除对应kol_id公众号对应的广告段落
JudgeKOLPublishNew.php去除文章末尾广告、二维码图片
calculate.py分析并跟踪微博热搜榜话题
输出
get_delta_news.php获取前一天发布的文章内容-去除html标签
juzi_star线上状态明星名称
抓取系统抓取kol文章中的图片 视频信息
channel_proex.sh
static/微博电视网站前台
seperatechannel.py按照更新时间来区分初始化与更新
抓取任务
screen_keyword.py过滤匠人类型微博中的抽奖广告等
KOLAdFile kol_id对应的广告语句adwords.txt 人工设置的广告语句关键词
article_proex.sh+channelfeature_proex.sh计算人工挑选素材的lda 特征
vectors.bin词向量文件-二进制
watcher/ 数据库操作data/url_on_board 网页展示榜单url配置
film_mask.txt评价电影票房的模板语句
channelget.sh获取有投放素材的渠道信息
r_news_delta.cpp原创kol文章的策略选取top6个相似问斩g
insert_redis.py新的搜索词写入redis
usrinfo/out2017-11-06.txtxp每天凌晨2点提供的当天登录用户打点信息
用户分组
更新数据
针对标题、内容分词处理去停用词
reids7用户特征文章特征
输入KOLDoFile计算广告的kol_id集合KOLNewsFile kol文章html内容集合
输入ewm.img.file 文章id与图片名ewmimg/ 图片文件
标记任务状态 不重复推送
check.sh判断新的热门搜索词数量是否少于正在使用的热搜词数量
同一个明星只替换内容中的第一次出现
seg_news_lda_feed处理文本制作成lda训练的输入格式
其他标签能够带《》全匹配
abs9etflash提取快讯内容
feed_news_serv实时计算文章特征
newsfeature_proex.sh计算文章的lda特征
tf_idf.cpp加载tf-idf词典并提供查询服务
app/dispacther.py抓取并解析网页内容
Client
hotSort.php获取24小时内发布微博和评论
crontab定时任务抓取多个网站当天发布的内容
host.list10台idc推送虚拟机配置信息
文章特征
Redis集群先主备,之后升级集群
filterchannel.py过滤出没有设置推荐素材的市场
cms编辑选择微博和评论后生成待编辑文章
wordseg/wordseg分割进行初始化的文章标题
model.phpQiniu.class.phpset_tag_pic.php将快讯内容和图片写入数据库
upd_putredis.py更新渠道数据写入redis
beanstalk192.168.10.18:9999sourcedata队列
tf_idf.cpp构建if-idf词典
挑选素材的特征文件
ldatest/lda计算挑选素材的lda特征向量
app/models数据库操作模块
redis9 u_p_q推送单个用户信息队列uid\\t推送标题\\tapp跳转使用url-route
tag_serv_news3计算文章明星标签
实时
基于libevent的http多线程服务框架
输出去除了广告段落和图片的内容
加载停用词库
update_usr.php更新用户特征
用户文章匹配
KOLTaskQueue.php读取待去除广告段落的kol文章信息
文章信息
weibo_sort-grab/抓取微博热搜榜内容
get_hot_words.sh从搜索日志中获取最近1天内有搜索结果的query日志
getrecarticle.py计算每个频道下pv排名前100的文章
内容中都出现次数最多且大于2次的前2个内容标签
filter.sh过滤相似度较大的快讯
splite_token_file.php将推送token文件分割为100份
channelarticle.sh获取渠道下人工挑选的文章
cms发布新帖社区用户发布新帖,打赏等
calc_search_times.php计算满足条件的最热搜索词topn
TcpEventServer.cpp基于libevent的tcp服务框架
getrecommend_upd.py求取更新文章和挑选素材的特征cos相似度
delete_title.php删除历史文章标题特征中不能在被展示的
编辑cms保存文章
每日凌晨计算 KOLAdFile
mysqljuzi_happyjuzi_kol_newsjuzi_kol_news_content
fastdfs存取网页html文本信息
main.cpp读取参数配置等待计算广告的kol_id基础信息和文章内容信息
write_flash.php使用电影相关信息编写快讯
export_news.sh获取前一天发布的文章信息
输出data/r_delta_data.$TIME_STAMP记录新文章id对应推荐的文章id
opencv 处理静态图片freeimage-3.17 处理gif
export_delete_news.sh获取不能被计算进入相关劲爆的文章id
idf_segment.cpp分割标题 提取词性
原始数据1、社交数据(抓取)2、阅读文章数据(打点日志)3、历史文章数据(数据库同步数据,每行一篇文章数据)4、用户基础信息(数据库同步)
http post请求
juzi_news文章信息数据库
按照句号分割新闻删除新闻来源等相关语句
word_vector.cpp构建词向量map构建历史文章标题向量
ini_putredis.py将市场对应文章列表写入reids
job_id
标题和内容中都出现次数最多的前2个明星标签
ranktop100_upd.py挑选相似度最高的100篇更新文章
bilibili 、礼物说、搜狐美食、半糖、马蜂窝等网站
抓取完成通知
GetKOLNewsDFS.php获取kol文章的content内容
flash_filter过滤和历史快讯标题相似的快讯
combine.py组合挑选素材和初始化top100文章
app内文章在juzi_news_content中获取内容,pc站kol文章在hdfs中获取
sqlrank.py获取15小时内最热门的40个微博话题
HDFS
获取最近5天生成的历史快讯
mysql103.17.43.230:3051web_pagestopics
calc_pd_lda.php使用最近一周的文章计算频道特征
匹配对应词典中的标签名
输出ewm.img.res图片是否包含二维码与长宽
getimg.py获取快讯的图片信息
渠道初始化与更新分类
juzi_star.txt橘子明星库,用来标记导演与主演是否出名
getrecommend.py求取初始化文章和挑选素材的特征cos相似度
beanstalk192.168.10.18:9999finaldata队列
filter_read_data.php过滤掉60天内阅读量少于15篇的用户,按照时间推荐
mysql juzi_happyjuzi_kol_newsjuzi_kol_news_contentredis9 pc_l_q 添加超链队列
用户阅读记录
export_delta_news.sh获取最近10分钟内发布的新文章信息
加载明星词库、内容标签词库
post请求处理文本的广告信息
get_read_data.php计算当天有阅读的用户最近60天阅读记录
app内文章id在队列中存储原值,pc站展示kol文章id+100000000后存储
usr_push_prod.php监控推送队列战队单个用户发送推送消息
similar_score.cpp使用词性、tf-idf、经验权重计算新文章特征向量计算新文章和历史问斩之间的相似度
ios_push_speed2.php调用推送配置 链接ios服务器推送每次推送40个用户 等待1s ios服务器反馈
insert_redis.py推荐信息写入redis 供app使用
beanstalk192.168.10.18:9999dealpic队列
词表文件词-idwordmap.txt
model.php读取推送任务和相关信息
JudgeKOLPublish.php判断头图质量——模糊、尺寸等
getluhan.py按照传、赞、评求和后拍寻按照指定微博账号分类
inport.sh快讯文本信息写入juzi_news数据库
调用识别明星名、添加超链接服务
sphinx搜索服务
export_article.sh获取进行初始化和更新的候选文章
针对分词结果使用空格为间隔打印输出
历史训练模型数据model-*
pc_star_link_prod.php监控队列中的文章id
标题中包含并内容中出现次数最多的5个明星名
status -20-5
打点记录
sort1.php按照评论点赞量排序,并且cms展示
分析头图是否模糊
按照词权重匹配求和来计算相似度
app/crawler/设置网页抓取配置cookie、抓取对应网页
ImgResolution.cpp判断图片是否模糊
最新3000篇
KOLJudgeQueue.php读取文本、图片内容,判断文章质量
user_int_feed2离线计算用户特征
数据写入
读取与回写新文章特征
cpupdlt.sh保存记录更新的top100到本地
cut_server.cpp基于libevent的多线程http服务
lda计算文章特征向量
beanstalk11333crawl_list
putkn.pyredis中添加新渠道的列表名和渠道名对应关系
加载明星词典加载需要过滤的相关话题列表
替换结果写入juzi_news_seo
update_new.sh
app/page_analyst/解析各网页内容实现
针对标题、内容分词处理
insertOnlineCach.php更新用户信息地区、网络调前、城市等级等
数据返回
ini_proex.sh
回写备份
返回标签名称
基于gibs采样的lda增量计算
ios_push_cpu.php接收推送参数进行推送
用户使用juziapp
EWMImage.cpp图片二值化gif图片取第一帧调用二维码角标检测
screen.py过滤抽奖等广告信息
返回
所有文章特征向量-每日更新
multiInsert.php启动10个更新程序 来更新在线存储或db中的用户信息
分割历史快讯和新快讯标题
channelfeature.py组合lda特征计算输入
用户行为日志
0 条评论
下一页