5 years ago · 64cc4c48b8
--- a/src/main/scala/com/winhc/bigdata/spark/jobs/chance/ChangeExtract.scala
+++ b/src/main/scala/com/winhc/bigdata/spark/jobs/chance/ChangeExtract.scala
@@ -69,29 +69,19 @@ object ChangeExtract {
 
																       //增量ads最后一个分区
															
 
																       val lastDsIncAds = BaseUtil.getPartion(s"$project.inc_ads_$tableName", spark)
															
 
																-      val list = sql(s"show partitions $inc_ods_company_tb").collect.toList.map(_.getString(0).split("=")(1))
															
 
																-      //增量ods第一个分区
															
 
																-      val firstDsIncOds = list.head
															
 
																-      //增量ods最后一个分区//落表分区
															
 
																-      val lastDsIncOds = list.last
															
 
																-      //执行分区
															
 
																-      var runDs = ""
															
 
																-      //第一次run
															
 
																-      if (StringUtils.isBlank(lastDsIncAds)) {
															
 
																-        runDs = firstDsIncOds
															
 
																-      } else { //非第一次分区时间 + 1天
															
 
																-        runDs = BaseUtil.atDaysAfter(1, lastDsIncAds)
															
 
																-      }
															
 
																       sql(
															
 
																         s"""
															
 
																            |SELECT  cid,current_cid as new_cid
															
 
																            |FROM    ${inc_ods_company}
															
 
																-           |WHERE   ds >= ${runDs}
															
 
																+           |WHERE   ds > $lastDs_ads_all and ds < $ds
															
 
																            |AND     cid IS NOT NULL
															
 
																            |AND     current_cid IS NOT NULL
															
 
																            |GROUP BY cid,current_cid
															
 
																            |""".stripMargin).createOrReplaceTempView("mapping")
															
 
																+
															
 
																+      val cid = getColumns(s"$project.ads_$tableName").filter(f => f.equals("cid") || f.equals("new_cid")).max
															
 
																+
															
 
																       val rdd = sql(
															
 
																         s"""
															
 
																            |SELECT  $primaryKey,${otherAllCols.mkString(",")},'0' as change_flag
															
@@ -105,10 +95,14 @@ object ChangeExtract {
 
																            |            WHERE   ds = $ds
															
 
																            |        ) AS t1
															
 
																            |JOIN    (
															
 
																-           |             SELECT  concat_ws('_',coalesce(mm.new_cid,tmp.cid),split(rowkey, '_')[1]) AS rowkey
															
 
																-           |                     ,${intersectCols.filter(s => {!s.equals("rowkey") && !s.equals("cid") && !s.equals("new_cid")}).mkString(",")}
															
 
																-           |                     ,coalesce(mm.new_cid,tmp.cid) AS new_cid
															
 
																-           |                     ,tmp.cid
															
 
																+           |             SELECT  concat_ws('_',coalesce(mm.new_cid,tmp.$cid),split(rowkey, '_')[1]) AS rowkey
															
 
																+           |                     ,${
															
 
																+          intersectCols.filter(s => {
															
 
																+            !s.equals("rowkey") && !s.equals("cid") && !s.equals("new_cid")
															
 
																+          }).mkString(",")
															
 
																+        }
															
 
																+           |                     ,coalesce(mm.new_cid,tmp.$cid) AS new_cid
															
 
																+           |                     ,tmp.$cid as cid
															
 
																            |                     ,c
															
 
																            |             FROM    (
															
 
																            |                         SELECT  a.*
															
@@ -124,7 +118,7 @@ object ChangeExtract {
 
																            |                                 ) AS a
															
 
																            |                     ) AS tmp
															
 
																            |             LEFT JOIN mapping mm
															
 
																-           |             ON tmp.cid = mm.cid
															
 
																+           |             ON tmp.$cid = mm.cid
															
 
																            |             WHERE   tmp.c = 1
															
 
																            |        ) AS t2
															
 
																            |ON      t1.${primaryKey} = t2.${primaryKey}
															
@@ -142,7 +136,7 @@ object ChangeExtract {
 
																             Row(res._1, res._2, tableName, res._3, res._4, res._5, res._6, res._7, res._8, update_time, res._9)
															
 
																           } else {
															
 
																             if (map_list.size > 2) {
															
 
																-              logger.error("list.size greater than 2! rowkey:" + rowkey)
															
 
																+              logInfo("list.size greater than 2! rowkey:" + rowkey)
															
 
																             }
															
 
																             val m = getDoubleDataMap(map_list)
															
@@ -241,6 +235,7 @@ object ChangeExtract {
 
																           |winhc_eci_dev company_land_transfer rowkey 20200717 num,location
															
 
																           |winhc_eci_dev company_employment rowkey 20200717 source
															
 
																           |winhc_eci_dev company_env_punishment rowkey 20200717 punish_number
															
 
																+          |winhc_eci_dev company_icp rowkey 20200717 domain
															
 
																           |""".stripMargin.replace("20200717", ds)
															
 
																       for (r <- rows.split("\r\n")) {
															
 
																         if (StringUtils.isNotEmpty(r)) {
															
--- a/src/main/scala/com/winhc/bigdata/spark/jobs/chance/CompanyChangeHandle.scala
+++ b/src/main/scala/com/winhc/bigdata/spark/jobs/chance/CompanyChangeHandle.scala
@@ -157,11 +157,11 @@ case class company_copyright_reg_list(equCols: Seq[String]) extends CompanyChang
 
																 //网站
															
 
																 case class company_icp(equCols: Seq[String]) extends CompanyChangeHandle {
															
 
																-  override def getUpdateTitle(newMap: Map[String, String]): String = getValueOrNull(newMap("domain"), s"${newMap("domain")}网站发生变更")
															
 
																+  override def getUpdateTitle(newMap: Map[String, String]): String = getValueOrNull(newMap("domain"), s"${newMap("domain")}网站备案发生变更")
															
 
																-  override def getInsertTitle(newMap: Map[String, String]): String = getValueOrNull(newMap("domain"), s"新增${newMap("domain")}网站")
															
 
																+  override def getInsertTitle(newMap: Map[String, String]): String = getValueOrNull(newMap("domain"), s"新增${newMap("domain")}网站备案")
															
 
																-  override def getLabel(oldMap: Map[String, String], newMap: Map[String, String]): String = ChangeExtractUtils.get_ip_tags("网站", newMap("domain"), newMap("examine_date"), newMap("liscense"))
															
 
																+  override def getLabel(oldMap: Map[String, String], newMap: Map[String, String]): String = ChangeExtractUtils.get_ip_tags("网站备案", newMap("domain"), newMap("examine_date"), newMap("liscense"))
															
 
																   override def getBizTime(newMap: Map[String, String]): String = newMap("examine_date")
															
 
																 }
															
--- a/src/main/scala/com/winhc/bigdata/spark/jobs/chance/Inc_eci_debtor_relation.scala
+++ b/src/main/scala/com/winhc/bigdata/spark/jobs/chance/Inc_eci_debtor_relation.scala
@@ -705,7 +705,7 @@ object Inc_eci_debtor_relation {
 
																             list.head.toRow
															
 
																           } else {
															
 
																             if (list.size > 2) {
															
 
																-              logger.warn("list.size >2 ,id:" + id)
															
 
																+             logWarning("list.size >2 ,id:" + id)
															
 
																             }
															
 
																             val all_map = list.map(e => (e.ds, e)).toMap
															
 
																             val today = all_map(ds)
															
--- a/src/main/scala/com/winhc/bigdata/spark/jobs/inc_company_equity_info.scala
+++ b/src/main/scala/com/winhc/bigdata/spark/jobs/inc_company_equity_info.scala
@@ -22,7 +22,7 @@ object inc_company_equity_info {
 
																   case class IncCompanyEquityInfoUtils(s: SparkSession,
															
 
																                                        project: String, //表所在工程名
															
 
																                                        ds: String //此维度主键
															
 
																-                                      ) extends LoggingUtils with Logging with BaseFunc{
															
 
																+                                      ) extends LoggingUtils with Logging with BaseFunc {
															
 
																     @(transient@getter) val spark: SparkSession = s
															
@@ -30,8 +30,7 @@ object inc_company_equity_info {
 
																       cleanup()
															
 
																       val cols = getColumns(s"winhc_eci_dev.ads_company_equity_info").diff(Seq("ds", "rowkey", "id"))
															
 
																-//      val startPart = getLastPartitionsOrElse(s"winhc_eci_dev.inc_ads_company_equity_info", "0")
															
 
																-      val startPart = "20200725"
															
 
																+      val startPart = getLastPartitionsOrElse(s"winhc_eci_dev.inc_ads_company_equity_info", "0")
															
 
																       val endPart = getLastPartitionsOrElse(s"winhc_eci_dev.inc_ods_company_equity_info", BaseUtil.getYesterday())
															
 
																       if (startPart.equals(endPart)) {
															
@@ -41,7 +40,7 @@ object inc_company_equity_info {
 
																       sql(
															
 
																         s"""
															
 
																-           |SELECT  tmp.id
															
 
																+           |SELECT  md5(cleanup(CONCAT_WS('',tmp.reg_number,tmp.reg_date,tmp.equity_amount))) as id
															
 
																            |        ,tmp.cid
															
 
																            |        ,tmp.base
															
 
																            |        ,tmp.reg_number
															
@@ -79,11 +78,46 @@ object inc_company_equity_info {
 
																       sql(
															
 
																         s"""
															
 
																            |INSERT ${if (isWindows) "INTO" else "OVERWRITE"} TABLE winhc_eci_dev.inc_ads_company_equity_info PARTITION(ds='$endPart')
															
 
																-           |SELECT  md5(cleanup(CONCAT_WS('',reg_number,cid,pledgor,pledgee))) as id
															
 
																+           |SELECT  id
															
 
																            |        ,${cols.mkString(",")}
															
 
																            |FROM    tmp_company_equity_info_all
															
 
																            |""".stripMargin)
															
 
																+
															
 
																+      sql(
															
 
																+        s"""
															
 
																+           |SELECT  cid,current_cid as new_cid
															
 
																+           |FROM    winhc_eci_dev.inc_ods_company
															
 
																+           |WHERE   ds >= ${startPart}
															
 
																+           |AND     cid IS NOT NULL
															
 
																+           |AND     current_cid IS NOT NULL
															
 
																+           |GROUP BY cid,current_cid
															
 
																+           |""".stripMargin).createOrReplaceTempView("mapping")
															
 
																+
															
 
																+      sql(
															
 
																+        s"""
															
 
																+           |SELECT   CONCAT_WS('_',t2.new_cid,split(t1.rowkey,'_')[1]) as rowkey,t2.new_cid as cid,${getColumns("winhc_eci_dev.ads_company_equity_info_list").diff(Seq("ds", "cid", "rowkey")).map("t1." + _).mkString(",")}
															
 
																+           |FROM    (
															
 
																+           |            SELECT  ${getColumns("winhc_eci_dev.ads_company_equity_info_list").diff(Seq("ds")).map("tmp." + _).mkString(",")}
															
 
																+           |            FROM    (
															
 
																+           |                        SELECT  t.*
															
 
																+           |                                ,ROW_NUMBER() OVER(PARTITION BY rowkey ORDER BY rowkey) AS c
															
 
																+           |                        FROM    (
															
 
																+           |                                    SELECT  *
															
 
																+           |                                    FROM    winhc_eci_dev.ads_company_equity_info_list
															
 
																+           |                                    WHERE   ds = ${getLastPartitionsOrElse("winhc_eci_dev.ads_company_equity_info_list", "0")}
															
 
																+           |                                    UNION ALL
															
 
																+           |                                    SELECT  *
															
 
																+           |                                    FROM    winhc_eci_dev.inc_ads_company_equity_info_list
															
 
																+           |                                    WHERE   ds > ${getLastPartitionsOrElse("winhc_eci_dev.ads_company_equity_info_list", "0")}
															
 
																+           |                                ) AS t
															
 
																+           |                    ) AS tmp
															
 
																+           |            WHERE   tmp.c = 1
															
 
																+           |        ) AS t1
															
 
																+           |JOIN    mapping as t2
															
 
																+           |ON      t1.cid = t2.cid
															
 
																+           |""".stripMargin).createOrReplaceTempView("replace_cid_tab")
															
 
																+
															
 
																       sql(
															
 
																         s"""
															
 
																            |INSERT ${if (isWindows) "INTO" else "OVERWRITE"} TABLE winhc_eci_dev.inc_ads_company_equity_info_list PARTITION(ds='$endPart')
															
@@ -122,6 +156,10 @@ object inc_company_equity_info {
 
																            |        ,deleted
															
 
																            |FROM    tmp_company_equity_info_all
															
 
																            |WHERE   cid IS NOT NULL
															
 
																+           |
															
 
																+           |UNION ALL
															
 
																+           |
															
 
																+           |select * from replace_cid_tab
															
 
																            |""".stripMargin)
															
 
																       val writeCols = getColumns("winhc_eci_dev.inc_ads_company_equity_info_list").diff(Seq("ds", "rowkey"))
															
--- a/src/main/scala/com/winhc/bigdata/spark/jobs/inc_company_mapping.scala
+++ b/src/main/scala/com/winhc/bigdata/spark/jobs/inc_company_mapping.scala
@@ -0,0 +1,132 @@
 
																+package com.winhc.bigdata.spark.jobs
															
 
																+
															
 
																+import com.winhc.bigdata.spark.config.EsConfig
															
 
																+import com.winhc.bigdata.spark.udf.BaseFunc
															
 
																+import com.winhc.bigdata.spark.utils.BaseUtil.isWindows
															
 
																+import com.winhc.bigdata.spark.utils.{BaseUtil, LoggingUtils, SparkUtils}
															
 
																+import org.apache.spark.internal.Logging
															
 
																+import org.apache.spark.sql.SparkSession
															
 
																+
															
 
																+import scala.annotation.meta.getter
															
 
																+import scala.collection.mutable
															
 
																+
															
 
																+/**
															
 
																+ * @Author: XuJiakai
															
 
																+ * @Date: 2020/7/30 10:34
															
 
																+ * @Description:
															
 
																+ */
															
 
																+object inc_company_mapping {
															
 
																+
															
 
																+  case class IncCompanyMappingUtil(s: SparkSession,
															
 
																+                                   project: String
															
 
																+                                  ) extends LoggingUtils with Logging with BaseFunc {
															
 
																+    @(transient@getter) val spark: SparkSession = s
															
 
																+
															
 
																+
															
 
																+    def init(): Unit = {
															
 
																+      sql(
															
 
																+        s"""
															
 
																+           |CREATE TABLE IF NOT EXISTS winhc_eci_dev.base_company_mapping
															
 
																+           |(
															
 
																+           |    cid STRING COMMENT 'cid'
															
 
																+           |    ,cname STRING COMMENT 'cname'
															
 
																+           |    ,new_cid STRING COMMENT 'new_cid'
															
 
																+           |    ,update_time TIMESTAMP COMMENT '更新时间'
															
 
																+           |)
															
 
																+           |COMMENT '公司全量数据cid到最新new_cid表，20200730'
															
 
																+           |PARTITIONED BY
															
 
																+           |(
															
 
																+           |    ds STRING COMMENT '分区'
															
 
																+           |)
															
 
																+           |LIFECYCLE 15
															
 
																+           |""".stripMargin)
															
 
																+
															
 
																+      sql(
															
 
																+        s"""
															
 
																+           |INSERT ${if (isWindows) "INTO" else "OVERWRITE"} TABLE winhc_eci_dev.base_company_mapping PARTITION(ds='20200604')
															
 
																+           |SELECT  cid
															
 
																+           |        ,name AS cname
															
 
																+           |        ,coalesce(current_cid,cid) AS new_cid
															
 
																+           |        ,to_date('2020-06-04 00:00:00') as update_time
															
 
																+           |FROM    winhc_eci_dev.ads_company
															
 
																+           |WHERE   ds = '20200604'
															
 
																+           |""".stripMargin)
															
 
																+    }
															
 
																+
															
 
																+    def inc(ds: String): Unit = {
															
 
																+      sql(
															
 
																+        s"""
															
 
																+           |INSERT ${if (isWindows) "INTO" else "OVERWRITE"} TABLE winhc_eci_dev.base_company_mapping PARTITION(ds='$ds')
															
 
																+           |SELECT  t1.cid AS cid
															
 
																+           |        ,t1.cname AS cname
															
 
																+           |        ,COALESCE(t2.new_cid,t1.new_cid) AS new_cid
															
 
																+           |        ,COALESCE(t2.update_time,t1.update_time) AS update_time
															
 
																+           |FROM    (
															
 
																+           |            SELECT  all_mapping.cid
															
 
																+           |                    ,all_mapping.cname
															
 
																+           |                    ,all_mapping.new_cid
															
 
																+           |                    ,all_mapping.update_time
															
 
																+           |            FROM    (
															
 
																+           |                        SELECT  *
															
 
																+           |                                ,ROW_NUMBER() OVER(PARTITION BY cid ORDER BY update_time DESC) AS c
															
 
																+           |                        FROM    (
															
 
																+           |                                    SELECT  cid,cname,new_cid,update_time
															
 
																+           |                                    FROM    winhc_eci_dev.base_company_mapping
															
 
																+           |                                    WHERE   ds = '${BaseUtil.atDaysAfter(-1, ds)}'
															
 
																+           |                                    UNION ALL
															
 
																+           |                                    SELECT  cid
															
 
																+           |                                            ,name AS cname
															
 
																+           |                                            ,COALESCE(current_cid,cid) AS new_cid
															
 
																+           |                                            ,now() AS update_time
															
 
																+           |                                    FROM    winhc_eci_dev.inc_ods_company
															
 
																+           |                                    WHERE   ds = '$ds'
															
 
																+           |                                    AND     cid IS NOT NULL
															
 
																+           |                                )
															
 
																+           |                    ) AS all_mapping
															
 
																+           |            WHERE   all_mapping.c = 1
															
 
																+           |        ) AS t1
															
 
																+           |LEFT JOIN (
															
 
																+           |              SELECT  cid
															
 
																+           |                      ,current_cid AS new_cid
															
 
																+           |                      ,now() AS update_time
															
 
																+           |              FROM    winhc_eci_dev.inc_ods_company
															
 
																+           |              WHERE   ds = '$ds'
															
 
																+           |              AND     cid IS NOT NULL
															
 
																+           |              AND     current_cid IS NOT NULL
															
 
																+           |              group by cid,current_cid
															
 
																+           |          ) AS t2
															
 
																+           |ON      t1.new_cid = t2.cid
															
 
																+           |""".stripMargin)
															
 
																+    }
															
 
																+
															
 
																+    def inc(): Unit = {
															
 
																+
															
 
																+      val lastDs = getLastPartitionsOrElse("winhc_eci_dev.base_company_mapping", "20200604")
															
 
																+      val dss = getPartitions("winhc_eci_dev.inc_ods_company").filter(_ > lastDs)
															
 
																+
															
 
																+      println("计算分区：" + dss.mkString(","))
															
 
																+
															
 
																+      for (ds <- dss) {
															
 
																+        inc(ds)
															
 
																+      }
															
 
																+    }
															
 
																+  }
															
 
																+
															
 
																+
															
 
																+  def main(args: Array[String]): Unit = {
															
 
																+
															
 
																+    val project = "winhc_eci_dev"
															
 
																+    val config = EsConfig.getEsConfigMap ++ mutable.Map(
															
 
																+      "spark.hadoop.odps.project.name" -> project,
															
 
																+      "spark.debug.maxToStringFields" -> "200",
															
 
																+      "spark.hadoop.odps.spark.local.partition.amt" -> "100"
															
 
																+    )
															
 
																+    val spark = SparkUtils.InitEnv("inc_company_mapping", config)
															
 
																+
															
 
																+    val incCompanyMappingUtil = IncCompanyMappingUtil(spark, project)
															
 
																+    //    incCompanyMappingUtil.init()
															
 
																+    incCompanyMappingUtil.inc()
															
 
																+    spark.stop()
															
 
																+  }
															
 
																+
															
 
																+}
															
--- a/src/main/scala/com/winhc/bigdata/spark/model/CompanyCourtAnnouncement.scala
+++ b/src/main/scala/com/winhc/bigdata/spark/model/CompanyCourtAnnouncement.scala
@@ -88,7 +88,7 @@ case class CompanyCourtAnnouncement(s: SparkSession, sourceTable: String,
 
																       "score", "total", "extraScore")
															
 
																       .createOrReplaceTempView(s"${sourceTable}_tmp_view")
															
 
																-    logger.info(
															
 
																+    logInfo(
															
 
																       s"""
															
 
																          |- - - - - - - - - - - - - - - - - - - - - - - - -
															
 
																          |${showString(sql(s"select * from ${sourceTable}_tmp_view"))}
															
--- a/src/main/scala/com/winhc/bigdata/spark/model/CompanyIntellectualsScore.scala
+++ b/src/main/scala/com/winhc/bigdata/spark/model/CompanyIntellectualsScore.scala
@@ -155,7 +155,7 @@ case class CompanyIntellectualsScore(s: SparkSession, sourceTable: String, table
 
																       "score", "total", "extraScore")
															
 
																       .createOrReplaceTempView(s"t1_view")
															
 
																-    //    logger.info(
															
 
																+    //    logInfo(
															
 
																     //      s"""
															
 
																     //         |- - - - - - - - - - - - - - - - - - - - - - - - -
															
 
																     //         |${showString(sql(s"select * from t1_view"))}
															
--- a/src/main/scala/com/winhc/bigdata/spark/utils/LoggingUtils.scala
+++ b/src/main/scala/com/winhc/bigdata/spark/utils/LoggingUtils.scala
@@ -1,7 +1,7 @@
 
																 package com.winhc.bigdata.spark.utils
															
 
																 import org.apache.commons.lang3.StringUtils
															
 
																-import org.apache.log4j.Logger
															
 
																+import org.apache.spark.internal.Logging
															
 
																 import org.apache.spark.sql.types.{DataType, StructField, StructType}
															
 
																 import org.apache.spark.sql.{DataFrame, SparkSession}
															
@@ -11,15 +11,13 @@ import scala.collection.immutable.ListMap
 
																 /**
															
 
																  * π
															
 
																  */
															
 
																-trait LoggingUtils {
															
 
																+trait LoggingUtils extends Logging {
															
 
																   protected var sqlNo = 1
															
 
																-  @transient protected[this] val logger: Logger = Logger.getLogger(this.getClass)
															
 
																-
															
 
																   @(transient@getter) protected val spark: SparkSession
															
 
																   def sql(sqlString: String): DataFrame = {
															
 
																-    logger.info(
															
 
																+    logInfo(
															
 
																       s"""
															
 
																          |- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
															
 
																          |Job[${this.getClass.getSimpleName}].SQL[No$sqlNo.]